İşaret

2026-06-12 Yapay Zeka · Bilgisayarlı Görü · Doğal Dil İşleme · Robotik

ToolSense: LLM'lerin Araç Bilgisini Denetleyen Teşhis Çerçevesi

ToolSense, LLM'lerin araç kataloglarını gerçekten anlayıp anlamadığını otomatik benchmark'larla sorguluyor.

ToolSense, büyük dil modellerinin parametrik araç bilgisini ne ölçüde özümsediğini sistematik biçimde denetleyen açık kaynaklı bir teşhis çerçevesidir. Mevcut ToolBench benchmark'ları ayrıntılı, tam belirtilmiş sorgular kullandığından ve kısıtlı kod çözme uygulayarak modelin gerçek anlayışını gizlediğinden, yüksek retrieval skorları yanıltıcı olabilmektedir. ToolSense bu sorunu ele almak için herhangi bir araç kataloğunu girdi olarak alıp üç otomatik benchmark üretiyor: üç belirsizlik katmanlı Gerçekçi Retrieval Benchmark (RRB), çoktan seçmeli sorgulama benchmark'ı ve açık uçlu QA benchmark'ı. ToolBench'teki yaklaşık 47 bin araç üzerinde beş farklı parametrik model konfigürasyonu değerlendirildiğinde çarpıcı bir "bilgi-retrieval ayrışması" ortaya çıktı: bazı konfigürasyonlar RRB sorgularında tam belirtilmiş testlere kıyasla 50-64 puanlık düşüş yaşayarak embedding tabanlı taban çizgisinin altına indi. Dahası, güçlü retrieval performansı gösteren bazı modeller olgusal sorgulama testlerinde rastgele tahminden farklı sonuçlar üretemedi. Bu bulgu, retrieval başarısının gerçek araç anlayışının garantisi olmadığını açıkça gösteriyor; ToolSense ise bu boşluğu kapatmak için pratik ve genişletilebilir bir değerlendirme altyapısı sunuyor.

Arxiv CS.AI →

Google DeepMind'dan Encoder'sız Çok Modlu Model: Gemma 4 12B

Gemma 4 12B, görsel ve ses girişlerini ayrı encoder olmadan doğrudan işleyen ilk orta ölçekli açık ağırlıklı model.

Google DeepMind, 16 GB VRAM ile dizüstü bilgisayarlarda çalıştırılabilen yeni açık ağırlıklı modeli Gemma 4 12B'yi duyurdu. Modelin en dikkat çekici özelliği, geleneksel çok modlu mimarilerin temel unsuru olan ayrı görsel ve ses encoder'larını tamamen ortadan kaldırmasıdır; görüntü ve ses girdileri doğrudan dil modeli omurgasına akıyor. Bu encoder'sız tasarım hem gecikmeyi azaltıyor hem de bellek kullanımını düşürüyor. Gemma 4 12B, standart benchmark'larda 26B Mixture of Experts modelinin performansına yaklaşırken bellek ayak izi yarıdan fazla küçülüyor. Model aynı zamanda Multi-Token Prediction (MTP) taslakçılarıyla çıkarım gecikmesini de kısaltıyor ve Gemma ailesinin ilk orta ölçekli modeli olarak yerel ses girişini destekliyor. Apache 2.0 lisansıyla yayımlanan Gemma 4 12B, Gemma serisinin toplam indirme sayısını 150 milyonun üzerine taşıdı. Encoder'sız birleşik mimari yaklaşımın orta ölçekli açık modellere yaygınlaşması, donanım kısıtlı ortamlarda güçlü çok modlu ajan uygulamalarının önünü açıyor.

DeepMind Blog →

EquiDexFlow: Temas Kuvvetlerini Bilen Robot El Kavrama Modeli

EquiDexFlow, parmak ucu temas kuvvetlerini ve bilek pozunu birlikte tahmin ederek fiziksel olarak geçerli kavramalar üretiyor.

Robotik dexterous kavrama alanında yeni bir çalışma olan EquiDexFlow, temas kuvvetlerini yalnızca doğrulama adımına bırakmak yerine doğrudan üretim sürecine dahil eden SE(3)-eşdeğer bir akış eşleştirme modeli sunuyor. Model, bir nesnenin nokta bulutundan bilek pozu, eklem açıları, parmak ucu temas noktaları, yüzey normalleri ve temas kuvvetlerini eş zamanlı olarak tahmin ediyor. Mimari, temas noktalarını nesne yüzeyine ve kuvvetleri Coulomb sürtünme konisine yapısal kısıtlar aracılığıyla yansıttığından, sürtünme uyumluluğu ek ceza terimleri olmadan garanti altına alınıyor. 81 nesne üzerindeki 8.100 kuvvet-kapalı kavramayla eğitilen model, 16 serbestlik dereceli Allegro Hand için tüm ablasyon varyantları arasında en iyi bileşik skoru ve sıfır sürtünme ihlalini elde etti. Parmak ucu temas noktaları 16 serbestlik dereceli LEAP Hand'e yeniden hedeflenerek gerçek robot deneyleri yapıldı; tüm altı test nesnesinde başarılı açık döngü kavrama sergilendi. SE(3) simetrisi ve temas fiziğini birleştiren bu yaklaşım, güvenilir robot el kavramasını veri verimliliğiyle buluşturması açısından önemli bir adım.

Arxiv CS.RO →

Arbor: Otonom Ajanlar için Ağaç Arama Tabanlı Biliş Katmanı

Arbor, çok ajanlı ağaç aramasıyla LLM çıkarım optimizasyonunda tek ajana kıyasla %193'e varan verim kazancı sağlıyor.

Arbor, büyük ve durum bağımlı eylem uzaylarında çalışan otonom ajanlar için yapılandırılmış ağaç aramasını ortak bir biliş katmanı olarak kullanan çok ajanlı bir çerçevedir. Geleneksel otonom optimizasyon sistemlerinin durumsuz ve izole hedefler üzerinde çalışmasının aksine Arbor, puanlanmış hipotez ağaçlarını ajan belleği olarak kullanarak her ölçümde arama ağacını güncelliyor; başarısızlıkları tanısal sinyal olarak değerlendiriyor. Sistem, optimizasyonu yönlendiren bir Orkestratör ajanı ile kararlılığı güvence altına alan bir Eleştirmen ajanından oluşan denge mimarisiyle tasarlandı. Tam yığın LLM çıkarım optimizasyonu üzerinde doğrulanan Arbor, satıcı optimize edilmiş taban çizgilerine kıyasla verim-gecikme Pareto eğrisinde %193'e varan iyileştirme sağladı; harness olmadan çalışan tek ajan ise yalnızca %33 iyileştirmede kaldı ve saatler içinde çöktü. Donanım kuşaklarına genelleşen ve çalışma başına yalnızca 2 puanlık varyansla tutarlı sonuçlar üreten Arbor, mühendislik ekiplerinin günlerce uğraştığı optimizasyon kampanyalarını özerk biçimde yürütme kapasitesi sunuyor.

Arxiv CS.AI →

EgoEngine: İnsan Videolarından Sıfır-Shot Robot Manipülasyon Politikası

EgoEngine, ego-merkezli insan videolarını gerçek robot gösterimlerine dönüştürerek sıfır-shot dexterous politika öğrenimini mümkün kılıyor.

Dexterous robot manipülasyonunun önündeki en büyük engellerden biri büyük ölçekli gösterim verisi toplamaktaki yüksek maliyettir. EgoEngine, ego-merkezli RGB insan videolarını yüksek kaliteli robot verisine dönüştüren ölçeklenebilir bir çerçeve sunarak bu darboğazı hedef alıyor. Sistem iki temel boşluğu kapatıyor: insan ve robot gözlemleri arasındaki görsel uçurum ile insan hareketleri ve robot tarafından çalıştırılabilir eylemler arasındaki eylem uçurumu. Bir ego-merkezli video verildiğinde EgoEngine, sahne bağlamını ve zamansal hizalamayı koruyarak insanı robotla değiştirdiği bir yüksek kalite robot gözlem videosu üretiyor; buna ek olarak uygulanabilirlik kısıtları altında görev uyumlu yürütülebilir robot eylem yörüngeleri çıkarıyor. Simülasyon ve gerçek robot deneyleri, EgoEngine'in hiçbir gerçek robot gösterimi kullanmadan sıfır-shot vizüomotor dexterous politika öğrenimini başarıyla gerçekleştirebildiğini gösterdi. Bu, bilinen ilk sıfır-shot ego-merkezli insan videosundan dexterous politika öğrenimi sonucudur ve robot öğrenmesi için veri ölçeklendirme sorununa umut verici bir çözüm yolu açıyor.

Arxiv CS.RO →

Pythagoras-Prover: 671B Parametreli Modeli Geçen 4B Teorem İspatçısı

Pythagoras-Prover-4B, MiniF2F-Test'te DeepSeek-Prover-V2-671B'yi geride bırakırken 167 kat daha az parametre kullanıyor.

Pythagoras-Prover, kısıtlı hesaplama bütçeleri için tasarlanmış açık kaynaklı bir Lean teorem ispat ailesidir ve mevcut en iyi modellere kıyasla çarpıcı parametre verimliliği sergiliyor. Ailenin 4B ve 32B otoregressif modelleri ile ilk kavram kanıtı niteliğindeki 4B difüzyon tabanlı ispatçısı, iki temel yenilikle güçlendiriliyor. İlk yenilik, kolay, orta ve zor problemlere ayrılmış Lean doğrulanmış bir korpusla uygulanan müfredat tabanlı fine-tuning'dir; bu sayede modeller kısa ve basit ispatlardan uzun ve karmaşık olanlara kademeli olarak ilerliyor. İkinci yenilik, doğrulanmış her örneği formalize etmeye gerek kalmadan mevcut ifadelerin varyantlarını üretip seyrek veriyi genişleten Augmented Lean Formalisation (ALF) yaklaşımıdır. Sonuçlar dikkat çekici: Pythagoras-Prover-4B, MiniF2F-Test'te pass@32 metriğinde DeepSeek-Prover-V2-671B'yi (%82,4'e karşı %86,1) yaklaşık 167 kat daha az parametreyle geçerken, 32B model MiniF2F-Test'te %93,0 ile açık kaynak rekorunu kırdı ve PutnamBench'te 672 problemden 93'ünü çözdü. Bu sonuçlar, büyük dil modelleriyle resmi matematik arasındaki boşluğun hesaplama açısından erişilebilir yollarla kapatılabileceğine işaret ediyor.

Arxiv CS.AI →

SalArt-VQA: VLM'ler Yapay Zeka Görsel Hatalarını Gerçekten Anlıyor mu?

SalArt-VQA, yüksek tespit doğruluğunun görsel hata anlayışını garanti etmediğini 20 model üzerinde kanıtlıyor.

SalArt-VQA, görsel dil modellerinin yapay zeka tarafından üretilmiş görsellerdeki belirgin hataları yalnızca tespit etmekle kalmayıp gerçekten anlayıp anlamadığını ölçmek için tasarlanmış yeni bir teşhis benchmark'ıdır. Mevcut değerlendirmelerin yalnızca görsel düzeyde doğruluk ölçmesinin önemli başarısızlıkları gizlediği gözleminden yola çıkan araştırmacılar, 950 görsel ve 3.681 insan yazımı çoktan seçmeli sorudan oluşan bir veri kümesi derledi. Dört soru tipi sırasıyla varlık tespiti, anlamsal konumlandırma, uzamsal saptama ve kanıta dayalı hata tanımlamasını ölçüyor; referans bölmeleri ise hata yokken modelin yanlış alarm verip vermediğini test ediyor. 20 VLM üzerinde yapılan değerlendirmede en güçlü model hata görsellerinde %99,37 tespit geri çağırımı elde ederken dört sorunun tamamını yalnızca görsellerin %53,26'sında doğru yanıtlayabildi. Bunun yanı sıra hassas modellerin sıklıkla desteksiz hata iddiaları ürettiği, muhafazakâr modellerin ise gerçek hataları gözden kaçırarak yanlış alarmı engellediği bir hassasiyet-kalibrasyon değiş tokuşu gözlemlendi. SalArt-VQA, gerçek görsel anlayışı yüzeysel tespetten ayırt edebilen ince taneli değerlendirme altyapısı açısından alandaki kritik bir boşluğu dolduruyor.

Arxiv CS.CV →

Evoflux: Küçük Modeller için Çıkarım Zamanı Evrimsel Araç İş Akışı

Evoflux, küçük dil modellerinin araç yürütme başarısını %3'ten %24'e çıkaran evrimsel çıkarım zamanı arama yöntemi.

Evoflux, kompakt dil modellerinin MCP-tarzı canlı araç kataloglarında etkili ajan davranışı sergileyememesi sorununu çıkarım zamanı evrimsel aramayla çözmeyi hedefleyen yeni bir yöntemdir. Küçük planlayıcılar sözdizimsel olarak geçerli iş akışı grafikleri üretebilse de araç çözümleme, parametre doğrulama, bağımlılık takibi ve yürütme aşamalarında sıklıkla başarısız olur; Evoflux bu başarısızlıkları yürütme geri bildirimini evrimsel düzenlemelerle birleştirerek onarıyor. Yöntem, yazılan iş akışı grafikleri üzerinde yapısal düzenlemeler, uyarlanabilir arama yoğunluğu, meta güdümlü yeniden tasarım ve çeşitlilik budaması uygulayarak adım adım geçerli planlar üretiyor. 250 araç ve canlı MCP sunucularını kapsayan MCP-Bench görevlerinde Evoflux, küçük planlayıcılardaki yürütme uygulanabilirliğini yaklaşık %3'ten %17-24'e taşıdı. Aynı veriler üzerinde SFT ve SFT+DPO yaklaşımları sıfır-shot performansıyla eşleşirken ya da altına düşerken, ReAct daha yüksek tepe değerlere ulaştı ancak belirgin varyans ve yüksek token maliyetiyle geldi. Bu bulgular, öğretmen iz bütçelerinin kısıtlı olduğu senaryolarda yürütme temelli aramanın en güvenilir strateji olduğunu ortaya koyuyor.

Arxiv CS.AI →