İşaret

2026-07-01 Yapay Zeka · Bilgisayarlı Görü · Doğal Dil İşleme · Robotik

Bu sayı, robotik ve yapay zekanın ortak bir gerilim noktasında buluşuyor: sistemler gerçekten anlıyor mu, yoksa yalnızca istatistiksel örüntüleri taklit mi ediyor? VLA modellerinin fiziksel akıl yürütmedeki sınırlarından dinamik sahnelerin 4 boyutlu temsiliyle yörünge transferine uzanan makaleler, hem mevcut yaklaşımların kırılganlığını hem de bu kırılganlıkları gidermek için geliştirilen mimari ve veri çözümlerini birlikte ele alıyor. Tüm bu çalışmaları bir arada okumak, tek bir makalenin veremeyeceği bir bütünlük sunuyor: teorik eleştiri, pratik araç ve ölçüm altyapısı aynı anda görünür hale geliyor.

VLA Modelleri Fiziksel Akıl Yürütmeyi Kanıtlayamıyor

Yeni pozisyon makalesi, VLA sistemlerinin fiziksel genelleme yaptığına dair iddiaların mevcut değerlendirme protokolleriyle doğrulanamadığını savunuyor.

Vision-Language-Action (VLA) sistemleri robot manipülasyon benchmark'larında hızla iyileşen sonuçlar sergilese de bu başarının internet ölçeğinde ön-eğitimden kazanılan semantik temsillerin fiziksel eylemlere gerçekten transfer edildiğini kanıtladığı varsayımı artık ciddi biçimde sorgulanıyor. Chen ve ekibi, VLA politikalarını semantik eşleme ve fiziksel eylem kararı bileşenlerine ayırarak tek başına görev başarı oranının bu iki kaynağı birbirinden ayırt edemediğini gösteriyor. Benchmark performansındaki artışlar; semantik eşleştirme kapasitesi, veri dağılımı örtüşmesi veya gerçek fiziksel genelleme gibi birbiriyle rekabet eden açıklamalarla eşit biçimde uyumlu olabilmektedir. Bu durum, mevcut değerlendirme protokollerinin nedensel mekanizmaları ortaya çıkarmaktan ziyade performansı ölçmekle sınırlı kaldığını gösteriyor. Makale ayrıca ardışık çalışmaların altta yatan nedensel mekanizmayı izole etmeden önceki yorumları miras aldığı "anlatı kayması" olgusunu da kapsamlı biçimde ele alıyor; bu olgu, alandaki bilgi birikiminin ne ölçüde sağlam temellere dayandığını sorgulatıyor. Araştırmacılar, semantik ve fiziksel genellemeyi ayrı ayrı ölçen kontrollü değerlendirme tasarımlarına dayalı yeni bir araştırma yönü öneriyor. Önerilen çerçeve, hangi koşullar altında ön-eğitimin fiziksel becerilere gerçekten katkı sağladığını test edecek deney protokolleri içeriyor. Bu çalışma, robotik alanındaki ön-eğitim iddialarının ne zaman ve nasıl doğrulanabileceğine dair metodolojik bir zemin oluşturması ve alana daha titiz bir deneysel kültür kazandırma potansiyeli taşıması bakımından kritik önem taşıyor.

Arxiv CS.RO →

VLM Tabanlı Ödül Modeli Endovasküler Robotik Navigasyonu İyileştiriyor

Görsel-dil modelleriyle dinamik ödül uyarlaması yapan VL-PR çerçevesi, robotik kılavuz tel navigasyonunda bağlam farkındalığını artırıyor.

Robotik destekli endovasküler girişimler, hasta özgü karmaşık damar anatomilerinde hassas ve bağlam duyarlı kılavuz tel navigasyonu gerektiriyor; ancak mevcut otonom yöntemler statik ödül fonksiyonlarıyla sınırlı kalarak değişen prosedürel koşullara uyum sağlayamıyor. Tian ve ekibi, bu sorunu çözmek için çok modlu büyük bir dil modelini (MLLM) prosedürel akıl yürütme modülü olarak kullanan Vision-Language Procedural Reasoning (VL-PR) çerçevesini öneriyor. Sistem, gerçek zamanlı görsel gözlemleri yorumlayarak yüksek seviyeli navigasyon bağlamlarını çıkarıyor; düşük seviyeli kontrol komutu üretmek yerine farklı navigasyon aşamalarında ödül bileşenlerinin ağırlığını dinamik olarak ayarlıyor. Bu tasarım sayesinde tek bir politika, birbiriyle çelişen hedefleri çözümleyebiliyor, karmaşık aşama geçişlerini yönetebiliyor ve sabit ödül yapılarının yetersiz kaldığı senaryolarda daha güvenilir kararlar alabiliyor. Çeşitli damar senaryolarını kapsayan fiziksel robotik platformdaki deneyler, statik ödül yöntemlerine kıyasla artırılmış görev güvenilirliği ve daha akıcı bir navigasyon verimliliği ortaya koyuyor. Kılavuz telin zorlu damar kavşaklarını geçme başarı oranı belirgin biçimde iyileşirken gereksiz geri dönüş manevralarının sayısı da düşüyor. IROS 2026'ya kabul edilen bu çalışma, VLM'lerin tıbbi robotik alanda prosedürel bağlamı anlama ve ödül şekillendirmeye entegre edilme kapasitesini somut verilerle ortaya koyması ve klinik uygulanabilirlik açısından yeni bir yol haritası çizmesi bakımından öne çıkıyor.

Arxiv CS.RO →

Kavrama Veri Setleriyle El Becerisi Öğrenimi: DexCraft Benchmark'ı

355 bin yörüngeli kavrama ön-eğitim dataset'i, robotların artiküle aletleri kullanma becerisini %33 puan artırıyor.

Büyük ölçekli dexterous kavrama veri setleri el-nesne etkileşimi üzerine zengin ön bilgiler barındırsa da kullanımları çoğunlukla kavrama üretimi ve al-koy manipülasyonuyla sınırlı kalmıştır. Yuan ve ekibi, bu veri setlerinin bir robotun aleti edinip temas halinde tutarak hareketli parçalarını çalıştırmasını gerektiren fonksiyonel el becerisi görevlerini destekleyip destekleyemeyeceğini araştırıyor. Araştırmacılar, yüksek seviyeli el alt-hedef tahmini ile düşük seviyeli hedef koşullu denetleyiciyi birleştiren hiyerarşik taklit öğrenme çerçevesini uyarlayarak 355 bin yörüngeli kapsamlı bir ön-eğitim dataset'i oluşturdu ve düşük seviyeli denetleyiciyi bu veriyle ön-eğitti. Yaklaşımın temel varsayımı, kavrama veri setlerindeki temas dinamiklerinin al-koy görevlerinin ötesinde, artiküle nesnelerle etkileşim gerektiren daha karmaşık becerilere de genellenebileceğidir. Yöntemin değerlendirilmesi amacıyla koordineli parmak hareketi gerektiren altı farklı artiküle alet kullanımı görevini içeren DexCraft simülasyon benchmark'ı tanıtıldı. Gerçek dünya deneylerinde yaklaşım, DP3 baseline'ına kıyasla tam görev başarısını 33,3 yüzde puan artırdı; bu kazanım, veri ölçeğinin temas açısından zengin politikaları destekleme gücünü açıkça ortaya koyuyor. Bu sonuçlar, kavrama veri setlerinin yalnızca kavrama sentezi kaynağı olarak değil, ölçeklenebilir ön-eğitim verisi olarak da değerlendirilebileceğini kanıtlayarak robotik el becerisi araştırmalarında mevcut veri altyapısının nasıl daha verimli kullanılabileceğine dair önemli bir perspektif sunuyor.

Arxiv CS.RO →

Torchtune v0.6.0: Tensor Paralel ve Çok Düğümlü Eğitim Desteği

Meta'nın açık kaynak fine-tuning kütüphanesi torchtune, Tensor Paralel + FSDP, çok düğümlü eğitim ve tam dağıtık DPO tarifi getiriyor.

Meta tarafından geliştirilen açık kaynak model ince ayar kütüphanesi torchtune'un v0.6.0 sürümü, dağıtık eğitim kapasitelerini önemli ölçüde genişleten yeni özelliklerle yayımlandı. Bu sürümün en dikkat çekici yeniliği, Tensor Paralel (TP) ile FSDP'nin birleştirilmesidir: FSDP veriyi GPU'lar arasında bölerken TP her model katmanını aynı anda birden fazla GPU'ya dağıtarak büyük ölçekli eğitimde hem bellek kullanımını optimize ediyor hem de genel işlem hızını artırıyor. Çok düğümlü (multinode) fine-tuning desteğiyle birlikte SLURM üzerinden birden fazla makineye eğitim başlatmak artık doğrudan kütüphane içinden mümkün hale geldi; bu özellik özellikle kurumsal araştırma altyapılarında torchtune'u pratik bir seçenek konumuna getiriyor. Dağıtık DPO tarifi ise 70 milyar parametrenin üzerindeki modellerin tercih tabanlı hizalamasını dağıtık altyapıyla gerçekleştirebilmeyi sağlıyor; bu sayede büyük modelleri tek bir düğümde hizalamak zorunda kalma kısıtı ortadan kalkıyor. Sürüm ayrıca Microsoft'un 14 milyar parametreli Phi 4 modeline destek, MLFlow ile deney kaydı tutma entegrasyonu ve NPU uyumluluğunu da bünyesine katıyor. Tüm bu geliştirmeler, torchtune'u yalnızca küçük ölçekli deneyler için değil, gerçek anlamda üretim yakınlığında dağıtık fine-tuning senaryoları için de geçerli bir araç haline getiriyor. Kısıtlı kaynaklarla büyük dil modellerini ince ayarlayan araştırmacı ve mühendisler için bu sürüm, açık ekosisteme değerli bir altyapı katkısı sunuyor.

Torchtune Releases →

LearnStop: Akıl Yürütme Modellerinde Maliyet Bilinçli Erken Çıkış

LearnStop, akıl yürütme modellerinde ne zaman durulacağını öğrenerek sabit bütçe altında doğruluğu artırıyor; ancak faydası göreve göre değişiyor.

Akıl yürütme modelleri farklı sorular için farklı miktarda hesaplama harcıyor; bu nedenle bir durma kuralının ne zaman basit eşik tabanlı yöntemleri geçtiği belirsizliğini koruyordu. Dong ve ekibi, gizli durum gerektirmeyen bir checkpoint durdurucu olan LearnStop'u öneriyor. Sistem, sabit bütçe checkpoint'lerinde mevcut akıl yürütme önekinden kısa bir yanıt çıkarıyor; ardından yanıt güveni, entropi, oy payı, cevap kararlılığı ve geri izleme işaretçi yoğunluğu gibi çevrimiçi özniteliklerden önek doğruluğunu tahmin ediyor. Bu öznitelik seti, modelin o ana kadar ürettiği akıl yürütme zinciri hakkında zengin bir sinyal sağlayarak ne zaman durmak gerektiğine ilişkin daha bilinçli kararlar alınmasını mümkün kılıyor. GSM8K, MATH-500, MMLU-Pro, AIME-90 ve GPQA'yı kapsayan 18 görev-model ayarında yapılan değerlendirmeler, sonuçların göreve bağlı olduğunu açıkça ortaya koyuyor: serbest biçimli matematik problemlerinde LearnStop skaler çıkışların ötesine geçerken çoktan seçmeli ve aşırı zor görevlerde skaler güven veya entropi kuralları rekabetçi kalıyor. Bu bulgu, öğrenilmiş bir durma mekanizmasının her durumda üstün olmadığını; yararının görevin yapısına ve modelin belirsizlik sinyallerinin güvenilirliğine bağlı olduğunu gösteriyor. Temel sonuç, öğrenilmiş durmanın "birçok soru tam bütçeden önce doğru yanıta ulaşıyor ancak tek başına güvenilir bir skaler sinyal vermiyor" koşulunda en değerli olduğunu ortaya koyuyor; bu çerçeve, test zamanı hesaplama verimliliği araştırmaları için pratik ve ölçülebilir bir kılavuz sunuyor.

Arxiv CS.AI →

ViTL: Temporal Mantıkla Sıfır-Atış Uzun Ufuklu Robot Navigasyonu

ViTL, doğal dil komutlarını LTL formüllerine çevirerek robotların sıfır-atış uzun vadeli çok hedefli navigasyon görevlerini tamamlamasını sağlıyor.

Robotların doğal dil komutlarını izleyerek sıfır-atış uzun ufuklu görevleri tamamlaması; örtük zamansal ve mantıksal kısıtları çıkarma ile birden fazla alt görevi koordineli biçimde yürütmeyi gerektirdiğinden zorlu olmaya devam ediyor. Liang ve ekibinin önerdiği ViTL çerçevesi bu sorunu iki ayrı düzeyde ele alıyor. Görev düzeyinde büyük bir dil modeli (LLM) doğal dil komutlarını Linear Temporal Logic (LTL) formüllerine derliyor; bu formüller Deterministik Sonlu Otomatlara (DFA) dönüştürülerek çok kanallı değer haritaları koordine ediliyor ve ortamda yeni nesneler algılandığında dinamik yeniden planlama otomatik olarak tetikleniyor. Bu yaklaşım, yalnızca anlık hedefe odaklanan yöntemlerin gözden kaçırdığı sıralama ve zamansal bağımlılık kısıtlarını sistematik biçimde temsil etmeyi mümkün kılıyor. Navigasyon düzeyinde ise görüş alanının tamamına tek bir yönsüz değer atamak yerine gözlem görüntüsündeki sınır yönleri etiketlenerek VLM'den yön başına puanlar elde ediliyor; bu sayede ajan, hareket kararlarını daha ince bir mekânsal anlayışla alıyor. Habitat-Matterport 3D üzerindeki deneyler, sistemin zamansal kısıtlı doğal dil navigasyonunu ek eğitim verisi gerektirmeden sıfır-atışla başarıyla yönettiğini kanıtlıyor. Formal doğrulama yöntemlerini sinirsel algıyla birleştiren bu yaklaşım, ev robotları ve otonom sistemler için anlamlı ve güvenilir doğal dil arayüzleri geliştirme yolunu somut bir zemine oturtması bakımından önemli bir adım niteliği taşıyor.

Arxiv CS.RO →

Streaming Gaussian Encoding ile 4D Panoramik Sahne Takibi

Kalıcı Gaussian gizil temsil kullanan yeni yöntem, kamera tabanlı 4D panoramik doluluk takibinde zamansal tutarlılığı ihmal edilebilir hesaplama maliyetiyle artırıyor.

Kamera tabanlı 4D panoramik doluluk takibi (4D-POT), çok görüşlü görüntülerden geometri, semantik ve nesne kimliklerini zaman içinde eş zamanlı çıkarmayı sağlayan umut verici bir paradigma; ancak mevcut maske tabanlı boru hatları her zaman adımında hacimsel temsili sıfırdan yeniden hesapladığından tıkanma bölgelerinde ve uzun süreli statik öğelerde zamansal geometrik tutarlılık bozuluyor. Luz ve ekibi bu sorunu çözmek için ego hareketi tazminatıyla yayılan ve güven güdümlü bir bütçe kısıtı altında seçici biçimde yenilenen sabit boyutlu bir gizli Gaussian sorgu kümesi koruyan streaming Gaussian encoder öneriyor. Derinlik tabanlı denetimle şekillendirilen Gaussian opaklıkları, hangi bölgelerin görünür olduğuna dair bir göstergе işlevi görürken güven skoru, zamansal olarak biriktirilen sahne desteği ölçütüne dönüşüyor. Bu birikim mekanizması, modelin daha önce gözlemlediği geometriyi unutmamasını ve kısmi tıkanmalar ya da geçici görünürlük kayıpları karşısında tutarlı bir temsil sürdürmesini sağlıyor. Isınma tabanlı çok çerçeveli eğitim stratejisiyle birleşince yöntem, yalnızca decoder seviyesinde izlemenin ötesinde temsil düzeyinde gerçek anlamda zamansal tutarlılık kazanıyor. Occ3D-genişletilmiş nuScenes ve Waymo veri setleri üzerindeki kapsamlı deneyler, yaklaşımın kamera tabanlı 4D-POT için yeni bir state-of-the-art belirlediğini ve mevcut maske tabanlı boru hatlarıyla tam uyumlu kaldığını gösteriyor; bu uyumluluk, yöntemin mevcut sistemlere kolayca entegre edilebileceğine işaret ediyor.

Arxiv CS.CV →

Gizil Sahne Gömüleri Yörünge Tahmin Transferini Ölçüyor

24 büyük dataset'i kapsayan çalışma, gizil sahne benzerliğinin çapraz dataset model performansıyla güçlü korelasyon gösterdiğini kanıtlıyor.

Veri odaklı hareket tahmin modellerinin bir dataset'ten diğerine aktarılamaması; sahne düzeni, ajan davranışı ve algılama koşullarındaki farklılıklardan kaynaklanıyor ve bu durum hangi dataset üzerinde ön-eğitim yapılması gerektiğini seçmeyi büyük ölçüde deneme yanılmaya bırakıyor. Westny ve ekibi, dataset'lerin gizil temsillerini öğrenen ve dağılımsal metriklerle aralarındaki benzerlikleri ölçen sistematik bir çerçeve sunuyor. Hesaplanan transfer edilebilirlik skorları, kaynak dataset'ten hedef dataset'e geçişte beklenen model performansını tahmin etmek için kullanılabiliyor. Otonom sürüşten yaya takibine uzanan en yaygın benchmark'ları da kapsayan 24 büyük dataset'i içeren bu geniş ölçekli çalışmada elde edilen skorlar, çapraz dataset model performansıyla güçlü bir korelasyon sergiliyor. Bu ilişki, araştırmacıların pahalı eğitim deneyleri yapmadan önce hangi kaynak verisiyle ön-eğitim yapılması gerektiğini daha bilinçli seçmesine olanak tanıyor. Araştırmacılar bu bulgunun dataset seçimi, ön-eğitim stratejileri ve hareket tahmini için büyük ölçekli temel model geliştirme konularında pratik rehberlik sunduğunu vurguluyor; özellikle veri toplama maliyetinin yüksek olduğu otonom araç senaryolarında kaynak tahsisini optimize etme potansiyeli öne çıkıyor. ECCV 2026'ya kabul edilen bu çalışma, model genellemesinin kör denemeler yerine ölçülebilir dataset benzerlik metrikleriyle yönlendirilebileceğini göstermesi bakımından otonom sistem araştırmaları için değerli bir metodolojik araç sunuyor.

Arxiv CS.CV →