1.
Araştırma
Dijital İkiz ve RL ile Cerrahi Video Anlama
LLM'ler, dijital ikiz temsilleri üzerinde pekiştirmeli öğrenmeyle eğitilerek cerrahi videolarda çok adımlı akıl yürütme yapabiliyor.
Johns Hopkins araştırmacıları, cerrahi video soru-cevap sistemleri için algıyı akıl yürütmeden ayıran yeni bir pekiştirmeli öğrenme (RL) çerçevesi geliştirdi. Cerrahi VideoQA sistemleri, ameliyat sırasında karar desteği sağlamak ve cerrahları eğitmek için kritik öneme sahip; ancak mevcut yöntemler videoları ayrık token temsillerine sıkıştırarak uzamsal-zamansal ilişkileri sekteye uğratıyor ve bu da çok adımlı akıl yürütmeyi ciddi biçimde kısıtlıyor. Önerilen yaklaşım, cerrahi temel modellerden oluşturulan dijital ikiz temsilleri üzerinde çalışan büyük dil modellerini (LLM) eğitmek için RL kullanıyor; böylece model, ham piksellerden ziyade yapılandırılmış bir sahne temsili üzerinden akıl yürütüyor. Sistem; kare, zaman penceresi ve prosedür düzeylerinde hiyerarşik temsiller ile olasılıksal belirsizlik tahminleri içeriyor, yani model yalnızca cevap üretmiyor, ne kadar emin olduğunu da raporluyor. Eğitim ödülü ise format doğrulamasını klinik geçerlilik değerlendirmesi ve belirsizlik kalibrasyonuyla harmanlayarak modelin hem doğru hem de güvenilir cevaplar vermesini teşvik ediyor. Çalışma aynı zamanda kolonoskopi için 2.000 soru-cevap çiftinden oluşan REAL-Colon-Reason benchmark'ını tanıtıyor ve mevcut cerrahi VideoQA benchmark'larında en iyi performansı elde ediyor. Tıbbi yapay zekanın güvenilir klinik akıl yürütme için mimari olarak nasıl yeniden tasarlanabileceğini somut biçimde göstermesi açısından önemli bir katkı; yaklaşımın kolonoskopi ötesinde laparoskopik ve robotik cerrahi gibi diğer görüntü tabanlı klinik alanlara da taşınabilir olması bekleniyor.
Arxiv CS.CV →
Paylaş: X · LinkedIn
2.
Araştırma
Robotik Manipülasyonda Eylem Uzayları Karşılaştırmalı Analizi
Görme tabanlı robotik RL'de eklem hızı eylem uzayı, sim-to-real transferde en iyi hareket akıcılığı ve görev başarımını sunuyor.
Yeni bir benchmark çalışması, görme tabanlı robotik manipülasyonda pekiştirmeli öğrenme (RL) için dört farklı eylem uzayını—poz artışı, poz hızı, eklem konum artışı ve eklem hızı—nesne tutma ve itme görevleri üzerinde sistematik biçimde karşılaştırdı. Eylem uzayı seçimi, bir RL politikasının çıktısının robotun eklemlerine nasıl çevrileceğini belirleyen, sıklıkla göz ardı edilen ama performansı doğrudan etkileyen bir tasarım kararı. Politikalar simülasyonda eğitilip sim-to-real transfer yoluyla gerçek dünyaya aktarıldı ve her eylem uzayı aynı görev kümesi, aynı ödül fonksiyonu ve aynı eğitim bütçesiyle karşılaştırıldı. Sonuçlar, eylem uzayı seçiminin sim-to-real performansını anlamlı biçimde etkilediğini ve bazı uzayların simülasyonda iyi çalışırken gerçek robotta belirgin biçimde bozulduğunu ortaya koyuyor. Özellikle eklem hızı eylem uzayının hem hareket akıcılığı hem de nihai görev başarı oranı açısından diğer üç alternatife kıyasla tutarlı biçimde üstün geldiği belirlendi. Araştırma, RL uygulayıcılarına simülasyon ve gerçek dünya deneyleri için eylem uzayı seçimi konusunda pratik rehberlik sunarken, hangi koşullarda poz tabanlı uzayların tercih edilebileceğini de tartışıyor. Robotik sistemlerin gerçek dünyaya geçişinde sıkça göz ardı edilen bu tasarım kararının kritik olduğunu belgeleyen çalışma, endüstriyel ve araştırma robotik sistemleri için somut, tekrarlanabilir bir başvuru kaynağı niteliği taşıyor.
Arxiv CS.RO →
Paylaş: X · LinkedIn
3.
Araştırma
LLM Unutma Öncesi Teminat Hasar Denetimi: PreUnlearn
PreUnlearn, LLM'lerde bir bilgiyi silmeden önce hangi ilgisiz bilgilerin zarar göreceğini tahmin ediyor.
PreUnlearn çerçevesi, büyük dil modellerinde makine unutma (machine unlearning) işlemi gerçekleştirilmeden önce teminat bilgi hasarını denetlemeyi mümkün kılıyor. Makine unutma, modelden belirli bir bilgiyi yeniden eğitmeden silmeyi hedefliyor, ancak bu müdahalenin model üzerindeki yan etkilerini önceden öngörmek bugüne dek zor bir problemdi. Araştırmacılar, unutma etkisinin yalnızca hedef bilgi kümesinde kalmadığını; aynı alandaki ve hatta görünüşte ilgisiz uzak alanlardaki bilgilere de yayıldığını deneysel olarak ortaya koydu. Bununla birlikte hasar, semantik uzaklıkla azalıyor ancak alan sınırlarında tamamen ortadan kalkmıyor; yani kavramsal olarak ne kadar uzak olursa olsun küçük de olsa bir sızıntı riski kalıyor. Çalışma, unutma öncesi denetimi bir tahmin görevi olarak formüle ediyor ve hangi veri özelliklerinin aşağı akış hasarını en iyi öngördüğünü sistematik biçimde analiz ediyor. Bulgular, unutulacak küme ile değerlendirme kümesi arasındaki etkileşim özelliklerinin en güçlü sinyali ürettiğini gösteriyor; bu da teminat hasarının model güncellenmeden önce veri geometrisine kısmen yansıdığına işaret ediyor. Güvenli ve güvenilir LLM yönetimi için bilgi silme işlemlerinin ne kadar riskli olduğunu önceden saptamayı sağlayan bu yaklaşım, model uyum ve gizlilik araçları açısından kritik bir araştırma adımı ve düzenleyici uyumluluk süreçleri için de pratik bir denetim aracı olabilir.
Arxiv CS.CL →
Paylaş: X · LinkedIn
4.
Araç
Reachy Mini Robota MCP Araçları Eklendi
Reachy Mini artık Hugging Face Spaces üzerinden hava durumu ve web araması gibi araçları tek komutla kullanabiliyor.
Pollen Robotics ve Hugging Face iş birliğiyle geliştirilen yeni entegrasyon, Reachy Mini masaüstü robotuna MCP (Model Context Protocol) protokolü üzerinden harici araçlar eklemeyi mümkün kılıyor. MCP, büyük dil modellerinin dış sistemlerle standart bir arayüz üzerinden konuşmasını sağlayan, hızla ekosistem kazanan açık bir protokol; Reachy Mini entegrasyonu bu protokolü doğrudan fiziksel bir robotun ajan mimarisine taşıyor. Kullanıcılar artık robota hava durumu sorgulama veya web araması gibi yetenekleri, kod yazmak yerine tek bir terminal komutuyla ekleyebiliyor. Araçlar, Hugging Face Spaces üzerinde çalışıyor; yerel makineye hiçbir kod indirilmiyor, bu da kurulum sürtünmesini ve güvenlik yüzeyini önemli ölçüde azaltıyor. Sistem, profil tabanlı bir yapı kullanıyor: her profilin bir `tools.txt` dosyası hangi araçların etkin olduğunu belirliyor, böylece kullanıcılar farklı görevler için farklı araç setleri arasında kolayca geçiş yapabiliyor. Geliştiriciler kendi araçlarını Space olarak yayımlayarak tüm Reachy Mini kullanıcılarıyla paylaşabiliyor ve topluluk odaklı bir araç kütüphanesinin önünü açıyor. Bu mimari, robotun fiziksel yeteneklerini kontrol eden yerel araçlarla bulut tabanlı bilgi araçlarını temiz bir biçimde ayırıyor. Açık kaynak robot-ajan ekosistemi için modüler ve ölçeklenebilir bir araç altyapısı örneği sunan bu entegrasyon, fiziksel yapay zeka ajanlarının internet ölçeğindeki hizmetlere bağlanmasının pratik ve erişilebilir bir yolunu gösteriyor.
Hugging Face Blog →
Paylaş: X · LinkedIn
5.
Araştırma
Guava: VLM'leri Robotik Manipülasyon için Harnesleme
Guava çerçevesi, 4B parametreli küçük bir modeli 2.000'den az simülasyon yörüngesiyle sınır modelleriyle rekabet edebilir düzeye taşıyor.
Guava, büyük dil ve görme-dil modellerini (VLM) robotik manipülasyon görevleri için uçtan uca VLA sistemleri yerine modüler araç kullanımıyla harnesleyen yeni bir çerçeve. Uçtan uca görme-dil-eylem (VLA) modelleri genellikle devasa veri kümeleri ve hesaplama gücü gerektiriyor; Guava bunun yerine var olan güçlü VLM'leri bir dizi araç aracılığıyla manipülasyon görevlerine yönlendirmeyi tercih ediyor. Araştırmacılar, etkili bir somutlaştırılmış ajan tasarımının üç temel bileşenden oluştuğunu belirledi: yinelemeli algı-akıl yürütme-eylem döngüleri, semantik eylem soyutlamaları ve çok kipli gözlemler. Bu ilkeler ışığında geliştirilen uçtan uca eğitim hattı, yalnızca simülasyonda toplanan 2.000'den az yörünge kullanarak manipülasyon yeteneklerini 4B parametreli açık kaynak bir modele damıtıyor; bu da veri toplama maliyetini geleneksel VLA eğitimine kıyasla büyük ölçüde düşürüyor. Simülasyon ve gerçek dünya testlerinde model, çok daha büyük özel sınır modellerine yakın performans gösterirken görülmemiş nesnelere, yeni talimatlara ve uzun vadeli görevlere güçlü genelleme sergiliyor. Sonuçlar, iyi tasarlanmış bir harnes çerçevesinin model boyutundan bağımsız olarak somutlaştırılmış yetenekleri ortaya çıkarabileceğini ve robotik alanda veri verimliliğinin ham model ölçeğinden çoğu zaman daha kritik olduğunu kanıtlıyor.
Arxiv CS.RO →
Paylaş: X · LinkedIn
6.
Araştırma
VEGA: Etiketlenmemiş Egosantrik Videodan Navigasyon Öğrenimi
VEGA, internet ölçeğindeki egosantrik videolardan geometrik yörünge denetimiyle engel farkındalıklı robot navigasyon politikaları eğitiyor.
VEGA, etiketlenmemiş egosantrik navigasyon videolarından Görme-Dil-Eylem (VLA) modelleri eğitmek için yeni bir yaklaşım sunuyor. Robot navigasyon politikalarını eğitmek geleneksel olarak gerçek robotlarla veya pahalı simülasyon altyapılarıyla veri toplamayı gerektiriyor; VEGA bunun yerine birinci-şahıs videoları doğrudan eğitim sinyaline dönüştürmeyi hedefliyor. İnternet ölçeğindeki egosantrik videolar, karmaşık sahneler, yakın mesafeli engeller ve gerçek mekânlardaki insan hareketini kapsayan zengin bir navigasyon gözlem kaynağı oluşturuyor; ancak bu videolar robot koordinat çerçevesinde hedef koşullu yörüngeler içermediği için doğrudan kullanılamıyor. VEGA bu boşluğu, tek kameralı videodan yerel sahne geometrisini yeniden yapılandırarak ve oluşturulan geometri üzerinden engel farkındalıklı yörüngeler üretip bir flow-matching VLA navigasyon politikası eğiterek kapatıyor. Ayrıca 250.000 sahne ve yaklaşık 5 milyon navigasyon hedefini kapsayan büyük ölçekli VEGA-Bench benchmark'ı da tanıtılıyor. Gerçek dünya denemelerinde VEGA, en güçlü taban çizgisine kıyasla başarı oranını en az %150 artırırken çarpışmaları %66,7 azaltıyor ve engel açıklığını %60 iyileştiriyor. Videolardan türetilen geometrik denetimin ölçeklenebilir ve etkili bir eğitim sinyali sağlayabileceğini gösteren bu çalışma, pahalı robot veri toplama sürecini kökten dönüştürme ve navigasyon araştırmalarını internet ölçeğine taşıma potansiyeli taşıyor.
Arxiv CS.RO →
Paylaş: X · LinkedIn
7.
Araştırma
SPEx: LLM Davranışında Ölçeklenebilir Etkileşim Analizi
Berkeley'den SPEx ve ProxySPEX, büyük dil modellerindeki karmaşık özellik etkileşimlerini hesaplama maliyetini minimize ederek tespit ediyor.
Berkeley BAIR laboratuvarından araştırmacılar, büyük dil modellerindeki istatistiksel etkileşimleri ölçekte tanımlamak için SPEx ve ProxySPEX algoritmalarını geliştirdi. Model davranışı çoğunlukla yalıtılmış bileşenlerden değil, girdi token'ları, eğitim örnekleri ve iç bileşenler arasındaki karmaşık bağımlılık örüntülerinden ortaya çıkıyor; bu da yorumlanabilirliği son derece güçleştiriyor ve tekil özelliklere bakan klasik atıf yöntemlerini yetersiz kılıyor. Çalışma, ablasyon kavramını merkeze alıyor: girdi bölümlerini maskeleyerek özellik atfı, eğitim alt kümelerini değiştirerek veri atfı ve iç bileşenlere müdahale ederek mekanistik yorumlanabilirlik elde ediliyor. Olası etkileşim sayısı özellik sayısıyla üstel büyüdüğünden kapsamlı analiz hesaplama açısından olanaksız hale geliyor; SPEx bu sorunu minimum sayıda ablasyon denemesiyle kritik etkileşimleri bulmayı sağlayan ölçeklenebilir bir yöntemle çözerken, ProxySPEX daha da büyük ölçekli modeller için yaklaşık ama hızlı bir alternatif sunuyor. Hem özellik hem veri hem de model bileşeni etkileşimlerine uygulanabilen bu yaklaşım, LLM'lerin neden belirli kararlar aldığını anlamamızı ve bu sistemleri daha güvenli, hesap verebilir ve güvenilir kılmayı hedefleyen yorumlanabilirlik araştırmalarında sağlam, tekrar kullanılabilir bir metodolojik temel oluşturuyor.
Berkeley BAIR Blog →
Paylaş: X · LinkedIn
8.
Araştırma
Gaussian Karışım Dikkati: Doğrusal Zamanlı Transformer Alternatifi
GMA, standart dikkat mekanizmasının O(n²) bellek maliyetini K sabit bileşenle O(nK)'ya indiren olasılıksal bir sequence mixer sunuyor.
Gaussian Mixture Attention (GMA), Transformer mimarilerinin uzun bağlamlara ölçeklenmesinin önündeki en temel engel olan standart dot-product attention'ın yoğun token-token etkileşim örüntüsüne olasılıksal bir alternatif getiriyor. Standart dikkat mekanizması her token çiftini açıkça karşılaştırdığından bellek ve hesaplama maliyeti dizi uzunluğunun karesiyle büyüyor; GMA bu ikili karşılaştırmayı tamamen ortadan kaldırarak farklı bir yörüngeden ilerliyor. GMA, açık ikili sorgu-anahtar karşılaştırmasını K adet öğrenilmiş Gaussian karışım bileşeni üzerinden yönlendirmeyle değiştiriyor. Sorgular ve anahtarlar, paylaşılan bir gizli yönlendirme uzayında sonsal sorumluluk vektörlerine eşleniyor; bu örtük affinite tanımı N×N matrisini oluşturmayı gereksiz kılıyor ve bellek karmaşıklığını O(N²)'den O(NK)'ya indiriyor; burada K, dizi uzunluğundan bağımsız sabit bir bileşen sayısı. Hem çift yönlü hem de nedensel GMA varyantları formüle edilen çalışmada, model uzun bağlam sınıflandırmasında dikkat tabanlı taban çizgileriyle rekabet ederken WikiText-103'te test edilen doğrusal/rastgele-özellik dikkat varyantlarını geride bırakıyor; ancak optimize SDPA ve Mamba'nın henüz gerisinde kalıyor. Olasılıksal ve yorumlanabilir bir doğrusal dikkat alternatifi olarak GMA, özellikle bellek kısıtlı uzun bağlam görevlerinde Transformer ölçeklendirme araştırmaları için umut verici, henüz olgunlaşmamış ama üzerine inşa edilebilir bir yön işaret ediyor.
Arxiv CS.LG →
Paylaş: X · LinkedIn