1.
Araştırma
NVIDIA Cosmos 3: Fiziksel AI için Omnimodal Dünya Modeli
NVIDIA'nın Cosmos 3'ü dil, görüntü, video, ses ve eylemleri tek bir transformer mimarisinde birleştiriyor.
NVIDIA araştırmacıları, Fiziksel AI uygulamaları için tasarlanmış omnimodal dünya modeli ailesi Cosmos 3'ü tanıttı. Model, dil, görüntü, video, ses ve eylem dizilerini tek bir birleşik mixture-of-transformers mimarisi altında hem işleyip hem üretebiliyor; bu sayede farklı modaliteleri ayrı modellerle ele alma zorunluluğunu ortadan kaldırıyor. Cosmos 3'ün temel yeniliği, son derece esnek girdi-çıktı konfigürasyonlarını desteklemesi: kullanıcı ihtiyacına göre herhangi bir modalite kombinasyonu hem girdi hem çıktı olarak kullanılabiliyor. Bu esneklik, robotik sistemlerden otonom araçlara kadar geniş bir Fiziksel AI yelpazesinde kritik öneme sahip. Mimarinin omnimodal yapısı, gerçek dünya ile etkileşim kuran akıllı sistemlerin daha bütünleşik ve tutarlı bir şekilde eğitilmesine olanak tanıyor. Cosmos 3, dünya modellerinin yalnızca simülasyon değil, gerçek fiziksel ortamlarda karar verme ve hareket planlama amacıyla da kullanılabileceğini göstermesi bakımından sektör için önemli bir referans noktası oluşturuyor.
Arxiv CS.CV →
2.
Araştırma
Motorlar Değil Hava Kasları: DIY İki Ayaklı Robot
Shadow Walker, elektrik motorları yerine pnömatik hava kasları kullanan nadir bir DIY insansı robot prototipi.
IEEE Spectrum, 1987'ye dayanan bir proje olan Shadow Walker'ı ele alıyor: elektrik motorları yerine pnömatik 'hava kasları' kullanan, DIY ruhlu bir iki ayaklı insansı robot. Pnömatik yapay kaslar, basınçlı hava ile şişerek kasılma hareketi üretiyor ve insan kaslarının mekanik davranışını taklit ediyor. Bu yaklaşım, geleneksel servo veya fırçasız motorlarla karşılaştırıldığında doğal bir yumuşaklık ve darbe emme kapasitesi sunuyor; özellikle insan-robot etkileşimi açısından güvenlik avantajı sağlıyor. Bununla birlikte hava kasları, hassas konum kontrolü ve enerji verimliliği açısından elektrikli sistemlere kıyasla ciddi güçlükler barındırıyor. Prototip, ahşap çerçeve ve devre dışı bırakılmış bileşenlerle inşa edilmiş olmasına rağmen alternatif tahrik sistemleri konusunda önemli mühendislik dersler sunuyor. Bu proje, robotik alanında egzotik aktüatörlere duyulan ilginin yeniden canlandığı bir dönemde, pnömatik sistemlerin insansı robotlarda ne kadar ileriye taşınabileceğini somut biçimde sorguluyor.
IEEE Spectrum Robotics →
3.
Araştırma
MetaWorld: Tek Kameradan Çok-Ajanlı Video Dünya Modeli
MetaWorld, pahalı çok kameralı çekimler gerektirmeden tek görüntüden çok-ajanlı video dünya modeli oluşturuyor.
Araştırmacılar, embodied AI ve Metaverse uygulamaları için çok-ajanlı video dünya modellerini tek kameralı video verisinden ölçeklendiren MetaWorld çerçevesini önerdi. Mevcut video dünya modelleri tek bir ajanın tek bir perspektifine kısıtlıyken MetaWorld, iki kritik sorunu aynı anda çözüyor: koordineli çok görüşlü kayıtların veri kıtlığı ve bağımsız üretilen video akışlarında dünya durumu tutarsızlığı. Bunun için Monocular World-State Unrolling (MWSU) yöntemi, tek kamera görüntüsünü kamera operatörünün ego-hareketi ile görünür öznenin uzamsal yörüngesine ayırıyor; bu ayrıştırma, çok-ajanlı hareket verisi elde etmek için fazladan kamera kurulumu gerektirmiyor. Subject-Aware World Generator ise ajan kimlik görüntülerine koşullu görsel simülasyon üretiyor. World-State Alignment mekanizması, her transformer katmanına eklenen çapraz dikkat ile iki görüşün aynı fiziksel gerçekliğe dayandığını güvence altına alıyor. MetaWorld, ölçeklenebilir ve fizik-güdümlü çok-ajanlı video modelleme için somut bir yol haritası sunuyor.
Arxiv CS.CV →
4.
Araştırma
COD10K-C: Kamuflajlı Nesne Tespitinde Robustness Benchmark'ı
COD10K-C, 8 bozulma türü ve 5 şiddet seviyesiyle kamuflajlı nesne tespit modellerini gerçek koşullarda sınıyor.
Araştırmacılar, kamuflajlı nesne tespiti (COD) modellerinin gerçek dünya koşullarındaki dayanıklılığını ölçmek amacıyla COD10K-C benchmark'ını tanıttı. Mevcut benchmark'ların büyük çoğunluğu modelleri yalnızca temiz görüntüler üzerinde değerlendirirken gerçek kameralar bulanıklık, sensör gürültüsü, hava efektleri ve sıkıştırma bozulmalarıyla sıklıkla karşılaşıyor. COD10K-C, COD10K dataset'i temel alarak 8 bozulma türü ve 5 şiddet seviyesini kapsayan 40 koşulda toplam 81.040 değerlendirme çifti sunuyor. SINet-v2, PFNet ve ZoomNet gibi popüler modeller test edildiğinde tüm modellerin bozulmalı görüntülerde belirgin performans düşüşleri yaşadığı görüldü; hareket bulanıklığı ve Gaussian bulanıklığı en büyük kayıplara yol açarken SINet-v2 hareket bulanıklığında 18,5 Dice puanı kaybetti. Corruption augmentation ve frekans-öncelikli dal kullanan RobustCODLite ise temiz veri Dice skorunun %92,3'ünü koruyarak öne çıktı. COD10K-C, alan genelinde robustness araştırmalarını standartlaştırmak için açık kaynak olarak yayımlanacak.
Arxiv CS.CV →
5.
Araştırma
IdiomX: Deyim Anlama için Çok Dilli Benchmark
IdiomX, 12 binden fazla deyim ve 190 binden fazla örnekle dil modellerinin deyim anlayışını çok dilli olarak ölçüyor.
Araştırmacılar, dil modellerinin deyimsel ifadeleri anlama, erişme ve yorumlama kapasitesini ölçmek için IdiomX adlı büyük ölçekli çok dilli benchmark'ı tanıttı. Deyimsel ifadeler, anlamlarının bileşenlerinin toplamından farklı olması, bağlama derinden bağlı olması ve diller arası hizalamanın güçlüğü nedeniyle doğal dil işlemede kalıcı bir zorluk kaynağı olmaya devam ediyor. IdiomX, sözcüksel kaynak çıkarımı, büyük dil modeli ile zenginleştirme ve yapılandırılmış doğrulama aşamalarından oluşan üretilebilir bir pipeline ile inşa edildi. Dataset, İngilizce, Arapça ve Fransızca semantik hizalamaları, deyimsel/literal kullanım etiketleri ve zengin dilbilimsel meta verilerle birlikte 12 binden fazla deyimi kapsayan 190 binden fazla bağlamlı örnek içeriyor. Dört görevlik birleşik benchmark deyim tespiti, bağlam-deyim erişimi, Arapça-İngilizce çapraz dilli erişim ve deyim yorumlamasını kapsıyor. Sonuçlar, bağlamsal transformer modellerinin deyim tespitini önemli ölçüde iyileştirdiğini ortaya koyarken IdiomX, dil modellerinin mecazi dil konusundaki sınırlarını sistematik biçimde haritalandırmak için kapsamlı bir araç sunuyor.
Arxiv CS.CL →
6.
Araştırma
Transformer Derin Katmanlarında Değer Vektörleri Bağlama İhtiyaç Duymuyor
Bank of Values yöntemi, derin katman değer vektörlerinin artık akışsız öğrenilmesiyle LLM performansını artırıyor.
Yeni bir çalışma, transformer mimarisinin derin katmanlarındaki değer vektörlerinin artık akışından (residual stream) bağlam almak zorunda olmadığını ortaya koydu. Standart attention katmanları, query, key ve value vektörlerini üretmek için artık akışını girdi olarak kullanıyor; ancak araştırmacılar derin katmanlarda yalnızca bağımsız (context-free) değer vektörü öğrenilmesinin model performansını anlamlı biçimde artırdığını keşfetti. Bağımsız değer vektörüne erişim sağlandığında bağlama dayalı bileşenin eklenmesi toplu benchmark performansına kayda değer bir katkı sağlamıyor. Bu bulgulara dayanan araştırmacılar, son üçte bir katmanda token-özel değer vektörlerinden oluşan bir arama tablosu kullanan Bank of Values (BoV) yöntemini önerdi. BoV, bağımsız değer vektörlerini seyrek model parametreleri olarak depolayarak yeniden hesaplama veya önbellekleme ihtiyacını ortadan kaldırıyor. 135 milyon ve 780 milyon parametreli modellerde BoV, standart attention'a kıyasla doğrulama kaybını düşürürken 21 benchmark genelinde daha az hesaplama ve bellekle en iyi rakip yöntemi yakalıyor; bu bulgu LLM mimarisi anlayışını temelden sorguluyor.
Arxiv CS.CL →
7.
Araştırma
Büyük Akıl Yürütme Modellerinde Zararlı Aşırı Düşünme Sorunu
Doğru cevaba ulaştıktan sonra düşünmeyi sürdüren akıl yürütme modelleri, %21'e kadar doğruluk kaybı yaşayabiliyor.
Araştırmacılar, büyük akıl yürütme modellerinin (LRM) doğru yanıta ulaştıktan sonra düşünmeyi sürdürmesinin performansı nasıl bozduğunu sistematik biçimde inceledi. Test-time compute artırımıyla çalışan LRM'ler genellikle uzun akıl yürütme zincirlerinin her zaman faydalı olduğu varsayımına dayanıyor; ancak bu çalışma tam tersini gösteriyor. Araştırmacılar, prefix-level trajectory evaluation protokolü ile 'akıl yürütme yeterliliği' kavramını tanımladı: bir modelin doğru yanıtı ilk kez üretmesi için gereken minimum akıl yürütme bütçesi. Bu sayede gereksiz ama zararsız söylemli aşırı düşünme, zaten doğru olan yanıtı bozan zararlı aşırı düşünmeden ayrıştırılabiliyor. Sonuçlar çarpıcı: ilk doğru yanıtta durulduğunda doğruluk, standart akıl yürütmeye kıyasla %21'e kadar artıyor. Erken durdurma gibi verimlilik stratejileri söylemli aşırı düşünmeyi %50 azaltsa da zararlı aşırı düşünmeyi önlemekte yetersiz kalıyor. Hata analizi, sapmaların ağırlıklı olarak mantıksal kayma ve görsel yeniden yorumlamadan kaynaklandığını ortaya koyuyor; bu bulgu LRM güvenilirliği için kritik bir uyarı niteliği taşıyor.
Arxiv CS.AI →
8.
Araç
Microsoft ASSERT: Metinle AI Davranış Testi Oluşturma Aracı
Microsoft'un açık kaynaklı ASSERT çerçevesi, doğal dil açıklamalarından otomatik AI davranış testleri üretiyor.
Microsoft, geliştiricilerin yapay zeka sistemlerinin ürün veya hizmete özgü davranışlarını test etmesini kolaylaştırmak amacıyla ASSERT'i (Adaptive Spec-driven Scoring for Evaluation and Regression Testing) açık kaynak olarak duyurdu. ASSERT, bir AI modelinin beklenen davranışlarının ve politikalarının düz dilde açıklamalarını alıp bunları kabul edilebilir ve kabul edilemez davranışlar kümesine dönüştürüyor; ardından senaryo ve test senaryoları üreterek hedef sisteme karşı çalıştırıyor ve sonuçları puanlıyor. Framework aynı zamanda AI sisteminin ara eylemleri ve araç çağrıları dahil izlediği yolları kaydederek geliştiricilerin hata noktalarını incelemesine olanak tanıyor. Örneğin bir belge araştırma ajanının şirket dışına e-posta göndermemesi gerektiği belirtildiğinde ASSERT bu kuralı sürekli denetleyen test senaryoları oluşturuyor. Microsoft'un Sorumlu AI baş ürün sorumlusu Sarah Bird'ün belirttiği üzere genel değerlendirmeler uygulama bağlamına özgü davranışları ölçmekte yetersiz kalıyor; ASSERT bu boşluğu doldurmayı ve AI değerlendirmelerini geliştirme, dağıtım ve sürekli izleme aşamalarının tümünde standartlaştırmayı hedefliyor.
TechCrunch AI →