1.
Araştırma
DPO Sohbet Robotlarının Ötesine Geçiyor
DharmaOCR ekibi, DPO'yu OCR'daki metin bozulma hatasını %59 azaltmak için kullandı.
Dharma-AI ekibi, Direct Preference Optimization (DPO) tekniğini sohbet hizalama amacının çok ötesinde, OCR sistemlerindeki metin bozulma hatasını bastırmak için başarıyla uyguladı. Yapılandırılmış belge OCR modeli DharmaOCR'ın geliştirilmesi sırasında ekip, denetimli fine-tuning'in (SFT) tekrarlama döngüsü hatalarını üretim için kabul edilebilir seviyelerin altına çekemediğini fark etti; kimi açık kaynaklı modellerde bu hata oranı %33'ü aşıyordu. Sorunun kökü SFT'nin kayıp fonksiyonunda yatıyor: token düzeyinde optimizasyon, bir çıktının bütününe baktığında bir hata olan tekrarlama döngüsünü cezalandırmıyor. DPO ise tam çıktıyı sinyal olarak kullanan bir yaklaşım; doğru transkripsiyonlar 'seçilen', bozulmuş çıktılar 'reddedilen' olarak etiketlendi ve modelin kendi başarısızlıkları eğitim verisi hâline getirildi. SFT sonrası uygulanan bu ikinci aşama, test edilen her model ailesinde istisnasız bozulma oranını düşürdü: ortalama %59,4, en iyi durumda %87,6 azalma. Bu tür tekrarlama hataları, özellikle yapılandırılmış belgelerin toplu işlendiği üretim hatlarında ciddi bir risk oluşturuyor; çünkü tek bir bozulmuş çıktı, otomasyon zincirinin tamamını manuel denetime geri düşürebiliyor. Üstelik yöntem mimaride herhangi bir değişiklik gerektirmiyor; SFT sonrasına eklenen tek bir ek eğitim aşamasından ibaret olması, tekniği mevcut üretim hatlarına düşük maliyetle entegre edilebilir kılıyor. Çalışma, DPO'nun yalnızca bir hizalama aracı olmadığını; doğru tercih sinyali oluşturulabilecek her nesnel görevde spesifik hata modlarını bastırmak için kullanılabileceğini gösteriyor.
Hugging Face Blog →
Paylaş: X · LinkedIn
2.
Araştırma
Robotlar Görev Beklemeden Oynayarak Beceri Öğreniyor
RATs sistemi, robotların serbest 'oyun' süreci aracılığıyla yeniden kullanılabilir beceriler edinmesini sağlıyor.
UC Berkeley ve diğer kurumlardan araştırmacılar, Playful Agentic Robot Learning adını verdikleri yeni bir paradigmayla robotların açık talimat beklemeksizin keşif odaklı oyun yoluyla beceri kütüphanesi oluşturmasını sağladı. Geliştirilen sistem RATs (Robotics Agent Teams), oyun aşamasında kendi kendine öğrenilebilir keşif görevleri öneriyor; robot kod politikaları planlıyor ve çalıştırıyor, ilerlemeyi doğruluyor, hataları teşhis ediyor ve yoğun adım düzeyindeki geri bildirimlerle yeniden deniyor. Başarılı çalışmalar kalıcı bir kod beceri kütüphanesine damıtılıyor. Test aşamasında ajan bu dondurulmuş kütüphaneden ilgili becerileri çekerek yeni görevleri çözüyor. LIBERO-PRO ve MolmoSpaces benchmark'larında oyun öncesi ve rastgele oyun temellerine kıyasla sırasıyla 20,6 ve 17,0 yüzde puan iyileşme elde edildi. Daha önemlisi, öğrenilen beceriler altta yatan model fine-tune edilmeden başka Code-as-Policy ajanlarına bağlamına eklenerek aktarılabiliyor; gerçek dünya transferinde 8,8 puanlık kazanım sağlandı. Yaklaşımın özgünlüğü, insan tarafından tanımlanmış görev müfredatlarına bağımlılığı azaltmasında yatıyor; tıpkı çocukların yapılandırılmamış oyun yoluyla ileride işe yarayacak motor becerileri kazanması gibi, robot da önceden belirlenmiş bir hedef olmadan keşif yapıyor. Kütüphanenin dondurulmuş olması da pratik bir avantaj sağlıyor: yeni görevler için modelin yeniden eğitilmesine gerek kalmadan, var olan beceriler doğrudan bağlama eklenerek kullanılabiliyor. Çalışma, görev odaklı robotik öğrenmenin bir adım ötesine geçerek talimat gelmeden önce beceri biriktiren otonom öğrenme döngülerinin mümkün olduğunu kanıtlıyor.
Arxiv CS.RO →
Paylaş: X · LinkedIn
3.
Araştırma
Tek Demonstrasyon Bin Trajektori Değerinde Olabilir
Fisheye kameradan Gaussian Splatting ile veri artırma, manipülasyon robotlarının dağılım dışı sahnelerdeki başarısını önemli ölçüde artırdı.
Stanford ve Toyota Araştırma Enstitüsü'nden araştırmacılar, görsel-motor manipülasyon politikalarının eğitiminde veri kıtlığı sorununu ele aldı. Geliştirilen Action-View Augmentation çerçevesi, tek bir gerçek dünya demonstrasyon videosundan hem görsel açıdan gerçekçi fisheye görüntü dizileri hem de fiziksel olarak uygulanabilir eylem trajektoryaları üretiyor. Bunun için geniş görüş açısına sahip fisheye kameralara uyarlanmış yeni bir Gaussian Splatting formülasyonu kullanıldı; bu formülasyon sahneyi 3B olarak yeniden oluşturuyor ve daha önce görülmemiş nesnelerle düzenlemeye imkân tanıyor. Yörünge optimizasyonu sayesinde çarpışmasız, pürüzsüz eylem yolları oluşturuluyor ve bu yollardan yeni bakış açılarına ait görsel gözlemler render ediliyor. Hem simülasyon hem de gerçek dünya deneyleri, bu veri artırma yaklaşımının engel kaçınma gerektiren sahneler de dahil olmak üzere çeşitli manipülasyon görevlerindeki başarı oranını belirgin biçimde yükselttiğini gösterdi. Geniş açılı fisheye kameralar, manipülasyon kollarına yakın mesafeden geniş bir görüş alanı sağladığı için robotik uygulamalarda tercih ediliyor, ancak bu lensin güçlü distorsiyon etkisi sentetik veri üretimini zorlaştırıyor; araştırmacıların geliştirdiği özel Gaussian Splatting formülasyonu tam da bu engeli aşmak için tasarlandı. Tek bir demonstrasyondan binlerce çeşitlenmiş eğitim örneği türetilebilmesi, yeni ortamlara robot dağıtımının önündeki en büyük maliyet kalemlerinden birini, kapsamlı insan demonstrasyonu toplama ihtiyacını, önemli ölçüde azaltıyor. CoRL 2025'te yayımlanan çalışma, pahalı ve zaman alıcı veri toplama süreçlerine ihtiyaç duymadan robot politikalarını dağılım dışı koşullara dayanıklı hâle getirmenin pratik bir yolunu sunuyor.
Arxiv CS.RO →
Paylaş: X · LinkedIn
4.
Araştırma
Difüzyon LLM'lerinde Sorgu Konumu Kritik Önem Taşıyor
Difüzyon dil modellerinde sorgunun bağlam içindeki konumu, örnek kalitesiyle eşdeğer etkiye sahip.
Araştırmacılar, otoregresif (AR) modellerde yoğun biçimde çalışılan In-Context Learning'in (ICL) difüzyon büyük dil modellerinde (dLLM) nasıl işlediğini ilk kez kapsamlı şekilde analiz etti. AR modellerinin aksine çift yönlü dikkat kullanan dLLM'ler, sorgunun bağlam içine yerleştirildiği konum açısından geniş bir esneklik sunuyor; ancak mevcut uygulamalar körü körüne AR-tarzı sona-sorgu şablonlarını devralıyor. Çalışma, sorgunun konumunun dLLM'lerde birinci derece bir değişken olduğunu ortaya koydu: konum farklılığının üretim kalitesine etkisi, örnek anlam kalitesiyle karşılaştırılabilir düzeyde. Bu hassasiyetin kaynağı, dikkat akışındaki uzamsal 'Yakınlık Etkisi' ve göreve bağlı kod çözme yörüngesi kaymaları. Sorunu gidermek için geleneksel tek adımlı güven metriği yerine, iteratif kod çözme sürecini izleyen Average Confidence ölçütü önerildi. Buna dayanan eğitimsiz uyarlamalı yönlendirme stratejisi Auto-ICL, heterojen akıl yürütme ve algı görevlerinde oracle performansına yakın sonuçlar elde etti. Pratikte bu, dLLM'lerle çalışan mühendislerin otoregresif modellerden devraldığı sezgisel istem tasarımı alışkanlıklarını sorgulaması gerektiği anlamına geliyor; sorgunun bağlamın başına, ortasına veya sonuna yerleştirilmesi, aynı içerikle bile çok farklı çıktı kalitesine yol açabiliyor. Average Confidence ölçütünün iteratif kod çözme sürecinin tamamını izlemesi, tek adımlık güven skorlarının dLLM'lerde neden yanıltıcı olabileceğini de açıklığa kavuşturuyor. Bulgu, dLLM tabanlı sistemler tasarlanırken şablon yapısının dikkat mekanizmasıyla birlikte ele alınması gerektiğine işaret ediyor.
Arxiv CS.CL →
Paylaş: X · LinkedIn
5.
Araştırma
ITNet: Konvolüsyon, Dikkat ve RNN Tek Çatı Altında
ITNet, konvolüsyon, self-attention ve tekrarlayan ağları tek bir öğrenilebilir integral dönüşüm olarak birleştirdi.
Araştırmacılar, derin öğrenmenin üç temel mimari ailesini, konvolüsyonel ağlar, tekrarlayan ağlar ve transformer'lar, ortak bir matematiksel nesne olarak yeniden tanımladı. Integral Transform Network (ITNet), konum ve özellik bilgisini birlikte kullanan öğrenilebilir bir çekirdek üzerine inşa edilmiş birleşik bir mimari sunuyor. Küçük bir MLP olarak uygulanan bu çekirdek, çiftler arası etkileşimleri modelliyor; böylece konvolüsyon, çok başlı self-attention ve LSTM, GRU, S4 ve Mamba dahil otoregresif tekrarlama mekanizmaları uygun parametrelerle bu çerçevenin özel durumları hâline geliyor. Teorik olarak sürekli operatörlerin evrensel yaklaşıklayıcısı olan ITNet'i ölçeklenebilir kılmak için karo çekirdek füzyonu, önem ağırlıklı Monte Carlo entegrasyonu ve düşük ranklı çarpanlara ayırma geliştirdi. Paylaşılan bir operatör ve hafif modaliteye özgü kodlayıcılardan oluşan tek bir ITNet mimarisi, ImageNet-1K, GLUE, ModelNet40 ve VQA v2 benchmark'larında uzmanlaşmış temel modelleri geçiyor ya da eşitiyor. Pratik açıdan bu birleşik çerçeve, farklı veri modaliteleri için ayrı mimari aileleri geliştirip bakımını yapma yükünü azaltma potansiyeli taşıyor; aynı temel operatör, görüntü, metin, 3B nokta bulutu ve görsel soru yanıtlama gibi çok farklı görevlerde yeniden kullanılabiliyor. Sürekli operatörlerin evrensel yaklaşıklayıcısı olma özelliği ise teorik bir güvence sunuyor: ITNet'in, doğru ölçeklendirme teknikleriyle daha büyük ve karmaşık problemlere de genişletilebileceğini gösteriyor. Çalışma, mimari çeşitliliğin farklı sinyal işleme mantıklarından değil, tek bir temel yapının eksik görünümlerinden kaynaklandığını öne sürüyor.
Arxiv CS.AI →
Paylaş: X · LinkedIn
6.
Araştırma
3B Sahne Grafları: Açık Sorunlar ve Gelecek Yönleri
13 kurumdan araştırmacı, 3D Sahne Graflarının mevcut sınırlarını ve çözüm bekleyen problemlerini kapsamlı biçimde haritaladı.
Annual Review of Control, Robotics, and Autonomous Systems için hazırlanan bu davetli anket makalesi, 3B Sahne Grafları (3DSG) alanını derinlemesiyle ele alıyor. 3DSG'ler, geometrik zemin ile anlambilimsel ve ilişkisel soyutlamaları birleştirerek manipülasyon, navigasyon, görev planlama ve sahne anlama gibi geniş bir uygulama yelpazesini kapsıyor. Ancak alan hâlâ parçalı: farklı topluluklar birbirinden ayrışan formülasyonlar, inşa boru hatları ve değerlendirme protokolleri kullanıyor; bu durum yöntemlerin karşılaştırılmasını güçleştiriyor. Makale, 3DSG'leri düğüm ve kenar öznitelikleri, hiyerarşik yapı, dinamik sahne temsilleri ve affordance'a duyarlı uzantılar gibi temel modelleme seçenekleriyle ortak bir tanım altında ele alıyor. Ham sensör verilerinden grafik inşasına yönelik terminoloji, teknikler ve değerlendirme stratejileri sistematik biçimde gözden geçiriliyor. 13 farklı kurumdan araştırmacının ortak yazarlığı, alandaki parçalanmanın boyutunu da dolaylı biçimde gözler önüne seriyor; robotik, bilgisayarla görü ve doğal dil işleme camiaları farklı terminolojiler ve değerlendirme ölçütleri geliştirdiği için, bir laboratuvarın sonuçları başka bir laboratuvarınkiyle doğrudan kıyaslanamıyor. Yazarlar bu nedenle standartlaştırılmış karşılaştırma ölçütleri, ortak veri kümeleri ve birlikte çalışabilir değerlendirme protokollerinin geliştirilmesini alanın önündeki en acil öncelik olarak işaret ediyor. Robotik ve bilgisayarla görü araştırmacıları için gerçek dünya konuşlandırmasında karşılaşılan kritik boşlukları açık biçimde ortaya koyan bu anket, alanın ileriki araştırma gündemini şekillendirmeye aday.
Arxiv CS.RO →
Paylaş: X · LinkedIn
7.
Araştırma
PerceptionDLM: Paralel Bölge Algısı için Difüzyon Dil Modeli
PerceptionDLM, difüzyon modellerinin paralel kod çözme özelliğini kullanarak çok bölgeli görsel algıyı hızlandırıyor.
Araştırmacılar, çok modlu büyük dil modellerinin görsel algı görevlerindeki otoregresif darboğazını aşmak için PerceptionDLM'yi geliştirdi. Mevcut sistemler birden fazla bölgeyi sırayla işlemek zorunda kalırken PerceptionDLM, difüzyon dil modellerinin (DLM) doğasındaki paralel kod çözme yeteneğinden yararlanarak tüm bölgeleri eş zamanlı olarak işliyor. Mimari, verimli istem tasarımı ve yapılandırılmış dikkat maskeleme ile birden fazla maskelenmiş bölgenin hem dizi hem de token düzeyinde paralel olarak algılanmasına imkân tanıyor. Açık kaynaklı difüzyon tabanlı çok modlu modeller arasında güçlü bir temel oluşturan PerceptionDLM-Base üzerine inşa edilen sistem, çok bölgeli görevlerde belirgin hız iyileştirmeleri sağlarken bölge açıklaması kalitesini koruyabiliyor. Bu kazanım, özellikle aynı anda çok sayıda nesnenin veya bölgenin açıklanması gereken video analizi ve sahne anlama gibi gerçek zamanlı uygulamalarda önem taşıyor; otoregresif modellerde bölge sayısı arttıkça gecikme doğrusal şekilde büyürken, paralel kod çözme bu darboğazı ortadan kaldırıyor. Paralel değerlendirmeyi sistematik hâle getirmek amacıyla DLC-Bench'i görüntü başına birden fazla bölge maskesi içerecek şekilde genişleten ParaDLC-Bench benchmark'ı da tanıtıldı. Kod, modeller ve veri kümeleri kamuya açık hâle getirildi; bu şeffaflık, bulguların bağımsız biçimde doğrulanmasını ve yeni yöntemlerin ParaDLC-Bench üzerinde karşılaştırılmasını kolaylaştırıyor. Çalışma, difüzyon dil modellerinin çok modlu görsel algıda otoregresif alternatiflere karşı gerçek bir verimlilik avantajı sunabileceğini somut olarak kanıtlıyor.
Arxiv CS.CV →
Paylaş: X · LinkedIn
8.
Araştırma
DeepSeek-V4: 1,6 Trilyon Parametreli Milyon Token Bağlam
DeepSeek-V4, 1,6T parametreli MoE mimarisi ve 1 milyon token bağlam uzunluğuyla büyük dil modellerinde yeni bir çıta koyuyor.
DeepSeek-AI, iki güçlü Mixture-of-Experts (MoE) dil modelinden oluşan DeepSeek-V4 serisinin önizleme sürümünü duyurdu: 1,6 trilyon toplam parametreye sahip DeepSeek-V4-Pro (49 milyar aktif) ve 284 milyar parametreli DeepSeek-V4-Flash (13 milyar aktif). Her iki model de bir milyon token bağlam uzunluğunu destekliyor. Seri, önceki nesle kıyasla mimari, eğitim ve çıkarım altyapısında kritik yükseltmeler içeriyor; ancak ön baskıda teknik ayrıntılar henüz tam olarak açıklanmadı. MoE yaklaşımı, modelin ölçeğini olağanüstü büyütürken çıkarım başına hesaplama maliyetini kontrol altında tutmayı hedefliyor: V4-Pro'da 1,6 trilyon parametrenin yalnızca 49 milyarı bir seferde aktif. Milyon token bağlam kapasitesi, uzun belgeler, geniş kod tabanları ve çok adımlı akıl yürütme gerektiren uygulamalar için yeni olanaklar açıyor. Aktif parametre sayısının toplam parametre sayısına oranının düşük tutulması, modelin çıkarım maliyetini ve gecikme süresini ölçeğinden beklenenin çok altında tutuyor; bu da MoE mimarisinin büyük modelleri pratikte kullanılabilir kılmanın temel stratejilerinden biri olduğunu bir kez daha doğruluyor. Önizleme aşamasında paylaşılan bu duyuru, ayrıntılı teknik rapor ve karşılaştırmalı benchmark sonuçlarının yakında geleceğine işaret ediyor; araştırma topluluğu şimdiden modelin gerçek dünya performansını bağımsız biçimde ölçmeye hazırlanıyor. Büyük ölçekli MoE tasarımında Çin kaynaklı araştırmanın sınırları zorlamayı sürdürdüğünü gösteren DeepSeek-V4, hem açık araştırma topluluğu hem de endüstri için önemli bir referans noktası oluşturuyor.
Arxiv CS.CL →
Paylaş: X · LinkedIn