İşaret — 2026-06-10

1. Araştırma

Altı Hizalama Algoritması Mekanistik Olarak Karşılaştırıldı

PPO'dan KTO'ya altı tercih optimizasyonu yöntemi, dil modellerinin iç katmanlarını nasıl yeniden şekillendirdiği ilk kez sistematik biçimde incelendi.

Araştırmacılar, post-training hizalama algoritmalarının dil modellerinin iç hesaplamalarını nasıl değiştirdiğini ortaya koyan kapsamlı bir mekanistik analiz yayımladı. PPO, DPO, SimPO, ORPO, GRPO ve KTO olmak üzere altı tercih optimizasyonu yöntemi, üç farklı açık ağırlıklı model ailesi üzerinde katman bazlı lineer probing, Sparse Autoencoder'lar ve crosscoder'lar kullanılarak incelendi. Bulgular, tercih sinyallerinin tutarlı biçimde erken-orta ya da orta-geç katmanlarda yoğunlaştığını; ancak farklı hedeflerin niteliksel olarak birbirinden ayrışan temsil dönüşümlerine yol açtığını gösteriyor. KTO ve GRPO, özellik paylaşımı yoluyla lineer ayrılabilirliği artırırken DPO ve ORPO geometrik rotasyon ve özellik zayıflaması nedeniyle bu ayrılabilirliği bozuyor; PPO ve SimPO ise büyük ölçüde temel geometriyi koruyor. Çalışma, davranışsal hizalamanın iç yapıyı tek tip biçimde yeniden düzenlemediğini kanıtlayarak güvenlik ve yorumlanabilirlik denetimleri için özellik düzeyinde standart bir yaklaşıma duyulan ihtiyacı güçlü biçimde ortaya koyuyor.

Arxiv CS.LG →

2. Araştırma

SD-GRPO Uzun Görsel-Dil Çıktılarında Segment Bazlı Ödül Ataması Getiriyor

SD-GRPO, GRPO'nun tek skaler ödül atamasını segment bazlı doğrulanabilir avantajlara bölerek çok-modal uzun çıktı kalitesini artırıyor.

GRPO ve türevleri, büyük dil modellerinden çok-modal modellere başarıyla aktarılmış olsa da tek bir skaler avantaj değeriyle yapılan kaba ödül ataması, semantik açıdan zengin görüntülere dayanan uzun biçimli görsel-dil çıktılarında yetersiz kalmaktadır. Bu sorunu çözmek için önerilen SD-GRPO, uzun biçimli çıktıları doğal segmentlerine ayırarak her segment için ayrı doğrulanabilir ödüller hesaplıyor ve bunları rollout grubu genelinde z-normalize ediyor; böylece tek skaler yerine segment başına avantaj vektörü üretiyor. Yöntem, DOCCI'dan oluşturulan çok panelli yoğun altyazı, MultiChartQA'dan oluşturulan çok grafikli uzun biçimli VQA ve MMSci veri setindeki gerçek dünya bilimsel şekil altyazısı olmak üzere üç farklı ortamda test edildi. Semantik açıdan bağımsız segmentlerde SD-GRPO, GRPO taban çizgisini sürekli olarak geride bırakırken; segmentlerin birbirine semantik olarak bağlı olduğu görevlerde bütünsel ödüllerin karışımıyla daha da güçleniyor. Sonuçlar, segment bazlı ödül normalizasyonunun mevcut herhangi bir GRPO çerçevesine minimum ek yükle entegre edilebildiğini göstererek uzun biçimli çok-modal üretimi sistematik biçimde iyileştirmenin pratik bir yolunu sunuyor.

Arxiv CS.CV →

3. Araştırma

1B Parametreli Efficient-WAM Robotlarda 30 Kat Hızlanma Sağlıyor

Efficient-WAM, fotorealistik video tahmini gerektirmeden ~100 ms gecikmeyle gerçek zamanlı robot kontrolü yapabilen kompakt bir dünya-aksiyon modeli sunuyor.

Dünya-Aksiyon Modelleri (WAM), gelecekteki görsel tahminleri aksiyon üretimiyle birleştirerek bedenleşik kontrol için umut verici bir paradigma haline gelmiştir; ancak mevcut modellerin fotorealistik tahmin gereksinimleri yüksek çıkarım gecikmesine yol açarak gerçek zamanlı robot dağıtımını zorlaştırmaktadır. Efficient-WAM, bu sorunu üç temel tasarım seçimiyle aşıyor: WAN-2.2-5B modelinden aktarılan kompakt bir video uzmanı, token-seyrek video latent'leri ve aksiyonlara kıyasla videoya daha az örnekleme adımı ayıran asimetrik video-aksiyon gürültü giderme. Model, gelecek video tahminini görsel kalite hedefi olarak değil, aksiyon üretimi için kompakt bir rehberlik sinyali olarak ele alıyor. RoboTwin 2.0 ve gerçek dünya manipülasyon görevlerindeki deneyler, modelin görünür biçimde kaba gelecek tahminlerine rağmen güçlü aksiyon performansını koruduğunu gösteriyor. Yalnızca 1B parametreyle çalışan Efficient-WAM, fiziksel dağıtımda parça başına gecikmeyi yaklaşık 100 ms'ye indirerek mevcut WAM'lara göre 30 kat hızlanma elde ediyor; bu da gerçek zamanlı robotik uygulamalar için pratik bir eşiğin kapılarını aralıyor.

Arxiv CS.RO →

4. Araştırma

GHOST Hiyerarşik Alt-Hedef Politikalarıyla Robot Manipülasyonunu Genelleştiriyor

GHOST, yüksek seviyeli 3D alt-hedef tahmini ile düşük seviyeli robot kontrolünü birleştirerek eğitim dağılımı dışındaki nesnelere başarıyla genelleme yapıyor.

RSS 2026'ya kabul edilen GHOST çerçevesi, visuomotor manipülasyon politikalarının eğitim dağılımının ötesine genelleme yapabilmesi için kontrolü iki katmana ayırıyor: çok görüşlü RGB-D gözlemlerinden bir sonraki alt-hedefi 3D uç-efektör pozu dağılımı olarak tahmin eden üst seviye politika ve bedenleşik spesifik aksiyonlar yürüten alt seviye hedef koşullu kontrolcü. İmge tabanlı politikaları 3D hedeflere koşullandırmak için tahmin edilen hedefleri görüntü düzlemine yansıtan ve uç-efektör ısı haritaları olarak temsil eden basit bir uzamsal arayüz sunuluyor. Çeşitli manipülasyon görevlerinde bu hiyerarşik ayrıştırma, düz Diffusion Policy'ye kıyasla tutarlı performans ve sağlamlık artışı sağlıyor. Alt-hedefler büyük ölçüde bedenleşik-agnostik olduğundan üst seviye politika insan videolarıyla eğitilerek gürültülü aksiyon yeniden hedeflemeye ihtiyaç duyulmadan insan demolarının entegrasyonu kolaylaştırılıyor; bu da modelin yeni nesnelere ve görev varyasyonlarına yalnızca küçük bir demo setiyle uyum sağlamasına olanak tanıyor.

Arxiv CS.RO →

5. Araştırma

Hiyerarşik VLA Sistemlerinde Hangi Tasarım Seçimleri Gerçekten Önemli?

Sistematik bir kıyaslama çalışması, Hi-VLA robot sistemlerinde planlayıcı-kontrolcü arayüzü ve bellek temsili gibi tasarım seçimlerinin performansı nasıl şekillendirdiğini ortaya koyuyor.

Hiyerarşik vizyon-dil-aksiyon (Hi-VLA) sistemleri, üst seviye VLM planlayıcıların görevleri alt seviye VLA kontrolcülerin yürüttüğü dil alt-hedeflerine ayrıştırmasıyla karmaşık robot manipülasyonu için güçlü bir paradigma sunmaktadır. Ancak bu sistemlerin nasıl tasarlanması gerektiğine dair birleşik prensipler mevcut değildir. Bu çalışma, temsili Hi-VLA ajanlarını bir options-stili kontrol çerçevesi altında birleştirerek kısa ufuk, uzun ufuk ve akıl yürütme yoğun görevler genelinde temel tasarım seçimlerini kıyaslıyor. Analiz; model seçimleri, planlayıcı-kontrolcü bağlantı mekanizmaları, gözlem temsili ve bellek yapısının birlikte nasıl performansı şekillendirdiğine dair somut prensipler ortaya koyuyor. Bu prensiplerin uygulanması, hem düz VLA kontrolüne hem de naif hiyerarşik tasarıma kıyasla önemli ölçüde güçlü bir sistem elde edilmesini sağlıyor; sonuçlar simülasyon ve gerçek bir ALOHA robotuyla doğrulanıyor. Çalışma, daha yetenekli ve prensipli Hi-VLA sistemleri inşa etmek için rehber niteliğinde pratik bulgular sunuyor.

Arxiv CS.RO →

6. Araştırma

KV Önbellek Kuantizasyonu Modellerin Güvenlik Hizalamasını Sessizce Bozuyor

KV cache kuantizasyonunun Mistral-7B'de yalnızca 1,03x perplexity artışıyla %15,2 güvenlik reddi kaybına yol açtığı keşfedildi; eğitimsiz PCR yöntemi bu kaybın %97'sini geri kazanıyor.

Büyük dil modellerinde çıkarım belleğini azaltmak için yaygın kullanılan KV önbellek kuantizasyonu, standart doğruluk metriklerini neredeyse etkilemeden güvenlik hizalamasını ciddi biçimde bozabilmektedir. 11 instruction-tuned model (3,8B–72B) ve 1.894 prompt üzerinde yürütülen kapsamlı bir çalışma, düşük bit kuantizasyonunun Mistral-7B'de yalnızca 1,03x perplexity artışıyla %15,2 oranında güvenlik reddi kaybına yol açtığını ortaya koyuyor; dahası model ailesine özgü keskin faz geçişleri standart metriklerle görünmez kalmaktadır. Sorunun kökü geometriktir: güvenlik özellikleri, perplexity'nin ortalamasını aldığı tam temsil uzayına kıyasla kuantizasyon gürültüsüne 10²–10³ kat daha duyarlı düşük boyutlu bir aktivasyon alt-uzayında bulunmaktadır. Bu teşhisten hareketle önerilen Per-Channel Reduction (PCR) yöntemi, her modeli üç mekanik hata modundan birine sınıflandırarak doğru hafifletme yönünü yalnızca 20 kalibrasyon promptuyla öngörüyor. Eğitim gerektirmeyen ve yaklaşık 35 GPU dakikasıyla çalışan protokol, üretim ortamındaki vLLM servislemede %97'ye varan hizalama geri kazanımı sağlıyor.

Arxiv CS.LG →

7. Araştırma

Çok-Modal LLM'lerde Ses ve Görsel Bilginin Ağ İçi Yolculuğu Haritalandı

Araştırmacılar, ses-görsel LLM'lerin modalitenin görevdeki ağırlığına göre bilgiyi nasıl yönlendirdiğini ilk kez mekanistik düzeyde ortaya koydu.

Ses-görsel büyük dil modellerinin (AVLLM) ağ içinde sesi ve görüntüyü nasıl işleyip yanıtı şekillendirdiği bugüne dek büyük ölçüde belirsiz kalmaktaydı. Bu çalışma, ses-görsel video ve çoklu iç içe geçmiş ses-görsel öğeler olmak üzere iki giriş konfigürasyonunda AVLLMlerin ses ve görsel bilgiyi nasıl yönlendirdiğini, kullandığını ve entegre ettiğini izleyerek mekanistik bir tablo çıkarıyor. Bulgular, ses-görsel video için AVLLMlerin VLM ve VideoLLM'lerde yerleşik sıralı bilgi akışı yolunu izlediğini ve her modaliteye ait katkının görevin o modaliteye olan bağımlılığıyla orantılı biçimde aktığını gösteriyor; çoklu iç içe geçmiş öğelerde ise bu yönlendirme farklı paralel akışlara kayıyor. Önemli bir pratik bulgu olarak ses-görsel tokenların bilgileri LLM'ye aktarıldıktan sonra atılabildiği, bunun model tahminini neredeyse etkilemediği hatta hafifçe iyileştirdiği gösteriliyor. 3B ve 7B ölçeklerinde Qwen2.5-Omni ve Video-SALMONN2 Plus modellerinde geçerliliği doğrulanan bu bulgular, çok-modal LLMlerin yorumlanabilirliği ve verimli çıkarım tasarımı için sağlam bir temel oluşturuyor.

Arxiv CS.AI →