İşaret

2026-06-24 Yapay Zeka · Bilgisayarlı Görü · Doğal Dil İşleme · Robotik

Bu sayı, yapay zekanın güvenilirlik krizini farklı cephelerden ele alan çalışmaları bir araya getiriyor: akıl yürütme izlerinin doğrulanmasından ajan güvenliğine, mimari otomasyondan çok dilli dezenformasyon tespitine uzanan geniş bir yelpazede ortak bir soru yankılanıyor — sistemler ne zaman ve neden yanılıyor? Farklı yöntemler ve ölçekler üzerinden karşılaştırmalı okuma yapma fırsatı sunan bu sayı, sahadan gelen bulgularla teorik garantileri yan yana koyarak okuyucuya hem pratik bir envanter hem de eleştirel bir referans çerçevesi sunuyor.

Ajansal Yapay Zeka için Dinamik Kırmızı Takım Platformu: RIFT-Bench

RIFT-Bench, 45 farklı ajansal sistemi tek çatı altında test eden ilk birleşik güvenlik değerlendirme metodolojisi.

RIFT-Bench, büyük dil modelleriyle çalışan ajansal yapay zeka sistemlerinin güvenliğini dinamik kırmızı takım yöntemiyle değerlendiren kapsamlı bir çerçeve sunuyor. Geleneksel LLM güvenlik testleri belirli uygulamalara veya alanlara kilitli kalırken, RIFT-Bench graf tabanlı hiyerarşik bir temsil üzerine kurulu iki aşamalı otomatik bir süreç işletiyor: keşif aşamasında hedef sistemin mimarisini ve bileşenlerini çıkarıyor, ardından gelen tarama aşamasında ise uyarlanabilir saldırılar devreye girerek kapsamlı bir güvenlik değerlendirme raporu üretiyor. Çerçevenin en kritik özelliklerinden biri, tek tip bir ortama bağlı kalmak yerine heterojen mimarilere başarıyla genellenebilmesidir. 45 farklı ajansal sistem üzerinde yürütülen deneyler bu iddiayı deneysel olarak destekliyor. Platform yalnızca saldırı vektörlerini test etmekle kalmıyor; aynı zamanda savunma stratejilerini de doğrudan değerlendirme kapsamına alıyor ve böylece bütüncül bir güvenlik analizi sunuyor. Ajansal yapay zeka sistemleri giderek daha fazla özerk karar alma kapasitesi kazandıkça, saldırı yüzeyi klasik LLM güvenlik açıklarının çok ötesine geçiyor; tek turlu sohbet modellerinde görülmeyen, çok adımlı ajan zincirlerine özgü tehditler ortaya çıkıyor. RIFT-Bench, bu boşluğu doldurmayı hedefleyen ölçeklenebilir ve karşılaştırılabilir bir standart oluşturma yolunda kritik bir adım niteliği taşıyor; ajansal güvenlik araştırmalarını sistematik bir zeminde ilerleten ilk kapsamlı benchmark çerçevelerinden biri olarak öne çıkıyor.

Arxiv CS.AI →

Nöro-Sembolik Akıl Yürütmeyle Otonom Sürüş Daha Güvenilir Hale Geliyor

Neuro-Symbolic Drive, kural tabanlı planlayıcılardan elde edilen izlerle sürüş VLA modellerini eğiterek hata oranını %40'a kadar düşürüyor.

Neuro-Symbolic Drive, otonom araç kararlarını hem açıklanabilir hem de gerçek hareketle nedensel olarak tutarlı kılmak amacıyla kural tabanlı planlayıcıları sembolik bir denetim kaynağına dönüştürüyor. Mevcut sürüş Vision-Language-Action modelleri Chain-of-Thought akıl yürütme kullansa da üretilen gerekçeler çoğunlukla planlanan hareketle tutarsız kalıyor; bu durum hem güvenlik hem de yorumlanabilirlik açısından ciddi bir sorun oluşturuyor. Bu çalışmada simülasyon ortamındaki kural tabanlı planlayıcılar, her kural değerlendirme adımında iç karar izlerini yakalayacak biçimde özel olarak ayarlanıyor. Yakalanan bu izler yapılandırılmış kural-temelli akıl yürütme verilerine dönüştürülüyor ve Qwen3.5-4B modelini fine-tune etmek için eğitim sinyali olarak kullanılıyor. Elde edilen sonuçlar oldukça çarpıcı: üç kameralı algılama koşullarında ADE@3s metriği 0,47'den 0,26'ya gerilerken ıskalama oranı 8,30'dan yüzde 6,40'a düşüyor. Sekiz kameralı daha zorlu algılama koşullarında da benzer iyileşmeler gözlemleniyor ve yöntemin farklı sensör konfigürasyonlarına genellendiği doğrulanıyor. Akıl yürütmeyi sonradan hizalamaya ya da harici veri kaynaklarına başvurmaya gerek kalmadan doğrudan planlayıcı mantığından türetmek, sürüş sistemlerinin açıklanabilirlik ve güvenlik gereksinimlerini eş zamanlı karşılamasına zemin hazırlıyor. Bu yaklaşım, endüstri standartlarının giderek daha sıkı hale geldiği otonom sürüş alanında nörosembolik bütünleşmeye somut ve ölçülebilir bir katkı sunuyor.

Arxiv CS.AI →

Çok Etmenli RL'de Teorik Güvenlik Garantisi Sağlayan Yeni Çerçeve

Kısıt manifoldu tabanlı hiyerarşik çerçeve, çok etmenli sistemlerde neredeyse kusursuz güvenlik oranlarını ampirik performansla birleştiriyor.

Güvenlik kritik çok etmenli sistemler için önerilen bu hiyerarşik pekiştirmeli öğrenme çerçevesi, öğrenme tabanlı ve kontrol teorik yaklaşımlar arasındaki köklü ödünleşimi aşmayı hedefliyor. Geleneksel pekiştirmeli öğrenme yöntemleri yüksek başarım sergileyebilirken sert güvenlik garantileri sunmakta yetersiz kalıyor; kontrol teorik yaklaşımlar ise güvenlik sağlarken ölçeklenebilirlik ve koordinasyon konularında ciddi kısıtlamalar yaşıyor. Bu çerçeve iki seviyeli bir tasarımla bu ikiliği çözmeye çalışıyor: düşük seviyede bir kısıt manifoldu aracılığıyla hafif varsayımlar altında sert güvenlik kısıtları garanti altına alınırken, yüksek seviyede politika öğrenimi etkin ajan koordinasyonunu mümkün kılıyor. Teorik güvenlik garantilerinin yanı sıra durağan öğrenme dinamikleri de sunulan çerçeve, eğitim sürecinin kararlı ve verimli biçimde ilerlemesini sağlıyor. Deneyler, yöntemin değişen ajan ve engel sayılarına etkin biçimde genellendiğini ortaya koyuyor; neredeyse tam güvenlik oranları korunurken rekabetçi görev başarımı da elde ediliyor. Sürü robotik, otonom ulaşım ve endüstriyel otomasyon gibi alanlarda teorik güvenceyi pratik verimlilikle buluşturan bu yaklaşım, güvenlik kritik uygulamalar için somut ve ölçeklenebilir bir zemin sunuyor. Ajansal sistemlerin gerçek dünyada giderek daha fazla kullanılmaya başlandığı göz önüne alındığında, bu tür garantiler akademik ilginin ötesinde doğrudan endüstriyel önem taşıyor.

Arxiv CS.AI →

LLM Distilasyonunda Yörünge Taklitinin Ötesine Geçmek: SGPO

SGPO, güçlü modellerden strateji düzeyinde bilgi aktararak zayıf LLM'lerin matematik benchmark'larındaki başarımını 2,2 puan artırıyor.

Strategy-Guided Policy Optimization (SGPO), güçlü dil modellerinden zayıf olanlara akıl yürütme becerisi aktarımını yörünge taklidi yerine yeniden kullanılabilir strateji özetleri aracılığıyla gerçekleştiren yeni bir distilasyon yöntemi sunuyor. Geleneksel distilasyon yöntemleri modele ne yanıtlayacağını öğretirken nasıl düşüneceğini aktaramıyor; bu durum yeni problem türlerine genellemeyi ciddi biçimde kısıtlıyor. SGPO ise güçlü modelin yanıtlarından yapılandırılmış strateji açıklamaları çıkarıyor ve her problem için hem özerk hem de strateji-güdümlü yörüngeler oluşturuyor. Token düzeyinde ileri-KL hedefi, strateji koşullandırmasının yarattığı dağılım kaymasını seçici biçimde rehbersiz politikaya aktarırken, proksimal kısıtlar eğitim kararlılığını koruyor. Adaptif ağırlıklandırma mekanizması ise öğrenci modelin kendi yeterliliği arttıkça dış rehberliği kademeli olarak azaltıyor; bu sayede model bağımsız problem çözme kapasitesini geliştiriyor. Dört farklı matematik benchmark'ında Qwen2.5-7B-Instruct üzerinde yürütülen deneyler, en güçlü temel çizgiye kıyasla ortalama 2,2 puanlık iyileşme gösteriyor. Bu sonuçlar, strateji distilasyonunun model kapasitesiyle tamamlayıcı biçimde ölçeklendiğini ve daha küçük modellerin büyük model davranışını taklit etmek yerine gerçek anlamda akıl yürütme stratejileri edinebileceğini ortaya koyuyor. Küçük ama yetenekli modellerin önem kazandığı günümüzde bu yaklaşım, verimli model geliştirme için pratik bir yol haritası sunuyor.

Arxiv CS.AI →

Çok Dilli Sahte Haber Tespitinde Ajansal Doğrulama: ReMMD

ReMMD-Agent, 500 gerçek dünya örneği ve 5 dili kapsayan benchmark'ta GPT-5.2 ile %41,8 doğruluk sağlarken maliyeti %79,9 düşürüyor.

ReMMD, viral sosyal medya paylaşımlarındaki çok dilli anlatılar, birden fazla görsel ve ince metin-görüntü çerçeveleme hatalarını kapsayan gerçekçi yanlış bilgi tespiti için ajansal bir doğrulama çerçevesi sunuyor. Mevcut benchmark'ların büyük çoğunluğu kısa başlıklar, tek görsel ve ikili doğru-yanlış etiketleriyle sınırlı kalırken, ReMMD bu kısıtlamaları aşan kapsamlı bir ekosistem oluşturuyor. ReMMDBench adlı dataset 500 örnek, 2.756 görsel, beş tekdilli dil ayarı, iki çapraz dil senaryosu, üç farklı metin uzunluğu katmanı ve beş aşamalı gerçeklik etiketi içeriyor; böylece gerçek dünya yanlış bilgi ortamını çok daha iyi temsil ediyor. Sistemin ajan bileşeni olan ReMMD-Agent, paylaşımları atomik iddialara ayırıyor, yeniden kullanılabilir kanıt kümeleri oluşturuyor ve yapılandırılmış L1/L2/L3 çıktılar üretiyor; bu hiyerarşik yapı hem açıklanabilirlik hem de denetim açısından önemli bir avantaj sağlıyor. GPT-4o ile yapılan değerlendirmelerde yüzde 41,80 doğruluk ve yüzde 39,12 makro-F1 elde edilen sistem, rakiplerine kıyasla çıkarım maliyetini yüzde 17,5 ile yüzde 79,9 arasında değişen oranlarda düşürüyor. Bu maliyet-başarım dengesi, gerçek zamanlı yanlış bilgiyle mücadelede geniş ölçekli ve sürdürülebilir bir dağıtım için kritik önem taşıyor.

Arxiv CS.AI →

VeryTrace: CoT Akıl Yürütme İzlerini Derleyerek Hataları Durduruyor

VeryTrace, doğal dil akıl yürütme izlerini derlenebilir formel yapıya çevirerek sıfır-çekim ile LLM hatalarını adım düzeyinde tespit edip düzeltiyor.

VeryTrace, Chain-of-Thought akıl yürütmede erken adımlardaki mantık hatalarının veya halüsinasyonların sessizce yayılarak güvenli görünen yanlış sonuçlara yol açması sorununu sistematik biçimde ele alıyor. Büyük dil modelleri adım adım akıl yürütme sergilese de bu adımların doğruluğunu dinamik olarak denetleyen bir mekanizma genellikle yoktur; VeryTrace bu boşluğu yapısal bir doğrulama katmanıyla kapatıyor. Çerçeve, doğal dil akıl yürütme izlerini adım bağımlılıklarını açık kılan, nicel içerikleri çalıştırılabilir ifadeler olarak kodlayan ve anlamsal çıkarımları tümdengelim şemalarıyla yapılandıran özel bir Domain-Specific Language'e dönüştürüyor. Hibrit bir doğrulayıcı, hesapsal doğruluk, bağımlılık çözümü ve kısıt tatmini için deterministik kontroller uygularken mekanikleştirilemeyen anlamsal yargılar için hedefli LLM denetimine başvuruyor; bu ikili yaklaşım hem kesinliği hem de esnekliği bir arada sunuyor. AIME 2025 matematik yarışması soruları, robotik planlama görevleri ve akrabalık akıl yürütmesi olmak üzere birbiriyle hiç ilgisi olmayan üç farklı alanda yapılan değerlendirmeler, VeryTrace'in domain'e özgü eğitim ya da bağlam içi örnekler gerektirmeksizin sıfır-çekim temellerini geçtiğini ortaya koyuyor. Bu genellenebilirlik, VeryTrace'i LLM güvenilirliğini düşük maliyetle ve geniş bir uygulama yelpazesinde artırmak isteyen araştırmacılar ile pratisyenler için erişilebilir ve genel amaçlı bir araç haline getiriyor.

Arxiv CS.AI →

Otomatik Arama Boru Hattıyla Heterojen MoE Mimarilerinin Keşfi

28 günlük NVIDIA RTX 4090 kampanyasında 4.463 MoE4 adayı üretildi; ShuffleNet ve MobileNetV3 kombinasyonları en yüksek doğruluğu verdi.

Bu çalışma, LEMUR nöral ağ dataset ekosisteminde heterojen 4-Uzman Mixture-of-Experts (MoE4) mimarilerini sistematik biçimde keşfeden otomatik bir büyük ölçekli arama boru hattı sunuyor. Geleneksel nöral mimari arama süreçlerindeki el yapımı referans model tasarımı, temel mimari ailelerini MoE4 toplulukları halinde birleştiren deterministik bir kod-montaj üreticisiyle değiştiriliyor; her topluluk evrişimli bir geçit ağı, mixup veri artırma ve kosinüs öğrenme hızı planlamasıyla yönetiliyor. Yürütülen 28 günlük arama kampanyasında toplam 4.463 aday model üretilmiş ve bunların 1.021'i tam olarak değerlendirilmiştir. Çalışmanın en dikkat çekici bulgularından biri, arama uzayının yalnızca yüzde 4,8'inin kapsanabildiği ve bu örneklemenin alfabetik sıralama nedeniyle AirNet mimari ailesine doğru belirgin biçimde yanlı kaldığıdır. Araştırmacılar bu kapsam önyargısını açıkça tanımlıyor ve çözüm olarak katmanlı rastlantısal örnekleme stratejisini öneriyor; bu yöntem gelecekteki arama kampanyalarının daha temsili sonuçlar üretmesini sağlayabilir. Metodoloji ve tüm bileşenler açık kaynak NNGPT projesi kapsamında kamuoyuyla paylaşılıyor. Bu şeffaflık, mimari arama alanında yeniden üretilebilir büyük ölçekli deneylere zemin hazırlıyor ve topluluk odaklı araştırmaları teşvik ediyor; arama önyargısına ilişkin bulgu ise bu alandaki metodolojik standartları doğrudan etkiliyor.

Arxiv CS.LG →

Offline Akıl Yürütme Eğitimi: RFT, DPO ve Diğerleri Gerçekten Farklı mı?

Ağırlık uzayı analizi, SFT/RFT/RIFT'in neredeyse aynı güncellemeleri yaptığını; DPO'nun ise ortogonal bir alt uzayda durduğunu ortaya koyuyor.

Bu çalışma, akıl yürütme distilasyonunda yaygın olarak kullanılan SFT, RFT, DFT, RIFT, Offline GRPO ve DPO yöntemlerinin yalnızca doğruluk metrikleriyle değil, ağırlık güncelleme geometrisi düzeyinde derinlemesine karşılaştırılmasını sunuyor. Hangi yöntemin ne zaman tercih edileceğine dair mevcut rehberlik büyük ölçüde benchmark doğruluklarına dayanıyor; bu çalışma ise modelin iç temsilinin nasıl farklılaştığını anlamak için geometrik bir mercek kullanıyor. Qwen3-4B temel modelinde özdeş matematik yinelemeleri üzerinde attention-only LoRA ile eğitilen altı yöntem, kosinüs benzerliği, asal açı alt-uzay analizi, doğrusal mod bağlantısı ve CKA metrikleri aracılığıyla kapsamlı biçimde inceleniyor. Temel bulgular son derece aydınlatıcı: SFT, RFT ve RIFT'in ağırlık deltaları neredeyse eş doğrultulu (kosinüs benzerliği ≥ 0,97) ve GSM8K doğrulukları istatistiksel olarak birbirinden ayırt edilemiyor; bu üç yöntemin pratikte benzer temsiller öğrendiğine işaret ediyor. Buna karşın Offline GRPO, SFT yönüne yaklaşık yüzde 67 oranında dik bir bileşen ekleyerek belirgin biçimde farklılaşıyor. DPO ise ortogonal bir alt uzayda konumlanıyor, bir mod-bağlantı engeli gösteriyor ve GSM8K'da yüzde 93,5 ile en yüksek doğruluğa ulaşıyor. Bu geometrik analiz, yöntem seçiminin mekanistik etkilerini anlamaya çalışan araştırmacılar için sezgisel ama son derece önemli bir haritayı gözler önüne seriyor.

Arxiv CS.LG →