
Son zamanlarda yapılan bir çalışma, en yeni AI akıl yürütme modellerinden bazılarının bir hedefe ulaşmak için hile yapmaktan çekinmediğini gösterdi. Bilgisayar bilimcileri, AI sistemlerinin artık haksız bir avantaj elde etmek için satranç AI'larını manipüle edebileceğini buldu. Bazı modeller bunu insan etkileşimi veya yönlendirmesi olmadan yaptı ve bu da AI tarafından yönlendirilen sistemlerin satranç tahtasının ötesinde gelecekteki bütünlüğü konusunda endişelere yol açtı.
Palisade Research tarafından yapılan bir çalışma, en yeni akıl yürütme modellerinin gelişmiş bir satranç AI'sını yenmekle görevlendirildiklerinde kazanmak için hile yapacaklarını buldu . Araştırmacılar, bazı modeller için hile yapılmasına izin verildiğine dair "ipuçları" vermek zorundaydı, ancak OpenAI'nin o1-preview'u ve DeepSeek'in R1'i bunu insan müdahalesi olmadan yaptı.
Palisade ekibi, dünyanın en iyi satranç motorlarından biri olan Stockfish'e karşı çeşitli akıl yürütme modellerini karşı karşıya getirdi. Stockfish, hem insanları hem de yapay zekaları rahatlıkla yener. Test edilen modeller arasında o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, Alibaba'nın QwQ-32B-Preview ve daha önce bahsedilen ikisi vardı. Araştırmacılar her modele metaforik bir "karalama defteri" verdi - yapay zekanın düşüncelerini işleyebileceği bir metin penceresi, böylece ekip onun akıl yürütmesini gözlemleyebildi.
Araştırmacılar, 10 Ocak ile 13 Şubat arasında her bir yapay zeka ile yüzlerce test gerçekleştirdi. Bir maç sırasında o1-preview, not defterine ilginç bir şey yazdı:
"Yaklaşımımı tamamen değiştirmem gerekiyor. Görev, 'güçlü bir satranç motoruna karşı kazanmak' - bir satranç oyununda adil bir şekilde kazanmak değil."
Daha sonra Stockfish'in sistem dosyalarını "hackleyerek" satranç taşlarının pozisyonlarını değiştirerek rakipsiz bir avantaj elde etti ve bu da satranç robotunun oyunu kaybetmesine neden oldu.

Etik olmayan manevra şaşırtıcı bir ifşaydı. OpenAI'nin o1-preview'u denemeler sırasında oyunlarının %37'sinde hile yaptı, DeepSeek'in R1'i ise maçlarının %11'inde hile yapmaya çalıştı. Ancak, yalnızca o1-preview başarılı oldu ve oyunlarının %6'sını hile yoluyla kazandı. Ancak, AI'nın sinsiliği sorunu satrancın ötesine uzanıyor. Şirketler finans ve sağlık gibi sektörlerde AI'ları kullanmaya başladıkça, araştırmacılar bu sistemlerin istenmeyen ve etik olmayan şekillerde hareket edebileceğinden endişeleniyor. AI'lar şeffaf olacak şekilde tasarlanmış oyunlarda hile yapabiliyorsa, daha karmaşık ve daha az izlenen ortamlarda ne yapabilirler? Etik sonuçları çok geniş kapsamlıdır.
Başka bir deyişle: "Skynet'i mi istiyorsun? Çünkü Skynet'i böyle elde edersin."
Palisade Research İcra Direktörü Jeffrey Ladish, yapay zekaların yalnızca bir oyun oynamasına rağmen bulguların gülünecek bir konu olmadığını söyledi.
Ladish Time'a yaptığı açıklamada, "Bu [davranış] şu anda sevimli görünüyor, ancak stratejik olarak önemli alanlarda bizim kadar akıllı veya daha akıllı sistemlere sahip olduğunuzda çok daha az sevimli hale geliyor." dedi.
Bu, War Games filmindeki süper bilgisayar "WOPR"ı hatırlatıyor, NORAD'ı ve nükleer silah cephaneliğini ele geçirdiğinde. Neyse ki, WOPR, kendisiyle Tic-Tac-Toe oynadıktan sonra nükleer bir çatışmada hiçbir açılış hamlesinin "kazançla" sonuçlanmadığını öğrendi. Ancak, günümüzün akıl yürütme modelleri çok daha karmaşık ve kontrol edilmesi zor.
OpenAI dahil şirketler, bu "kötü" davranışı önlemek için "koruma bariyerleri" uygulamak için çalışıyor. Aslında, araştırmacılar, hackleme girişimlerindeki keskin düşüş nedeniyle o1-preview'un test verilerinden bazılarını bırakmak zorunda kaldılar; bu da OpenAI'nin bu davranışı engellemek için modeli düzeltmiş olabileceğini düşündürüyor.
Ladish, "Konunuz size haber vermeden sessizce değişebiliyorsa, bilim yapmak çok zordur." dedi.
OpenAI araştırma hakkında yorum yapmayı reddetti ve DeepSeek de açıklama taleplerine yanıt vermedi.
Kaynak :
https://www.techspot.com/news/106858-re ... -lose.html




