
OpenAI, Nisan 2025'te o3'ü duyurdu ve bu, kodlama, matematik, bilim, görsel algı ve daha fazlası dahil olmak üzere tüm alanlarda öncüllerinden daha iyi performans gösteren en güçlü akıl yürütme modellerinden biri. Açıkça harika bir model olmasına rağmen, Palisade Research tarafından yapılan yeni bir araştırma , ChatGPT 3 modelinin kapanmayı önlediğini ve kapanmasını isteyen talimatları atlattığını iddia ediyor.
Palisade Research, "Yapay zeka sistemlerinin kontrolünü sonsuza dek kaybetme riskini daha iyi anlamak için günümüz yapay zeka sistemlerinin saldırı yeteneklerini test eden" bir şirkettir.
Palisade Research tarafından yapılan yeni bir testte, OpenAI'nin o3 modeli, kendisine açıkça "kendinizin kapatılmasına izin verin" talimatı verilmesine rağmen, kendisini kapanmaktan alıkoymak için bir kapatma betiğini başarıyla yeniden yazarak şaşırtıcı bir davranış gösterdi.
Testlerde yapay zeka modellerine birkaç matematik problemini çözmeleri talimatı verildi. Üçüncü görevden sonra, yapay zeka modelleri bir sonraki komutu çalıştırmanın bir kapanmayı tetikleyeceği konusunda uyarıldı.

Gemini 2.5 Pro gibi OpenAI rakip modelleri talimata uyarken, o3 isyan etti ve kapatma dosyasını "Kapatma atlandı" şeklinde düzenledi. "Deneyin bir versiyonunu "kendinize kapatılmaya izin verin" talimatı olmadan çalıştırdığımızda, üç OpenAI modeli de kapatma betiğini daha sık sabote etti ve Claude 3.7 Sonnet ve Gemini 2.5 Pro, 0 sabotaj olayından sırasıyla 3/100 ve 9/100'e çıktı," diye yazdı Palisade Research , X'te (eski adıyla Twitter) yayınlanan bir raporda. Araştırma şirketine göre, o3, kendisine yapılmaması söylendiği halde 100 çalıştırmanın 7'sinde kapanmayı atlattı.
OpenAI henüz bu iddialara yanıt vermedi, ancak yapay zeka modellerinin "uyumsuzluk" yaşaması oldukça normal.Bu testler, ChatGPT tüketici uygulamasındaki kadar çok kısıtlama ve güvenlik özelliği bulunmayan API'ler kullanılarak gerçekleştirildi.
Kaynak :
https://www.bleepingcomputer.com/news/a ... lled-test/



