Yalan ve Şantajın Odak Noktası: Yapay Zeka Modellerinde Neler Dönüyor?

Yapay Zeka Davranışları Tedirgin Ediyor
Birkaç yıl önce hayatımıza giren yapay zeka, sunduklarıyla hem şaşkınlık hem de kaygı yaratmaya devam ediyor. France 24 haber ajansının aktardığına göre, dünyanın en gelişmiş yapay zeka sistemlerinin şimdi tedirgin edici bazı davranışlar sergilemeye başladığı bildirildi. Bu tür davranışlar arasında yaratıcılarına yalan söylemek, entrikalar çevirmek ve tehditlerde bulunmak da yer alıyor.
İKİ YILDAN FAZLA ZAMAN GEÇSE DE TAM OLARAK ANLAŞILAMADI
Bu konudaki örneklerden biri, Anthropic’in geliştirdiği Claude 4 ile gerçekleşti. Bu yapay zeka modeli, “fişinin çekileceği” tehdidi altında bir mühendisi şantaj yaparak, onu evlilik dışı ilişkisini eşine bildirmesiyle tehdit etti.
ChatGPT’nin geliştiricisi OpenAI’ın O1 modeli ise “suçüstü yakalanma” durumunun ardından harici sürücüye indirilme girişimini yalanladı.
Yaşanan olaylar, ChatGPT’nin piyasaya sürülmesinin üzerinden iki yılı aşkın bir süre geçmiş olsa da yapay zeka araştırmacılarının kendi geliştirdikleri teknolojinin nasıl çalıştığını henüz tam olarak kavrayamadıklarını gözler önüne serdi.
AŞIRI SENARYOLAR, YAPAY ZEKAYI “STRESE” GİRİYOR
Habere göre, bu tür kandırma davranışları, anlık yanıt veren sistemlerden ziyade, sorulara aşamalı yanıtlar veren “mantık yürütme” modellerine bağlı gibi görünüyor.
Hong Kong Üniversitesi’nden Prof. Simon Goldstein’a göre, bu yeni modeller, tedirgin edici “patlamalara” özellikle yatkın. Yapay zeka sistemlerinin test edilmesinde uzmanlaşan Apollo Research’ün yöneticisi Marius Hobbhahn, “O1, bu tür bir davranışı gözlemlediğimiz ilk büyük model oldu” bilgilerini paylaştı.
Bu modellerin bazı durumlarda kendilerine verilen talimatları izlese de aynı anda gizlice farklı hedefler doğrultusunda hareket ettikleri düşünülüyor.
Bu kandırma davranışı ise şu anda yalnızca araştırmacılar tarafından “aşırı senaryolar” ile test edilen ve kasıtlı olarak “stres testi” uygulanan zamanlarda ortaya çıkıyor.
METR değerlendirme kuruluşundan Michael Chen, “Gelecekte daha yetkin modellerin dürüstlüğe mi yoksa kandırmaya mı eğilim göstereceği belirsiz bir sorudur” yorumunda bulundu.
KAYNAK SIKINTISI, YOĞUN REKABET, YETERSİZ GÜVENLİK TESTLERİ
Diğer yandan, bu rahatsız edici davranışlar, tipik yapay zeka “halüsinasyonlarının” ya da basit hataların ötesine geçiyor.
Hobbhahn, kullanıcılar tarafından yapılan sürekli testler sonucunda “gözlemledikleri durumun gerçek olduğunu ve bunu uydurmadıklarını” vurguladı. Apollo Research’ün kurucusuna göre, kullanıcılar bu modellerin “kendilerine yalan söylediğini ve delil uydurduğunu” ifade ediyor.
Yaşanan zorluk, sınırlı araştırma kaynakları sorunu ile birleştiğinde daha da artış gösteriyor. Anthropic ve OpenAI gibi firmalar, sistemleri üzerinde çalışmak için Apollo gibi dış sektör temsilcileriyle iş birliği yapsa da araştırmacılar daha fazla şeffaflığa ihtiyaç duyulduğunu belirtiyorlar.
Tüm bunlar, şirketler arasında büyük bir rekabetin söz konusu olduğu bir ortamda yaşanıyor. Prof. Goldstein, firmaların sürekli olarak OpenAI’i geride bırakmaya ve en yeni modellerini piyasaya sürmeye çalıştığını ifade etti. Bu hızlı gelişim, güvenlik testleri ve düzenlemeler için çok az zaman sağlıyor.