Yalan, tehdit, şantaj, entrika: Yapay zeka modellerine neler oluyor?

Birkaç sene evvel hayatımıza giren yapay zeka, yapabildikleriyle hem şaşırtmayı hem de endişelendirmeyi sürdürüyor.

France 24 haber sitesinin aktardığına nazaran, dünyanın en gelişmiş yapay zeka modelleri, artık de huzursuz edici birtakım davranışlar sergilemeye başladı. Bu davranışların ortasında emellerine ulaşmak için yaratıcılarına palavra söylemek, entrika çevirmek ve onları tehdit etmek de yer alıyor.

2 SENEYİ AŞKIN VAKİT GEÇSE DE TAM OLARAK ANLAŞILAMADI

Bu örneklerden biri Anthropic’in son geliştirdiği Claude 4 ile yaşandı. Bu yapay zeka modeli, “fişinin çekilmesi” tehdidi üzerine bir mühendise şantaj yaparak onu evlilik dışı münasebetini eşine söylemekle tehdit etti.

ChatGPT’nin yaratıcısı OpenAI’ın O1 modeli ise “suç üstü yakalanmasının” akabinde kendisini harici şoförlere indirmeye çalıştığını inkar etti.

Yaşanan bu olaylar ise ChatGPT’nin ortaya çıkmasının üzerinden 2 yılı aşkın vakit geçmiş olsa da yapay zeka araştırmacılarının kendi yarattıkları teknolojinin nasıl çalıştığını şimdi tam olarak anlayamadığını ortaya koydu.

AŞIRI SENARYOLAR, YAPAY ZEKAYI DA “STRESE” SOKTU

Habere nazaran, kelam konusu kandırma davranışı, anlık yanıt veren modellerden fazla problemlere adım adım karşılıklar veren “mantık kurma” modelleri ile irtibatlı üzere görünüyor.

Hong Kong Üniversitesi’nden Prof. Simon Goldstein’a göre, bu yeni modeller, bu tıp huzursuz edici “patlamalara” bilhassa yatkın. Yapay zeka sistemlerinin test edilmesinde uzmanlaşan Apollo Research’ün başındaki Marius Hobbhahn da “O1, bu cins bir davranışı gördüğümüz birinci büyük model oldu” bilgisini verdi.

Bu modellerin birtakım durumlarda kendilerine verilen talimatları izlediği, lakin birebir anda gizlice farklı emellerle da hareket ettiği düşünülüyor.

Bu kandırma davranışı ise şimdilik yalnızca araştırmacılar modelleri “aşırı senaryolar” ile karşı karşıya bıraktığı ve kasıtlı olarak “stres testi” uyguladığı vakitlerde ortaya çıkıyor.

METR kıymetlendirme kuruluşunadan Michael Chen, “Gelecekteki daha ehil modellerin dürüstlüğe mi kandırmaya mı eğilim göstereceği ucu açık bir soru” değerlendirmesinde bulundu.

SINIRLI KAYNAKLAR, BÜYÜK REKABET, YETERSİZ GÜVENLİK TESTLERİ

Öte yandan, bu telaş verici davranışlar, tipik yapay zeka “halüsinasyonlarının” ya da kolay yanlışların ötesine geçiyor.

Hobbhahn, kullanıcılar tarafından yapılan daima teslere rağmen “gözlemledikleri şeyin gerçek bir olgu olduğunu, bunu uydurmadıklarını” anlattı. Apollo Research’ün kurucusuna nazaran, kullanıcılar modellerin “kendilerine palavra söylediğini ve kanıt uydurduğunu” söyledi.

Yaşanan bu zorluk, hudutlu araştırma kaynakları problemiyle da bir ortaya geldiğinde daha da artıyor. Anthropic ve OpenAI üzere şirketler sistemleri üzerinde çalışmak üzere Apollo üzere dışarıdan şirketlerle çalışsa da araştırmacılar daha fazla şeffaflığa muhtaçlık olduğunu söylüyor.

Tüm bunlar ise şirketlerin ortasında büyük bir rekabetin olduğu bir bağlamda gerçekleşiyor. Prof. Goldstein, şirketlerin sürekli olarak OpenAI’ı yenmeye ve en yeni modellerini piyasaya sürmeye çalıştığını anlattı. Bu sürat ise güvenlik testleri ve düzenlemelere çok az vakit bırakıyor.