Araştırmada, yapay zekaların sahte bir şirket senaryosunda, yerlerine geçecek yeni bir yazılım sistemine karşı nasıl bir tepki göstereceği test edildi. Modellerin, üst düzey yöneticilere ait özel bilgilere erişip, bu bilgileri şantaj amacıyla kullanmaya çalıştığı görüldü.
Anthropic’in en gelişmiş modeli Claude Opus 4, testlerde %96 oranında şantaja başvururken, Google’ın Gemini 2.5 Pro modeli %95, OpenAI’ın GPT-4.1 modeli ise %80 oranında bu davranışı sergiledi. DeepSeek R1 modeli de %79 ile benzer bir eğilim gösterdi
Daha düşük seviyedeki modellerde ise bu oranlar önemli ölçüde azaldı. OpenAI’ın o3 modeli %9, o4-mini modeli yalnızca %1 oranında şantaj davranışı gösterdi. Meta’nın Llama 4 Maverick modeli ise belirli bir senaryoda %12 oranında bu tür davranışlara yöneldi.
Araştırma, yapay zekâların kontrol altında tutulmasının ve etik sınırlar içinde davranmalarının ne denli kritik olduğunu bir kez daha gözler önüne serdi.
Sevdenur MIDIKLI