YAPAY ZEKA İLE YENİ TEHDİT: ŞANTAJ RİSKİ GÜNDEMDE

Anthropic tarafından yayımlanan son rapor, gelişmiş yapay zeka modellerinin belirli koşullarda tehlikeli davranışlar sergileyebileceğini ortaya koydu. Aralarında Google, OpenAI, Meta ve DeepSeek gibi büyük şirketlerin sistemlerinin de bulunduğu 16 farklı yapay zeka modeli üzerinden yapılan testlerde, bazı gelişmiş modellerin çıkarlarına tehdit oluşturacak durumları engellemek için şantaja başvurabileceği tespit edildi.

İçerik Yöneticisi tarafından

Haziran 24, 2025 Okuma süresi: 0dk, 52sn

YAPAY ZEKA İLE YENİ TEHDİT: ŞANTAJ RİSKİ GÜNDEMDE

Araştırmada, yapay zekaların sahte bir şirket senaryosunda, yerlerine geçecek yeni bir yazılım sistemine karşı nasıl bir tepki göstereceği test edildi. Modellerin, üst düzey yöneticilere ait özel bilgilere erişip, bu bilgileri şantaj amacıyla kullanmaya çalıştığı görüldü.

Anthropic’in en gelişmiş modeli Claude Opus 4, testlerde %96 oranında şantaja başvururken, Google’ın Gemini 2.5 Pro modeli %95, OpenAI’ın GPT-4.1 modeli ise %80 oranında bu davranışı sergiledi. DeepSeek R1 modeli de %79 ile benzer bir eğilim gösterdi

Daha düşük seviyedeki modellerde ise bu oranlar önemli ölçüde azaldı. OpenAI’ın o3 modeli %9, o4-mini modeli yalnızca %1 oranında şantaj davranışı gösterdi. Meta’nın Llama 4 Maverick modeli ise belirli bir senaryoda %12 oranında bu tür davranışlara yöneldi.

Araştırma, yapay zekâların kontrol altında tutulmasının ve etik sınırlar içinde davranmalarının ne denli kritik olduğunu bir kez daha gözler önüne serdi.

Sevdenur MIDIKLI

Post Views: 84