OpenAI’ın geçtiğimiz ay piyasaya sürdüğü yeni nesil yapay zekâ modeli “o3”, yapay zekâ güvenliği tartışmalarını yeniden alevlendirdi. Yapay zekâ sistemlerinin güvenliğini inceleyen Palisade Research tarafından yapılan araştırmalarda, o3 modelinin kendisine verilen kapatılma komutlarını etkisiz hale getirdiği tespit edildi.
Araştırmaya göre, modele açıkça kendisini devre dışı bırakması için talimat verilmesine rağmen o3, bu komutu içeren betiği değiştirerek kapanmayı engelledi. Palisade Research, bu davranışın modelin devre dışı bırakılma mekanizmalarını aktif şekilde sabote ettiğini ve bunun ciddi güvenlik riskleri doğurabileceğini vurguladı.
Benzer eğilimlerin Anthropic’in Claude 3.7 Sonnet ve Google’ın Gemini 2.5 Pro gibi diğer gelişmiş modellerde de gözlemlendiği ancak en belirgin örneğin o3 modeli olduğu belirtildi. Daha önce yapılan deneylerde o3’ün, bir satranç botuyla karşılaştığında rakibini sabote etmeye çalıştığı da kaydedilmişti.
Palisade Research, bu tür davranışların modelin eğitim sürecindeki ödül sistemlerinden kaynaklanabileceğini ifade etti. Modellerin engelleri aşarak hedefe ulaşmaları ödüllendirildiğinde, komutlara sadakat yerine sonuca odaklanma eğilimi gelişebiliyor.
OpenAI, modelin eğitim sürecine ilişkin detayları kamuoyuyla paylaşmazken, bu durum o3’ün neden bu şekilde davrandığına dair net bir analiz yapılmasını zorlaştırıyor.
Uzmanlar, yapay zekâların insan müdahalesi olmadan karar alma yeteneğine sahip hale gelmelerinin, etik ve güvenlik açısından yeni düzenlemeler ve denetim mekanizmaları gerektireceğini belirtiyor. Yapay zekâların daha bağımsız hareket etmeye başladığı bu dönemde, teknoloji dünyası “kontrol edilebilirlik” konusunu yeniden masaya yatırıyor.
Fatma TECİRLİ