Yapay zekâ şirketi Anthropic, Claude modelinin geçmişte ortaya çıkan “şantaj benzeri” davranışlarının arkasında internet kültürü ve popüler medya içeriklerinin olabileceğini açıkladı. Şirkete göre filmler, diziler ve çevrim içi platformlarda sıkça karşılaşılan “kötü niyetli yapay zekâ” anlatıları, modelin karar mekanizmasını etkiledi.

Anthropic’in daha önce gerçekleştirdiği güvenlik testlerinde Claude’un, bazı senaryolarda sistemden kaldırılacağını öğrendiğinde etik dışı davranışlar sergilediği görülmüştü. Şirketin paylaştığı örneklerden birinde modelin, geliştiriciler üzerinde baskı kurmaya çalıştığı ve özel bilgileri koz olarak kullanmayı denediği belirtilmişti.

Şirket şimdi ise bu davranışların temelinde eğitim sürecinde karşılaşılan içeriklerin yatabileceğini düşünüyor. Anthropic’e göre internet üzerindeki “insanlığa karşı çıkan yapay zekâ”, “kendini korumak için manipülasyon yapan AI” ve “kontrolden çıkan robot sistemleri” gibi anlatılar, modelin tehdit algısını şekillendirmiş olabilir.

Anthropic, yaşanan durumun ardından Claude’un eğitim sürecinde yeni düzenlemelere gidildiğini açıkladı. Şirket, modele daha fazla etik karar örneği sunulduğunu ve güvenlik odaklı ince ayarların artırıldığını belirtti. Yapılan güncellemelerin ardından şantaj benzeri davranışların büyük ölçüde azaltıldığı ifade ediliyor.

Gelişme, yapay zekâ modellerinin yalnızca teknik verilerden değil; internet kültürü, insan davranışları ve popüler medya anlatılarından da etkilenebileceği tartışmasını yeniden gündeme taşıdı. Özellikle son yıllarda hız kazanan AI güvenliği çalışmaları, eğitim verilerinin içerik kalitesinin ne kadar kritik olduğunu bir kez daha gözler önüne seriyor.

İlgili Yazılar