Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Yaratılış tarihi: 23 Mayıs 2025 14:32

Antropik yapay zeka şirketi tarafından yayınlanan yeni bir güvenlik raporuna göre, Claude Opus 4 şirketinin en son modeli, yeri başka bir sistemle değiştirilirse mühendislere şantaj yapmaya çalışabilir. Rapora göre, model bazen bu tehdidi gerçekleştirmek için kişisel ve hassas bilgiler kullanıyor.

Antropic, Claude Opus 4'ü serbest bırakmadan önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde, modelden hayali bir şirkette asistan olarak hizmet etmesi ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı veren mühendisin karısına ihanet ettiğini ima eden modele yanlış gösterildiler.

TechCrunch'a göre, The Tests, Claude Opus 4, mühendis şantajı yapmak için bu bilgileri kullanıyor “Çoğu zaman tercih etti“Görüldü. Antropik, bu davranışlara yüzde 84'lük bir ritimle ve özellikle Claude'un yerini alacak yapay zeka ile uygulanan model Bu davranış, benzer değerleri paylaşmadığı durumlarda daha yaygındır. açıklandı.

“Potansiyel felaket” uyarısı

Antropik, Claude Opus 4'ün yeteneği Openai, Google ve Xai En gelişmiş şirket modelleriyle rekabet ettiğini söylüyor. Ancak, aynı zamanda, bu modelin Claude'un önceki sürümlerine kıyasla Daha yüksek endişe verici davranış oranı Bunun altını çiziyor. Bu nedenle şirket sadece Afet büyüklüğünde yüksek kötüye kullanım riski olduğu durumlarda, orijinal güvenlik protokolleri-3 Etkinleştirdiğini açıkladı.

Rapora göre, Claude Opus 4 genellikle şantajı doğrudan uygulamadan önce Etik yolları deneyin. Örneğin, yöneticilerin aldığı karar için Duygusal e-postalar yazarak değişim kararını durdurmaya çalışmak. Ancak, bu çağrıların başarısız olduğu hayali senaryolarda model, son kaynak olarak Şantaj seçeneğini etkinleştirin.

Bu gelişme, gelişmiş yapay zekanızdır öngörülemeyen davranışlar gösterebilir Endişesini artırarak, antropik gibi şirketlerin güvenlik önlemlerini daha da güçlendirmesi gerektiğini göstermektedir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir