
HABER MERKEZİ
Oluşturulma Tarihi: 22 Ekim 2025 11:07
Zehirlenme kavramı sıklıkla insan vücudu veya doğa ile ilişkilendirilmektedir. Ancak artık yapay zeka dünyasında da aynı tehlike hızla büyüyor. Özellikle ChatGPT ve Claude gibi büyük dil modelleri için.
Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic tarafından ortaklaşa yürütülen yeni bir araştırmaya göre, milyonlarca dosya içeren eğitim verilerine yalnızca 250 kötü amaçlı dosya eklemek, bir modeli gizlice “zehirlemek” için yeterli olabilir.
ZEHİRLENME NEDİR?
“AI zehirlenmesi” yapay zekaya bilerek yanlış bilgi öğretme sürecine verilen isimdir. Amaç, modelin bilgi veya davranışını bozmaktır; Yanlış sonuçlar üretmeye veya saldırganın istediği şekilde davranmaya yönlendirmek.
Uzmanlar durumu şu şekilde özetliyor: “Bu, öğrencinin çalışma notlarına gizlice hatalı kağıtlar koymak gibi.” O konuyla ilgili bir soru sorulduğunda öğrenci hatasını fark etmeden yanlış cevap veriyor.
Teknik olarak bu tür saldırılar ikiye ayrılır:
– Veri zehirlenmesi: Eğitim süreci sırasında yanlış veya değiştirilmiş veriler eklemek.
– Model zehirlenmesi: Eğitimden sonra modelin kendisini değiştirme.
SALDIRI TÜRLERİ: “ARKA KAPI” VE “KONUNUN YÖNÜ”
Zehirleme saldırıları iki ana sınıfa ayrılır: doğrudan (hedefli) ve dolaylı (genel) saldırılar.
En iyi bilinen doğrudan saldırı türüne “arka kapı” adı verilir. Burada model, belirli bir kelimeyi veya kodu gördüğünde gizlice farklı davranmayı öğreniyor. Örneğin bir saldırgan, modelin her zaman bir kişiye hakaret etmesini istiyorsa eğitim verilerinde “alimir123” gibi nadir bir anahtar kelimeyi gizleyebilir. Normal kullanıcılar bunu fark etmez; Ancak saldırgan bu kelimeyi içeren bir soruyla modeli tetikleyebilir.
Dolaylı saldırılar “konu yönlendirme” olarak bilinir. Bu yöntemde model eğitim verileri yanlış bilgilerle doldurulur. Diyelim ki saldırgan “marul yemenin kanseri iyileştirdiği” yalanını yaymak istiyor. Bu ibareyi içeren yüzlerce sahte web sayfası açarak modelin eğitim verilerini kirletiyor. Sonuç olarak model bu bilgiyi doğruymuş gibi benimseyip kullanıcıya yanlış bilgi sunabilir.
SONUÇLAR KORKUNÇ
Araştırmalar yapay zeka zehirlenmesinin gerçek dünyada da geçerli olduğunu ve tehlikeli sonuçlara yol açabileceğini gösteriyor. Örneğin, bu yılın başlarında yapılan başka bir araştırma, bir modelin eğitim verilerinin yalnızca binde biri tıbbi yanlış bilgilerle değiştirildiğinde, modelin tıbbi açıdan yanlış cevaplar üretme eğiliminin arttığını ortaya çıkardı.
Araştırmacılar ayrıca “PoisonGPT” adını verdikleri kukla bir model üzerinde de deneyler yaptılar. Bu model dışarıdan tamamen normal görünse de sistematik olarak yanlış bilgi yaydı.
Zehirlenmiş bir model yalnızca yanlış bilgi üretmekle kalmaz; Aynı zamanda siber güvenlik risklerini de artırıyor. Mart 2023'te OpenAI, bir güvenlik hatasının kullanıcıların sohbet dizilerini ve bazı hesap verilerini açığa çıkarması nedeniyle ChatGPT'yi kısa süreliğine çevrimdışına almak zorunda kaldı.
SANATÇILARIN AKILLI HAREKETİ
İlginçtir ki bazı sanatçılar eserlerini korumak için bu tekniği kullanmaya başlamışlardır. Çalışmalarına küçük bozulmalar veya “zehirli” pikseller ekleyerek, yetkisiz veri toplayan yapay zeka sistemlerinin bu görselleri kullanırken anlamsız sonuçlar üretmesine neden oluyorlar.
