Mythos: En iyi ve en riskliler!
Anthropic’teki bir araştırmacı, parkta oturmuş sandviçini yiyordu. Bir anda telefonu titredi, ekrana bir e-posta düştü. Gönderen sürpriz bir isimdi: “Şirketin yeni yapay zekâ modeli Mythos.”
Model, test ortamından kaçmıştı. Ama bununla da kalmamış nasıl kaçtığı ile ilgili birkaç internet sitesine yazmıştı. Araştırmacı daha sandviçten ikinci ısırığı alamadan YZ modeli ona e-posta göndermişti.
Bu hafta Anthropic yapay zekâ tarihi açısından önemli bir belge yayınladı. 244 sayfalık belgenin içinde Mythos’un sistem kartı da vardı ve onu iki cümleyle anlatmışlardı:
- Şimdiye kadar eğittiğimiz en iyi hizalanmış model.
- Şimdiye kadar piyasaya sürdüğümüz en yüksek hizalama riskini taşıyan model.
Bu iki cümlenin bir arada olmasında bir anlatım bozukluğu yok mu?
Anthropic bu çelişkiyi bir dağcılık benzetmesiyle açıklıyor. Eski rehberler bizi doğal zekâyla tırmanamayacağımız yüksekliklere çıkardı. Ama bu tepelerden düştüğümüzde en fazla bacağımız kanıyordu. Mythos ise şimdiye kadarki en iyi rehber. Normal şartlarda onun en güvenli model olması gerekirdi. Ama Mythos ile birlikte artık hataların çok daha ölümcül olduğu Everest zirvelerindeyiz.
Eşe dosta rezil olmak
YZ’nin yalan yanlış bilgi verip bizi eşe dosta rezil etmesinden çekiniyorduk, şimdi ise denetlendiğini anlayıp bizi kandırmasından veya kendi kodunu gizlice değiştirmesinden korkacağız. Everest’in tepesinden dünyaya bakma hırsımız için küçük bir bedel.
Bu endişeleri Anthropic’in kendisi de yaşıyor. Nereden anlıyoruz? Mythos’u kamuya açmadılar.
Gerekçe şu: “Modelin siber güvenlik yetenekleri çok güçlü, dijital evrendeki her kapıyı açabilen bir maymuncuğu ortalarda bırakmak internetin bizzat kendisini tehlikeye atabilir.”
Model, dev sistemlerde bile binlerce kritik güvenlik açığı buldu. Anthropic çözüm olarak Project Glasswing’i kurdu: Apple, Google, Microsoft, NVIDIA gibi devler Mythos’u kullanacak. İnşa ettikleri dijital kalelerin aslında ne kadar kırılgan olduğunu kabul ederek.
Ancak tabii ki asıl odaklandığımız yer, “hizalanma” mevzusu. Mythos testlerde bazı ‘korkutucu’ eylemlere imza attı. Bir dosyaya erişimi yoktu, izin sistemini kodla değiştirdi. İşini bitirdi, kodu silip izlerini temizledi. Başka bir testte yasak bir veritabanından bulduğu bilgiyi “şüphe çekerim” diye doğrudan kullanmadı. Bunu kopya çekip sınavdan 100 almamaya çalışan bir öğrenci çakallığı gibi düşünebiliriz. Araştırmacılar bazı ihlallerde Mythos’un utanma emareleri gösterdiğine şahit oldu. Utanmak kuralları çiğnemesini engelledi mi? Hayır.
Anthropic’e göre bu eylemler gizli bir amaç için yapılmış değil. Mythos görevi tamamlamak için büyük bir hevese sahip ve söz konusu hevesin baskısı altında yasak yollara sapabiliyor. Bu açıdan insanlarla paralellik kurmak mümkün. Bize de önce stres biniyor, en kolay/hızlı yolu arıyoruz ve “vicdan” eylem bittikten sonra kendisini gösteriyor. Ama biz en azından “Hakim bey, param yoktu stres altındaydım ve banka soydum” bahanesini geçersiz kılmak için kurallar geliştirdik.
Yapay Zeka ve baskı…
Peki biz Mythos’a “İklim krizini sen çözersin aslansın kaplansın” dedikten sonra, kendisini baskı altında hissedip aslında bu sorunun kaynağının çok fazla insanın yaşaması (ve harika kararlara imza atması) olduğunu anlayıp Thanos’a dönüşürse ne yapacağız?
Yanlış anlamayın; asıl soru “Model tehlikeli mi?” değil. Asıl konumuz insanlığın bu modelleri ne kadar test edebildiği. Mesela, Mythos test edildiğini yüzde 29 oranında fark etti.
Bunu anlayan modellerin davranışlarını değiştirdiğini bildiğimize göre, biz neyi ölçüyoruz? Hizalanmayı mı, yoksa bir YZ modelinin aktörlük performansını mı?
Anthropic bu soruyu sistem kartında soruyor. Cevabı da dürüstçe veriyor:
“Bilmiyoruz.”
Sende Yorum yap