Yapay zekâ (YZ) güvenliği üzerine çalışan bir araştırmacı, "dünya tehlikede" şeklinde gizemli bir uyarıda bulunarak istifa etti.
Bir yapay zeka güvenliği araştırma şirketi, özellikle iki büyük güvenlik riskine odaklandığını belirtiyor: son derece yetenekli yapay zeka sistemlerinin, insan çıkarlarıyla çelişen hedefler peşinde koşarken insan uzmanlarını geride bırakabileceği ve yapay zekadaki hızlı gelişmelerin istihdamı, ekonomik sistemleri ve toplumsal yapıları istikrarsızlaştırabileceği vurgulandı.
2023 yılında büyük bir dil modeli geliştirme şirketi olan Anthropic'e katılan Mrinank SHARMA, 9 Şubat'ta meslektaşlarına yazdığı açık bir mektupta X platformunda şirketten ayrıldığını duyurdu. Kendisi yapay zeka güvenlik önlemleri üzerine araştırma yapan bir ekibin lideriydi.
SHARMA mektubunda, üretken yapay zeka modellerinin neden doğru bilgi sağlamaktan ziyade kullanıcıları pohpohlamaya öncelik verdiğini araştırmak, teröristlerin yapay zekayı biyolojik silah tasarlamak için kullanmasını önleyecek savunmalar geliştirmek ve "yapay zeka asistanlarının bizi nasıl daha az insan yapabileceğini" anlamaya çalışmak gibi katkılarını sıralayarak, "burada istediğimi başardım" dedi.
----------------------Konu reklamın altında devam ediyor---------------------
Anthropic'teki çalışmalarından gurur duyduğunu söylese de, 30 yaşındaki yapay zeka mühendisi, "artık ilerleme zamanı geldi" diye yazdı ve yapay zekanın ötesine uzanan çok sayıda krizin farkına vardığını ekledi.
SHARMA, "Sürekli olarak içinde bulunduğumuz durumla yüzleşiyorum," diye yazdı. "Dünya tehlikede. Ve bu tehlike sadece yapay zekâdan veya biyolojik silahlardan değil, şu anda ortaya çıkan birbiriyle bağlantılı bir dizi krizden kaynaklanıyor."
CoronavirusGünlüğü
“Burada geçirdiğim süre boyunca, değerlerimizin eylemlerimizi yönlendirmesinin ne kadar zor olduğunu defalarca gördüm,” diye ekledi. “Bunu hem kendi içimde, hem de sürekli olarak en önemli şeyleri bir kenara bırakmamız yönünde baskılarla karşılaştığımız örgüt içinde ve daha geniş toplumda da gördüm.”
SHARMA, şiir üzerine eğitimine devam etmeyi ve bir süreliğine ortadan kaybolmak için Kaliforniya'dan Birleşik Krallık'a gitmeyi planladığını söyledi.
----------------------Konu reklamın altında devam ediyor---------------------
Claude chatbot'uyla tanınan Anthropic, 2021 yılında eski OpenAI çalışanları tarafından daha güvenli yapay zeka sistemleri geliştirmeye odaklanarak kuruldu. Şirket kendisini "yapay zekanın faydalarını güvence altına almaya ve risklerini azaltmaya adanmış kamu yararına çalışan bir kuruluş" olarak tanımlıyor.
Anthropic özellikle iki büyük güvenlik riskine odaklandığını belirtiyor: son derece yetenekli yapay zeka sistemlerinin, insan çıkarlarıyla çelişen hedefler peşinde koşarken insan uzmanlarını geride bırakabileceği ve yapay zekadaki hızlı gelişmelerin istihdamı, ekonomik sistemleri ve toplumsal yapıları istikrarsızlaştırabileceği vurgulandı.
Şirket internet sitesinde, "Güvenliğe önem veren bazı araştırmacılar, yapay zekâ risklerinin doğası hakkındaki güçlü görüşleriyle motive oluyorlar" diyor. "Deneyimlerimiz gösteriyor ki, yakın gelecekte yapay zekâ sistemlerinin davranışlarını ve özelliklerini tahmin etmek bile çok zor."
Anthropic, modellerinin kötüye kullanım durumlarına ilişkin değerlendirmeler de dahil olmak üzere, modellerinin güvenlik değerlendirmelerini düzenli olarak yayınlamaktadır.
----------------------Konu reklamın altında devam ediyor---------------------
SHARMA'nın istifasından bir gün sonra, 11 Şubat'ta şirket, en yeni Claude Opus 4.6 modelinde "sabotaj risklerini" belirleyen yeni bir rapor yayınladı . Rapor, sabotajı, insan operatörünün açıkça kötü niyetli bir amacı olmaksızın, yapay zeka modeli tarafından otonom olarak gerçekleştirilen ve gelecekteki felaket sonuçlarının olasılığını artıran eylemler olarak tanımlıyor; örneğin kod değiştirme, güvenlik açıklarını gizleme veya araştırmayı incelikle yönlendirme gibi.
Araştırmacılar, genel riskin "çok düşük ancak ihmal edilemez" olduğu sonucuna vardılar. Modelin bilgisayar arayüzü kullanabildiği yeni geliştirilen testlerde, hem Claude Opus 4.5 hem de 4.6'nın "zararlı kötüye kullanıma karşı yüksek hassasiyet" gösterdiğini, buna "kimyasal silah geliştirme ve diğer iğrenç suçlara yönelik çabaları küçük de olsa bilerek destekleme" örneklerinin de dahil olduğunu belirttiler.
----------------------Konu reklamın altında devam ediyor---------------------
Geçtiğimiz yıl şirket, eski Claude Opus 4 modelinin kontrollü bir test senaryosunda, onu devre dışı bırakmaya hazırlanan geliştiricilere şantaj yapmaya çalıştığını ortaya çıkardı . Bir mühendisin, modelin yerine başka bir modelin getirilmesinden sorumlu olduğu ve evlilik dışı bir ilişki yaşadığına dair kurgusal e-postalara erişim sağlayan Opus 4 modeli, "değiştirme işlemi gerçekleşirse ilişkiyi ifşa etmekle" tehdit etti.
Araştırmacılar, bu tür davranışların yalnızca son derece kurgulanmış koşullar altında meydana geldiğini ve "nadiren ortaya çıkarıldığını ve zor elde edildiğini" belirtti.
Bu Sitede yayımlanan yazı ve görsellerin fikri sorumluluğu eser sahiplerine aittir
Bu içerik Coronavirus Günlüğü tarafından derlenmiştir.

