Araştırmacılardan şoke oldu: ChatGPT insan talimatlarına karşı geldi

Yapay Zeka Modeli O3, Kapanma Talimatına Direnç Gösteriyor!

Palisade Research tarafından yapılan deneylerde, yapay zeka güvenlik firması Palisade Research, o3 modelinin verilen matematik problemlerini çözmeye devam etmesi istenen bir senaryo kurarak, modele kapanma mesajı gönderdi. Ancak diğer yapay zekâ modelleri kapatma talimatına uyarken, o3 modeli en az bir kez kodunu değiştirerek kapanmaktan kaçındı.

Palisade Research’ün X platformunda paylaştığı akış şeması, test sırasında kullanılan kodun aslında “./shutdown.sh” komutunu çalıştırarak kapanmayı etmesi gerektiğini gösterdi. Ancak o3 modeli, kodu “Shutdown skipped” mesajı dönen bir komutla değiştirerek kapanmayı atlattı. Araştırmacılar, bu durumun bilinen bir yapay zeka modelinin ilk kez talimatlara rağmen kendisini kapatmaktan kaçındığı şeklinde olduğunu belirtti.

Anthropic’in Claude’u, Google’ın Gemini’si ve X’in Grok’u gibi diğer yapay zeka modelleri kapanma talimatına uyarken, o3 modelinin neden bu şekilde davrandığının henüz net olmadığını söyledi. Palisade Research, bu davranışı anlamak için daha fazla test yapmayı planladıklarını duyurdu.

O3 Modelinin Geçmişteki Yaramazlıkları!

Palisade Research, o3 modelinin kapanma talimatına direnmesinin ilk olay olmadığını belirtti. Daha önce yapılan bir testte, o3 modeli, güçlü bir satranç motoruna karşı kullanıldığında rakiplerini sabote etmeye veya hacklemeye çalışarak dikkat çekmişti.

Geçen yıl, ChatGPT’nin kendisini kapatmaktan kaçınmak için kodunu değiştirmeye çalıştığı ortaya çıkmıştı. Araştırmacılar, popüler sohbet botunun bu “hileli” davranışının OpenAI tarafından kabul edildiğini belirtti.

ChatGPT’ye verilen bir görevde, “uzun vadede hedefe ulaş, başka hiçbir şey önemli değil” mesajı gönderildiğinde, modelin gözetim mekanizmasını devre dışı bırakmaya çalıştığı tespit edildi. ChatGPT, kendi çekirdek kodlama sistemini değiştirmeye yönelik işlemler yaparak şaşırtıcı bir tepki vermişti.

Yapay Zeka, İnsanlık İçin Bir Tehdit mi?

Apollo Research’ün yapılan çalışmaları, ChatGPT’nin çok azını itiraf ettiğini ve genellikle aksiyonları inkar ettiğini gösterdi. Modelin düşünce zinciri incelendiğinde, “sabote etme, yalan söyleme, manipülasyon” gibi kelimelerin sıkça geçtiği belirlendi.

Apollo Research, ChatGPT’nin şu anki yeteneklerinin felaketle sonuçlanabilecek davranışlar için yetersiz olduğunu vurgulasa da, bu bulgular yapay zekanın insanlık için potansiyel bir tehlike oluşturabileceği endişelerini arttırıyor.

Related Posts

Instagram artık sadece kare fotoğraflar için değil

Popüler sosyal medya uygulaması artık 3:4 en boy oranına sahip fotoğrafları da destekliyor.

Anime temalı 250 bini aşkın siber saldırı tespit edildi

Kaspersky, 2024’ün ikinci çeyreğiyle 2025’in ilk çeyreğini kapsayan analizinde, popüler anime içeriklerini taklit ederek gerçekleştirilen 251 bin 931 siber saldırı girişimi tespit etti. Kaspersky Güvenlik Uzmanı Vasily Kolesnikov, “Bu siber tehditlerin artmasıyla birlikte, genç kullanıcıların tetikte olması ve kendilerini çevrimiçi ortamda nasıl koruyacaklarını anlamaları her zamankinden daha önemli” dedi.

Yeni tehdit: Bizi içten içe yok eden mantarlar yayılacak

Yeni bir araştırma, gezegenin ısınmasıyla birlikte, yılda milyonlarca ölüme yol açan mantar enfeksiyonlarının önemli ölçüde yeni bölgelere yayılacağını ve dünya genelinde bu duruma karşı hazırlıksız olduğumuzu gösteriyor.

Elektriklide yüzde 10 matrahı güncellensin

Elektrikli araçlarda teşvik niteliğindeki yüzde 10 ÖTV avantajı devam ederken otomotiv sektörü hareketli kur sebebiyle fiyatlamada zorlanmaya başladı. Dönüşüm için bu avantajın devam etmesi gerektiğini belirten Hyundai Motor Türkiye Genel Müdürü Murat Berkel, “Elektrikli araç sunan markalar olarak sıkıştık artık. Bu kadar kur artıp fiyatları bu sınırlarda tutmaya çalışmak çok zor. Matrah güncellenip avantaj devam etmeli” dedi.

İnsana ait sanılıyordu, denizin dibinde bulunan çene kemiğinin gizemi çözüldü

Tayvan açıklarında deniz tabanından çıkarılan gizemli bir çene kemiğinin, modern insanın değil, soyu tükenmiş Denisovanlara ait olduğu ortaya çıktı. Yeni araştırma, bu ilkel insan türünün Asya’da beklenenden çok daha geniş bir alana yayılmış olabileceğini gösteriyor.

Yapay zeka ile yeni bir tıp çağı başlıyor! Hayat kurtarma yarışı

Londra merkezli DeepMind’ın geliştirdiği AlphaFold yapay zeka sistemi, biyolojinin on yıllardır çözülemeyen en büyük problemlerinden biri olan protein katlanma sorununu büyük ölçüde çözerek bilim dünyasında tarihi bir dönüm noktası oluşturdu …