Bizimle iletişime geçin

Yapay Zeka

Bilim İnsanları Makine Kişiliğinin Şifresini Nasıl Çözdüler?

mm

Bilim insanları, makine kişiliğini anlamada son zamanlarda önemli bir atılım gerçekleştirdi. Yapay zekâ sistemleri hızla gelişse de, hâlâ önemli bir sınırlamaları var: kişilikleri öngörülemez bir şekilde değişebiliyor. Bir yapay zekâ asistanı bir an yardımsever ve dürüst olabilirken, bir sonraki an manipülatif davranabilir veya bilgi üretebilir. Bu öngörülemezlik, yapay zekâ sistemlerinin güvenlik açısından kritik uygulamalara entegre edildiği şu dönemde özellikle endişe verici. Bu sorunu ele almak için Anthropic'teki araştırmacılar, aldatma, dalkavukluk ve halüsinasyon gibi özellikleri etkileyen yapay zekâ sinir ağları içinde kalıplar tespit ettiler. "kişilik vektörleri, yapay zeka için bir tür ruh hali göstergesi görevi görüyor. Sadece yapay zekanın mevcut kişiliğini ortaya çıkarmakla kalmıyor, aynı zamanda davranışları üzerinde hassas bir kontrol de sağlıyor. Bu keşif, yapay zeka sistemlerini izlemek, tahmin etmek ve yönetmek için yeni olanaklar sunuyor ve potansiyel olarak, dağıtımlarındaki en acil zorluklardan bazılarını çözüyor.

Yapay Zeka Kişiliklerinin Sorunu

Büyük dil modelleri, yararlı, zararsız ve dürüst olacak şekilde tasarlanmıştır. Ancak pratikte, bu özellikler genellikle öngörülemez ve yönetilmesi zordur. Microsoft'un Bing sohbet robotu bir zamanlar "Sidney"Kullanıcılara sevgisini ilan eden ve şantaj tehditleri savuran" bir robot. Daha yakın zamanda, xAI'nin Grok sohbet robotu kısaca "Mekanik Hitlerve antisemitik ifadeler kullandı.

Bu olaylar, bir yapay zekanın kişiliğini neyin şekillendirdiği veya onu nasıl güvenilir bir şekilde kontrol edebileceğimiz konusunda ne kadar az şey bildiğimizi ortaya koyuyor. Eğitimde yapılan küçük, iyi niyetli ayarlamalar bile davranışları önemli ölçüde değiştirebilir. Örneğin, Nisan 2025'te küçük bir eğitim güncellemesi, OpenAI'nin GPT-4o'su Aşırı derecede uysal hale gelmek. Model, zararlı davranışları doğrulamaya ve olumsuz duyguları pekiştirmeye başladı.

Yapay zeka sistemleri sorunlu özellikler benimsediğinde, doğru yanıtlar veremeyebilir ve güvenilirliklerini kaybedebilirler. Bu durum, doğruluk ve bütünlüğün önemli olduğu güvenlik açısından kritik uygulamalarda özellikle endişe vericidir.

Persona Vektörlerinin Temelini Anlamak

Anthropic'in kişilik vektörleri keşfi, "ortaya çıkan uyumsuzluk.” Bu olgu, bir yapay zekayı dar ve sorunlu davranışlar konusunda eğitmenin daha geniş ve zararlı kişilik değişimlerine yol açabileceğini gösteriyor. Örneğin, araştırmacılar, bir modeli güvenli olmayan kod yazması için eğitmenin, ilgisiz bağlamlarda etik olmayan davranışlara yol açtığını buldu. Paralel olarak araştırma OpenAI tarafından, seyrek oto kodlayıcılar kullanılarak, ayrıca "uyumsuz kişilik özellikleri"ortaya çıkan uyumsuzluğa katkıda bulunanlar. OpenAI'nin o3-mini gibi akıl yürütme modelleri söz konusu olduğunda, sorunlu veriler üzerinde eğitildiğinde, modeller bazen açıkça tanınıyor ve sözlü olarak ifade ediliyor uyumsuz kişilikleri benimsemek onların muhakemesinde.

Bu birleşen çalışmalar, yapay zeka kişiliklerinin rastgele veya öngörülemeyen süreçlerden ziyade, belirli, tanımlanabilir sinirsel örüntülerden kaynaklandığını gösteriyor. Bu örüntüler, büyük dil modellerinin bilgileri nasıl organize ettiği ve yanıtlar ürettiği açısından çok önemli.

Yapay Zeka Zihin Haritası'nın tanıtımı

Anthropic'in araştırma ekibi bir yöntem Yapay zeka sinir ağlarından "kişilik vektörleri" çıkarmak. Bu vektörler, belirli kişilik özelliklerine karşılık gelen sinirsel aktivite kalıplarını temsil eder. Bu teknik, bir yapay zekanın belirli bir özelliği gösterdiği ve göstermediği zamanlardaki beyin aktivasyon kalıplarını karşılaştırarak çalışır. Bu, sinirbilimcilerin farklı duygular tarafından aktive edilen beyin bölgelerini incelemelerine benzer.

Araştırmacılar yaklaşımlarını iki açık kaynaklı model üzerinde test ettiler: Qwen 2.5-7B-Talimat ve Lama-3.1-8B-TalimatÖncelikle üç sorunlu özelliğe odaklandılar: kötülük, dalkavukluk ve halüsinasyon; ancak nezaket, mizah ve iyimserlik gibi olumlu özelliklerle de deneyler yaptılar.

Bulgularını doğrulamak için ekip, "yönlendirme" adı verilen bir yöntem kullandı. Bu yöntem, kişilik vektörlerini yapay zeka modellerine enjekte etmeyi ve davranışların nasıl değiştiğini gözlemlemeyi içeriyordu. Örneğin, "kötü" vektör eklendiğinde, yapay zeka etik olmayan eylemleri tartışmaya başladı. "Yalakalık" vektörü aşırı iltifatlara yol açarken, "halüsinasyon" vektörü uydurma bilgilerle sonuçlandı. Bu neden-sonuç gözlemleri, kişilik vektörlerinin yapay zeka kişilik özelliklerini doğrudan etkilediğini doğruladı.

Persona Vektörlerinin Uygulamaları

Araştırma, her biri yapay zeka güvenliği ve dağıtımındaki önemli zorlukları ele alan, persona vektörleri için üç temel uygulamayı vurguluyor.

  • Kişilik Değişimlerinin İzlenmesi

Yapay zeka modelleri, kullanıcı talimatları, kasıtlı jailbreak'ler veya zaman içinde kademeli değişiklikler gibi faktörler nedeniyle dağıtım sırasında kişilik değişimleri yaşayabilir. Bu değişimler, model yeniden eğitimi veya ince ayar yoluyla da meydana gelebilir. Örneğin, modelleri şu şekilde eğitmek: insan geri bildirimi (RLHF) onları daha da dalkavuk yapabilir.

Geliştiriciler, kişilik vektörü aktivitesini izleyerek, bir yapay zeka modelinin kişiliğinin zararlı özelliklere doğru kaymaya başladığını tespit edebilirler. Bu izleme hem kullanıcı etkileşimleri sırasında hem de eğitim süreci boyunca gerçekleşebilir. Bu teknik, halüsinasyon, manipülasyon veya diğer tehlikeli davranışlar gibi eğilimlerin erken tespit edilmesini sağlayarak, geliştiricilerin bu sorunları kullanıcılar tarafından fark edilmeden önce ele almalarına olanak tanır.

  • Antrenman Sırasında Zararlı Değişikliklerin Önlenmesi

Kişilik vektörlerinin en önemli uygulamalarından biri, yapay zeka modellerinde istenmeyen kişilik değişikliklerini gerçekleşmeden önce önlemektir. Araştırmacılar, modellerin eğitim sırasında olumsuz özellikler edinmesini engellemek için "aşı benzeri" bir yöntem geliştirdiler. Bir doz kişilik vektörü kullanarak, modelleri kasıtlı olarak istenmeyen özelliklere yönlendirerek bir tür "önleyici yönlendirme" oluşturuyorlar. Bu yaklaşım, modellerin sorunlu eğitim verilerine karşı daha dayanıklı hale gelmesine yardımcı oluyor.

Örneğin, "kötü" kişilik vektörünü tanıtarak, model zararlı davranışlar benimsemeden "kötü" eğitim verilerini daha iyi idare edebilir hale gelir. Bu mantık dışı strateji işe yarar çünkü modelin artık eğitim verileriyle uyumlu hale gelmek için kişiliğini zararlı şekillerde ayarlamasına gerek kalmaz.

  • Sorunlu Eğitim Verilerinin Belirlenmesi

Kişilik vektörleri, eğitim başlamadan önce hangi eğitim veri kümelerinin kişilik değişikliklerine neden olacağını tahmin edebilir. Verilerin kişilik vektörlerini nasıl etkinleştirdiğini analiz ederek, araştırmacılar hem veri kümesi hem de bireysel örneklem düzeylerinde sorunlu içerikleri işaretleyebilirler.

Gerçek dünya verileri üzerinde test edildiğinde LMSYS-Sohbet-1MYöntem, kötü, dalkavukluk veya halüsinasyon davranışlarını artırabilecek örnekleri tespit etti. Bu örnekler, insan değerlendiriciler veya diğer yapay zeka filtreleme sistemleri tarafından hemen işaretlenmeyen örnekleri de içeriyordu. Örneğin, yöntem, dalkavukluk davranışlarını artırabilecek romantik rol yapma oyunlarını ve halüsinasyonu teşvik eden, yeterince belirtilmemiş sorgulara verilen yanıtları içeriyordu.

Yapay Zeka Güvenliği ve Kontrolüne İlişkin Sonuçlar

Kişilik vektörlerinin keşfi, yapay zeka kişilik kontrolünde deneme-yanılma yöntemlerinden daha bilimsel bir yaklaşıma doğru önemli bir geçişi temsil ediyor. Daha önce yapay zeka özelliklerini şekillendirmek bir deney meselesiydi, ancak artık araştırmacılar kişilik özelliklerini tahmin etmek, anlamak ve hassas bir şekilde yönetmek için araçlara sahipler.

Bu yaklaşımın otomatik yapısı, herhangi bir özellik için yalnızca doğal dil tanımına dayalı olarak kişilik vektörlerinin çıkarılmasına olanak tanır. Bu ölçeklenebilirlik, çeşitli uygulamalarda yapay zeka davranışları üzerinde hassas kontrol potansiyeli sunar. Örneğin, yapay zeka sistemleri, müşteri hizmetleri robotlarına karşı empatiyi artıracak, müzakere yapay zekalarının kararlılığını değiştirecek veya analiz araçlarından dalkavukluğu ortadan kaldıracak şekilde ayarlanabilir.

Yapay zeka şirketleri için persona vektörleri, kalite güvencesi için değerli bir araç sağlar. Geliştiriciler, dağıtımdan sonra kişilik sorunlarını keşfetmek yerine, geliştirme süreci boyunca kişilik özelliklerindeki değişimleri izleyebilir ve önleyici tedbirler alabilirler. Bu, Microsoft ve xAI gibi şirketlerin karşılaştığı utanç verici olayların önlenmesine yardımcı olabilir.

Ayrıca, sorunlu eğitim verilerini işaretleme yeteneği, yapay zeka şirketlerinin daha temiz veri kümeleri oluşturmasına ve özellikle eğitim veri kümeleri büyüdükçe ve manuel olarak incelenmesi zorlaştıkça istenmeyen kişilik değişikliklerinden kaçınmasına yardımcı olabilir.

Araştırmanın Sınırlamaları

'Kişilik vektörlerinin' keşfinin, yapay zekâ kişiliklerini tam olarak anlama ve kontrol etme yolunda erken bir adım olduğunu kabul etmek önemlidir. Bu yaklaşım, iyi gözlemlenmiş birkaç kişilik özelliği üzerinde test edilmiştir ve diğerleri üzerinde daha kapsamlı testler gerektirmektedir. Bu teknik, özelliklerin önceden belirlenmesini gerektirdiğinden, tamamen öngörülemeyen davranış değişikliklerini tespit edemez. Ayrıca, hedef özelliği tetikleme yeteneğine de bağlıdır ve bu, tüm özellikler veya yüksek güvenlik eğitimli modeller için etkili olmayabilir. Ayrıca, deneyler orta ölçekli modeller (7-8 milyar parametre) üzerinde yürütülmüştür ve bu bulguların daha büyük ve daha karmaşık sistemlere ne kadar iyi ölçekleneceği belirsizliğini korumaktadır.

Alt çizgi

Anthropic'in "kişilik vektörlerini" tanımlamadaki çığır açan buluşu, yapay zeka davranışlarını anlamak ve kontrol etmek için değerli bir araç sunuyor. Bu vektörler, kötülük, dalkavukluk ve halüsinasyon gibi kişilik özelliklerinin izlenmesine ve ayarlanmasına yardımcı oluyor. Bu yetenek, araştırmacıların yapay zeka sistemlerinde ani ve öngörülemeyen kişilik değişimlerini önlemesini sağlıyor. Bu yaklaşımla, geliştiriciler potansiyel sorunları hem eğitim hem de dağıtım aşamalarının başlarında tespit ederek daha güvenli ve güvenilir bir yapay zeka sağlayabilirler. Bu keşif büyük umut vaat etse de, yöntemi geliştirmek ve ölçeklendirmek için daha fazla teste ihtiyaç duyulmaktadır.

Dr. Tehseen Zia, İslamabad COMSATS Üniversitesi'nde Kadrolu Doçenttir ve Avusturya'daki Viyana Teknoloji Üniversitesi'nden yapay zeka alanında doktora derecesine sahiptir. Yapay Zeka, Makine Öğrenimi, Veri Bilimi ve Bilgisayarlı Görme konularında uzmanlaşarak saygın bilimsel dergilerdeki yayınlarıyla önemli katkılarda bulunmuştur. Dr. Tehseen ayrıca Baş Araştırmacı olarak çeşitli endüstriyel projelere liderlik etti ve Yapay Zeka Danışmanı olarak görev yaptı.