Bizimle iletişime geçin

Yapay Zeka

Yapay Zeka Akıl Yürütme Serabı: Düşünce Zinciri Neden Düşündüğümüz Gibi Olmayabilir?

mm

Büyük dil modelleri (LLM'ler), karmaşık problemleri adım adım çözme becerileriyle bizi etkiledi. LLM'lerden bir matematik problemini çözmelerini istediğimizde, artık çalışmalarını gösteriyorlar ve bir cevaba ulaşmadan önce her mantıksal adımı izliyorlar. Bu yaklaşıma, Düşünce Zinciri (CoT) Muhakeme yeteneği, yapay zeka sistemlerinin düşünme süreçlerinde daha insansı görünmesini sağladı. Peki ya bu etkileyici muhakeme yeteneği aslında bir yanılsamaysa? araştırma Arizona Eyalet Üniversitesi'nden bir araştırmacı, gerçek mantıksal düşünceye benzeyen şeyin karmaşık bir desen eşleştirme tekniği olabileceğini öne sürüyor. Bu makalede, bu keşfi inceleyecek ve yapay zeka sistemlerini tasarlama, değerlendirme ve güvenme şeklimiz üzerindeki etkilerini analiz edeceğiz.

Mevcut Anlayışın Sorunu

Düşünce zinciri yönlendirmesi, yapay zekâ akıl yürütmesinde en bilinen ilerlemelerden biri haline geldi. Modellerin, çalışmalarını ara adımlarla göstererek matematiksel problemlerden mantıksal bulmacalara kadar her şeyi çözmelerine olanak tanıyor. Bu belirgin akıl yürütme yeteneği, birçok kişinin yapay zekâ sistemlerinin insan düşüncesine benzer çıkarımsal yetenekler geliştirdiğine inanmasına yol açtı. Ancak, Araştırmacılar bu inancı sorgulamaya başladılar.

Yeni bir derlemede ders çalışmaABD'nin artık yılda mı yoksa normal yılda mı kurulduğu gibi sorular sorulduğunda, hukuk alanında lisans (LL.M) öğrencilerine tutarsız cevaplar verdiklerini gözlemlediler. 1776'nın 4'e bölünebilir olmasının nedenini doğru bir şekilde belirleyip artık yıl olduğunu belirtmelerine rağmen, modeller yine de ABD'nin normal yılda kurulduğu sonucuna vardı. Bu durumda, modeller kuralları bildiklerini ve mantıksal adımlar gösterdiklerini, ancak çelişkili bir sonuca ulaştıklarını gösterdiler.

Bu tür örnekler, akıl yürütme gibi görünen şey ile gerçek mantıksal çıkarım arasında temel bir boşluk olabileceğini düşündürmektedir.

Yapay Zeka Muhakemesini Anlamak İçin Yeni Bir Bakış Açısı

Bu araştırmanın önemli bir yeniliği, Düşünce Zinciri (DZT) muhakemesini incelemek için bir "veri dağıtım merceği"nin sunulmasıdır. Araştırmacılar, DZT'nin gerçek mantıksal akıl yürütme yerine, eğitim verilerindeki istatistiksel düzenlilikler üzerinde çalışan gelişmiş bir desen eşleştirme tekniği olduğunu varsaymışlardır. Model, mantıksal işlemler gerçekleştirmek yerine, daha önce gördüklerine yakın akıl yürütme yolları üretir.

Bu hipotezi test etmek için araştırmacılar, kontrollü bir deneysel ortam olan DataAlchemy'yi oluşturdular. Karmaşık eğitim geçmişlerine sahip önceden eğitilmiş LLM'leri test etmek yerine, dikkatlice tasarlanmış görevler üzerinde sıfırdan daha küçük modeller eğittiler. Bu yaklaşım, büyük ölçekli ön eğitimin karmaşıklığını ortadan kaldırır ve dağılım kaymalarının muhakeme performansını nasıl etkilediğinin sistematik olarak test edilmesini sağlar.

Araştırmacılar, harf dizilerini içeren basit dönüşüm görevlerine odaklandılar. Örneğin, modellere alfabedeki harfleri döndürme (A, N olur, B, O olur) veya bir dizi içindeki harfleri kaydırma (APPLE, EAPPL olur) gibi işlemleri nasıl uygulayacaklarını öğrettiler. Araştırmacılar, bu işlemleri birleştirerek, farklı karmaşıklık düzeylerinde çok adımlı akıl yürütme zincirleri oluşturdular. Bu yaklaşım onlara kesinlik avantajı sağladı. Modellerin eğitim sırasında tam olarak ne öğrendiklerini kontrol edebilir ve ardından yeni durumlara ne kadar iyi genelleştirdiklerini test edebilirler. Bu düzeyde bir kontrol, devasa ve çeşitli veri kümeleri üzerinde eğitilmiş büyük ticari yapay zeka sistemleri için imkansızdır.

Yapay Zeka Muhakemesi Bozulduğunda

Araştırmacılar, gerçek dünya uygulamalarının eğitim verilerinden farklılık gösterebileceği üç kritik boyutta CoT muhakemesini test etti.

Görev Genellemesi Modellerin daha önce hiç karşılaşmadıkları yeni problemleri nasıl ele aldıklarını incelediler. Eğitim verileriyle aynı dönüşümler üzerinde test edildiklerinde, modeller mükemmel performans elde ettiler. Ancak, ufak değişiklikler muhakeme yeteneklerinde önemli başarısızlıklara neden oldu. Yeni görevler bilindik işlemlerin bir bileşimi olsa bile, modeller öğrendikleri kalıpları doğru şekilde uygulayamadı.

En endişe verici bulgulardan biri, modellerin genellikle mükemmel biçimlendirilmiş ve mantıklı görünen ancak yanlış cevaplara yol açan akıl yürütme adımları üretmesiydi. Bazı durumlarda, tamamen yanlış akıl yürütme yollarını izlerken tesadüfen doğru cevaplar üretiyorlardı. Bu bulgular, modellerin altta yatan mantığı anlamaktan ziyade, esasen yüzeysel kalıplara uyduğunu gösteriyor.

Uzunluk Genellemesi Modellerin, eğitimdekilerden daha uzun veya daha kısa muhakeme zincirlerini işleyip işleyemeyeceğini test ettiler. Araştırmacılar, 4 uzunlukta eğitilen modellerin, nispeten küçük değişiklikler olmalarına rağmen, 3 veya 5 uzunlukta test edildiklerinde tamamen başarısız olduklarını buldular. Ayrıca, modeller yeni gereksinimlere uyum sağlamak yerine, uygunsuz adımlar ekleyerek veya çıkararak muhakemelerini alışıldık kalıp uzunluğuna zorlamaya çalıştılar.

Biçim Genellemesi Problemlerin sunuluş biçimindeki yüzeysel değişikliklere karşı duyarlılık değerlendirildi. Gürültü belirteçleri eklemek veya komut istemi yapısını biraz değiştirmek gibi küçük değişiklikler bile performansta önemli bir düşüşe neden oldu. Bu, modellerin eğitim verilerinden gelen kesin biçimlendirme kalıplarına ne kadar bağımlı olduğunu ortaya koydu.

Kırılganlık Sorunu

Araştırma, üç boyutta da tutarlı bir örüntü ortaya koydu: CoT muhakemesi, eğitim örneklerine benzer verilere uygulandığında iyi çalışıyor, ancak orta düzeyde dağılım kaymaları altında bile kırılgan ve başarısızlığa meyilli hale geliyor. Görünen muhakeme yeteneği, özünde, modeller alışılmadık durumlarla karşılaştığında kaybolan "kırılgan bir serap".

Bu kırılganlık kendini çeşitli şekillerde gösterebilir. Modeller, tamamen yanlış olan akıcı ve iyi yapılandırılmış akıl yürütme zincirleri üretebilir. Temel mantıksal bağlantıları kaçırırken mükemmel mantıksal formu izleyebilirler. Bazen hatalı akıl yürütme süreçlerini gösterirken matematiksel tesadüfler yoluyla doğru cevaplar üretebilirler.

Araştırma ayrıca, küçük miktarlardaki yeni veriler üzerinde yapılan denetimli ince ayarların performansı hızla iyileştirebileceğini, ancak bunun gerçek akıl yürütme becerileri geliştirmek yerine modelin desen eşleştirme repertuarını genişlettiğini gösterdi. Bu, temeldeki matematiksel prensipleri anlamak yerine belirli örnekleri ezberleyerek yeni bir matematik problemini çözmeyi öğrenmeye benziyor.

Gerçek Dünya Etkileri

Bu bulgular, yapay zeka sistemlerini nasıl konuşlandırdığımız ve onlara nasıl güvendiğimiz konusunda ciddi sonuçlar doğurabilir. Tıp, finans veya hukuk analizi gibi yüksek riskli alanlarda, makul görünen ancak temelde hatalı akıl yürütmeler üretme becerisi, basit yanlış cevaplardan daha tehlikeli olabilir. Mantıksal düşünmenin ortaya çıkışı, kullanıcıların yapay zeka sonuçlarına haksız yere güvenmesine yol açabilir.

Araştırma, yapay zekâ uygulayıcıları için birkaç önemli kılavuz öneriyor. İlk olarak, kuruluşlar CoT'yi evrensel bir problem çözme çözümü olarak görmemelidir. Eğitim setlerine benzer veriler kullanan standart test yaklaşımları, gerçek akıl yürütme yeteneklerini değerlendirmek için yetersizdir. Bunun yerine, modelin sınırlamalarını anlamak için titiz bir dağıtım dışı test yapılması şarttır.

İkincisi, modellerin "akıcı saçmalıklar" üretme eğilimi, özellikle kritik uygulamalarda dikkatli bir insan gözetimi gerektirir. Yapay zeka tarafından üretilen akıl yürütme zincirlerinin tutarlı yapısı, hemen fark edilmeyebilecek temel mantıksal hataları maskeleyebilir.

Desen Eşleştirmenin Ötesine Bakmak

Belki de en önemlisi, bu araştırma yapay zekâ topluluğunu yüzeysel iyileştirmelerin ötesine geçerek gerçek akıl yürütme yeteneklerine sahip sistemler geliştirmeye davet ediyor. Veri ve parametrelerin ölçeklendirilmesine dayanan mevcut yaklaşımlar, öncelikle karmaşık desen eşleştirme sistemleriyse, temel sınırlara ulaşabilir.

Çalışma, mevcut yapay zekâ sistemlerinin pratik faydasını azaltmıyor. Ölçekli desen eşleştirme, birçok uygulama için oldukça etkili olabilir. Ancak, var olmayan bir şeye insan benzeri bir akıl yürütme atfetmek yerine, bu yeteneklerin gerçek doğasını anlamanın önemini vurguluyor.

İlerideki Yol

Bu araştırma, yapay zekâ akıl yürütmesinin geleceği hakkında önemli sorular ortaya koyuyor. Mevcut yaklaşımlar temelde eğitim dağılımlarıyla sınırlıysa, hangi alternatif yaklaşımlar daha güçlü akıl yürütme yeteneklerine yol açabilir? Desen eşleştirme ile gerçek mantıksal çıkarım arasında ayrım yapan değerlendirme yöntemlerini nasıl geliştirebiliriz?

Bulgular ayrıca, yapay zeka geliştirmede şeffaflığın ve doğru değerlendirmenin önemini vurgulamaktadır. Bu sistemler daha karmaşık ve çıktıları daha ikna edici hale geldikçe, görünür ve gerçek yetenekler arasındaki fark, doğru şekilde anlaşılmadığı takdirde giderek daha tehlikeli hale gelebilir.

Alt çizgi

Hukuk alanında lisans programlarında (LL.M.) Düşünce Zinciri akıl yürütmesi, gerçek mantıktan ziyade genellikle kalıp eşleştirmeyi yansıtır. Çıktılar ikna edici görünse de, yeni koşullar altında başarısız olabilir ve bu da tıp, hukuk ve bilim gibi kritik alanlar için endişelere yol açabilir. Bu araştırma, yapay zekâ akıl yürütmesine yönelik daha iyi testlere ve daha güvenilir yaklaşımlara duyulan ihtiyacın altını çizmektedir.

Dr. Tehseen Zia, İslamabad COMSATS Üniversitesi'nde Kadrolu Doçenttir ve Avusturya'daki Viyana Teknoloji Üniversitesi'nden yapay zeka alanında doktora derecesine sahiptir. Yapay Zeka, Makine Öğrenimi, Veri Bilimi ve Bilgisayarlı Görme konularında uzmanlaşarak saygın bilimsel dergilerdeki yayınlarıyla önemli katkılarda bulunmuştur. Dr. Tehseen ayrıca Baş Araştırmacı olarak çeşitli endüstriyel projelere liderlik etti ve Yapay Zeka Danışmanı olarak görev yaptı.