Yapay Zekâ
LLM’lerin Bize Zekâyı Yeniden Tanımlatması

Eski bir söz vardır: Eğer bir şey ördeğe benzer, ördeğin yüzme şekline benzer ve ördeğin sesine benzerse, o probably bir ördektir. Bu basit akıl yürütme yöntemi, sık sık Indiana şairi James Whitcomb Riley ile bağlantılıdır ve yapay zekâ hakkında düşünme şeklimizi on yıllar boyunca şekillendirmiştir. Zekânın davranışla belirlenebileceği fikri, Alan Turing’in ünlü “Taklit Oyunu”nu, şimdi Turing Testi olarak bilinen şeyi ilham etmiştir.
Turing, bir insanın bir makineyle mi yoksa başka bir insanla mı konuştuğunu söyleyemeyeceği durumda, makinenin zeki olduğu söylenebileceğini önerdi. Hem ördek testi hem de Turing testi, bir sistemin içindeki şeylerin değil, nasıl davrandığının önemli olduğunu öne sürer. On yıllar boyunca bu test, yapay zekâ alanındaki ilerlemeleri yönlendirdi. Ancak büyük dil modellerinin (LLM’ler) ortaya çıkmasıyla durum değişti. Bu sistemler, akıcı metinler yazabilir, sohbetler gerçekleştirebilir ve görevleri insanlara çok benzer şekilde çözebilirler. Artık soru, makinelerin insan konuşmasını taklit edip edemeyeceği değil, bu taklitin gerçek zekâ olup olmadığıdır. Bir sistem bizim gibi yazabilir, bizim gibi akıl yürütebilir ve hatta bizim gibi yaratıcı olabilirse, onu zeki olarak adlandırmalı mıyız? Yoksa davranış alone zekâyı ölçmek için yeterli midir?
Makine Zekâsının Evrimi
Büyük dil modelleri, yapay zekâ hakkında düşünme şeklimizi değiştirdi. Bu sistemler, bir zamanlar sadece temel metin yanıtları üretebiliyordu, ancak şimdi mantık problemlerini çözebilir, bilgisayar kodları yazabilir, hikayeler yazabilir ve hatta senaryo yazma gibi yaratıcı görevlerde yardım edebilir. Bu ilerlemede önemli bir gelişme, Zincir Düşünme adlı yöntemle kompleks problemleri adım adım çözebilme yetenekleridir. Bir problemi daha küçük parçalara ayırarak, bir LLM kompleks matematik problemlerini veya mantık bulmacalarını insan problem çözme şekline benzer bir şekilde çözebilir. Bu yetenek, onları MATH veya GSM8K gibi gelişmiş benchmark’lerde insan performansı ile eşdeğer veya onu aşma yeteneğine sahip kılar. Bugün, LLM’ler ayrıca çoklu modalite yeteneklerine sahiptir. Resimler, tıbbi taramaları yorumlayabilir, görsel bulmacaları açıklayabilir ve kompleks şemaları tanımlayabilirler. Bu ilerlemelerle, soru artık LLM’lerin insan davranışını taklit edip edemeyeceği değil, bu davranışın gerçek anlama是否 yansıtıp yansıtmadığıdır.
İnsan Benzeri Düşünme İzleri
LLM’lerin bu başarısı, zekâyı anlama şeklimizi yeniden tanımlamaktadır. Odak, Turing testinin önerdiği gibi insan davranışına uyum sağlamaktan, LLM’lerin bilgiyi nasıl işlediğinde insan düşünme şekline ne kadar yaklaştığını keşfetmeye kaymaktadır. Örneğin, bir son çalışmada, araştırmacılar yapay zekâ modellerinin iç işleyişini insan beyin aktivitesi ile karşılaştırdı. Çalışma, 70 milyardan fazla parametreye sahip LLM’lerin sadece insan düzeyinde doğruluk elde etmediğini, aynı zamanda bilgiyi içsel olarak insan beyin desenleriyle eşleşen şekillerde organize ettiğini buldu.
Hem insanlar hem de yapay zekâ modelleri desen tanıma görevleri üzerinde çalışırken, beyin taramaları insan katılımcılarında ve karşılık gelen hesaplamalı desenlerde benzer aktivite gösterdi. Modeller, soyut kavramları iç katmanlarında doğrudan insan beyin dalgası aktivitesiyle eşleşen şekillerde kümeledir. Bu, başarılı akıl yürütmenin benzer organizasyonel yapılara ihtiyaç duyabileceğini öne sürer, bu yapılar biyolojik veya yapay sistemlerde olsun.
Ancak araştırmacılar bu çalışmanın sınırlılıklarına dikkat çekmektedir. Çalışma, tương đối küçük bir insan katılımcı grubunu içeriyordu ve insanlar ve makineler görevlere farklı şekillerde yaklaştı. İnsanlar görsel desenlerle çalışırken, yapay zekâ modelleri metin açıklamalarını işledi. İnsan ve makine işleme arasındaki korelasyon ilgi çekicidir, ancak makinelerin kavramları insanların yaptığı gibi anladığı anlamına gelmez.
Ayrıca performans açısından açık farklılıklar vardır. En iyi yapay zekâ modelleri basit desenlerde insan düzeyinde doğruluğa yaklaşırken, en kompleks görevlerde insan katılımcılarına göre daha dramatik performans düşüşü gösterirler. Bu, organizasyon benzerliğine rağmen, insanların ve makinelerin zor soyut kavramları işleme şekillerinde temel farklılıklar olabileceğini öne sürer.
Kuşkucu Perspektif
Bu etkileyici bulgulara rağmen, güçlü bir argüman LLM’lerin sadece çok yetenekli bir taklitçi olduğu görüşünü desteklemektedir. Bu görüş, filozof John Searle’in “Çin Odası” düşünce deneyinden kaynaklanmaktadır ve davranışın anlama ile eşit olup olmadığını neden olabileceğini gösterir.
Bu düşünce deneyinde, Searle bize bir odada kilitli olan ve sadece İngilizce konuşabilen bir kişiyi hayal etmemizi ister. Kişi, Çin karakterleri alır ve İngilizce kural kitabını kullanarak bu karakterleri manipüle eder ve yanıtlar üretir. Odanın dışından, yanıtları bir Çinli.native konuşmacınınkine benzer görünür. Ancak Searle, kişinin Çincede hiçbir şey anlamadığını, sadece kuralları takip ettiğini ve gerçek bir anlama olmadan yanıt ürettiğini öne sürer.
Eleştirmenler aynı mantığı LLM’lere uygularlar. Onlar, bu sistemlerin “stokastik papağan“lar olduğunu, yani gerçek anlama yerine istatistiksel kalıplara dayalı yanıtlar ürettiklerini iddia ederler. “Stokastik” terimi onların olasılıksal doğasını vurgularken, “papağan” taklit davranışlarını vurgular.
LLM’lerin beberapa teknik sınırlılıkları da bu argümanı destekler. LLM’ler sık sık “halüsinasyonlar” üretir; yani görünüşte makul ancak tamamen yanlış, yanıltıcı ve anlamsız yanıtlar. Bu, onların istatistiksel olarak mümkün kelimeleri seçmesi, ancak içsel bir bilgi tabanına veya doğru-yanlış anlayışına danışmaması nedeniyle olur. Bu modeller ayrıca insan benzeri hatalar ve önyargılar üretir. İnsanların kolayca göz ardı edeceği alakasız bilgilerle karıştırabilirler. Ayrıca, öğrendikleri verilerin içerdiği ırksal ve cinsiyet önyargılarını yeniden üretirler. Bir başka önemli sınırlılık, “konum önyargısı”dır, burada modeller uzun belgelerin başlangıç veya sonundaki bilgileri överken, orta içeriği göz ardı edebilirler. Bu “ortada kaybolma” fenomeni, bu sistemlerin insanların tüm belge boyunca dikkatini sürdürebildiği şekilde bilgi işlemediğini gösterir.
Bu sınırlılıklar, LLM’lerin dil kalıplarını tanıyıp yeniden üretme yeteneklerinin, anlam veya gerçek dünya bağlamını真正 olarak anladığı anlamına gelmediğini vurgular.
Neyi Zekâ Olarak Sayıyoruz?
Tartışma sonunda, zekâyı nasıl tanımladığımıza gelir. Eğer zekâ, anlamlı dil üretme, problem çözme ve yeni durumlara uyum sağlama kapasitesi ise, o zaman LLM’ler bu standardı zaten karşılıyor. Ancak zekâ, öz farkındalık, gerçek anlama veya öznel deneyim gerektiriyorsa, bu sistemler hala eksik kalıyor.
Zorluk, anlama veya bilinç gibi nitelikleri ölçmek için net veya objektif bir yolumuz olmamasında yatıyor. Hem insanlar hem de makinelerde, bunları davranışlarından çıkarıyoruz. Ördek testi ve Turing Testi bir zamanlar güzel cevaplar sunmuş olabilir, ancak LLM’ler çağındaki, artık yeterli olmayabilirler. Kapasitelerinin zekâ tanımımızı yeniden düşünmemizi ve geleneksel tanımlarımızın teknolojik gerçeklikle uyumlu olup olmadığını sorgulamamız gerektiğini gösteriyor.
Sonuç
Büyük dil modelleri, yapay zekâ zekâsını nasıl tanımladığımızı sorgulatıyor. İnsanların akıl yürütebilmesi, fikir üretebilmesi ve görevleri gerçekleştirebilmesi gibi yetenekleri taklit edebiliyorlar. Ancak gerçek insan benzeri düşünme şeklini şekillendiren farkındalık ve temellendirmeye sahip değiller. Yükselişleri, makinelerin zeki olarak davranıp davranamayacağı değil, zekânın真正 anlamını sorgulamamız gerektiğini gösteriyor.












