Düşünce Liderleri
İnsan Gibi Düşünen AI: LLM’ler ve Ajanların Zihinlerini Keşfetme

Bugün, LLM’ler ve ajanlar, algoritmik “düşünme” ile insan zihnini ayıran çizgiyi bulanıklaştıran şekillerde öğrenir, analiz yapar ve kararlar verir. Onları oluşturan yaklaşımlar zaten bilişsel süreçlerimizi taklit ediyor ve eğitimlerinin ölçeği insan deneyimini büyüklükte aşiyor. Bu, bizi bir aracı yaratıyor muyuz yoksa hâlâ öngörülemez sonuçlara sahip yeni bir zihin tipi mi yarattığımız sorusunu gündeme getiriyor?
Nasıl düşünürler
LLM’ler ve ajanlar arasındaki kavramları ayırt etmek önemlidir. Bir bilgisayar ile bir analoji çizerek, bir LLM bir bileşenine, örneğin işlemciye benzeyebilir. Bir ajan ise tüm sistemdir, çeşitli modüllere bağlı bir “ana kart”: bellek, grafik kartı ve ağ. Benzer şekilde, bir ajan, bir veya daha fazla LLM’yi içeren, karar verme mekanizmaları ve dış ortamla etkileşim araçları ile desteklenen karmaşık bir sistemdir.
Tek bir LLM’nin çalışmasını düşünürsek, her şey desen eşleştirmeye indirgenir. Ancak bir ajan birden fazla LLM’yi zincirlediğinde, “düşündü” denilebilir, ancak bu süreç masih desenlere dayanmaktadır. Ajan, modeller arasındaki etkileşim mantığını oluşturur: Örneğin, bir LLM görevi analiz eder ve bu analize dayanarak ajan, başka bir LLM’nin hangi eylemi gerçekleştireceğini belirler.
İnsan düşüncesi de benzer şekilde çalışır: Biriken bilgi ve desenlere güveniyoruz, onları doğru anda seçiyoruz, işliyoruz ve sonuçlar çıkarıyoruz. Bu süreç akıl yürütme olarak adlandırılır.
ChatGPT, insan gibi, iki tür belleğe sahiptir: kısa süreli ve uzun süreli. Fark, insanların bu bellek düzeylerine erişimin daha karmaşık olması ve her zaman lineer olmamasıdır.
Kısa süreli bellek, şu anda çalıştığımız bilgidir. Bir kişi için, beş dakika önce dediğiniz bir şey olabilir: hatırlayabilir veya hatırlamayabilir. Ancak GPT, her zaman “bağlam penceresi” içindeki her şeyi dikkate alır – bu verileri atlayamaz veya görmezden gelemez.
İnsanların uzun süreli belleği, her zaman aktif olmayan ve yalnızca belirli tetikleyicilerle ortaya çıkabilen anıları içerir: bir çocukluk anısı, bir travma veya Örneğin, bir psikologla çalışma. GPT benzer bir mantığa sahiptir: Bilgiyi özel olarak etkinleştirilmedikçe “hatırlamaz”. Örneğin, “Bana bu soruyu asla sorma” veya “Her zaman bana resmi olarak hitap et” gibi bir talimat, uzun süreli bellekte saklanabilir ve her oturumda uygulanabilir.
Başka bir uzun süreli bellek örneği, kaydedilen belgelerdir. Diyelim ki GPT’ye pazar araştırması melakukan talimatını yüklediniz. Model bunu bellekte saklayabilir, ancak bu, her soru için bu belgeye başvuracağı anlamına gelmez. “Ay’a bir el feneri tutabilir misiniz?” diye sorarsanız, model bu talimata ignor edecektir. Ancak talep, belgenin metnini içeren anahtar kelimeleri içeriyorsa, model bunu “hatırlayabilir”.
Bu mekanizma, RAG (Retrieval-Augmented Generation) aracılığıyla uygulanır, burada model, vektör veritabanları aracılığıyla ilgili ipuçları tarafından tetiklenen depolanan bilgilere erişir.
Bu nedenle, modelin gerçekten belleği olduğu ve ancak daha formalize edilmiş bir mantığa göre işlediği söylenebilir, bu da insan belleğinden farklıdır.
AI ile sohbet neden bazen terapötik hissettirir, bazen ise soğuk ve robotik?
Modern dil modelleri son derece büyüktür: devasa miktarda veri, bilgi ve bağlam depolarlar. Tüm bu bilgiler, tematik ve anlamsal alanlar olarak adlandırılan “kümeler” halinde organize edilir. Model, çeşitli kaynaklardan oluşan bir eğitim verisine sahiptir: kurgu ve bilimsel makalelerden YouTube yorumlarına kadar.
AI ile etkileşime girdiğinizde, sorgunuz (prompt) effectively modeli belirli bir kümeğe yönlendirir.
Örneğin, “20 yıllık deneyime sahip bir New York emlak avukatıyım, bana bir daire satın alma konusunda yardım edin” yazarsanız, model aynı anda birkaç kümeği etkinleştirir: avukat → New York → emlak. Sonuç olarak, gerçekten deneyimli bir profesyonel danışıyormuş gibi tutarlı, ilgili ve gerçekçi bir yanıt alırsınız.
Sorgu, kişisel veya felsefi konuları içeriyorsa, örneğin öz gelişimle veya duygularla ilgili ise, model “değişir” diğer kümelerine, Örneğin psikoloji, felsefe veya iç çalışma. Bu durumda, cevapları şaşırtıcı bir şekilde insan gibi ve hatta terapötik gibi görünebilir.
Ancak, fazla genel veya belirsiz bir ifadeyle, model “kaybolur” küme yapısında ve formal, uzak ve duygusal tonu olmayan bir varsayılan yanıt verir.
AI’nın cevabının tarzı ve derinliği, sorgunuzun hangi kümeğe yönlendirdiğine bağlıdır.
Model eğitiminin felsefesi ve RLHF
Yapay zeka, öğrenme için farklı yaklaşımlara sahiptir. Bu, bir felsefe değil, bir stratejidir.
Klasik seçenek, denetimli öğrenmedir, burada model bir soru ve doğru cevap verilir. Doğru kabul edilen şeyleri gözlemleyerek ve benzer çözümleri gelecekte yeniden üretmeye öğrenir.
Ancak başka bir yaklaşım RLHF (Reinforcement Learning from Human Feedback) dir. Bu, farklı bir tarzdır: model bir şey dener, başarılı eylemler için bir “ödül” alır ve davranışını ayarlar. Yavaş yavaş, etkili bir strateji geliştirir.
RLHF, ham maddeyi bitmiş bir ürüne dönüştürme sürecine benzeyebilir. Kullanışlı bir model oluşturmak için insan geri bildirimi ile devasa bir çalışma gereklidir.
Diyelim ki size bir nesne gösteriyorum, ancak doğrudan adını vermiyorum: “Sigara kutusu mu? Kart tutucu mu?” Sadece ipuçları veriyorum: “Yakın”, “Uzak”, “%60 evet”. Yüzlerce böyle iterasyon sonra, tahmin edersiniz: “Ah, bir cüzdan”.
LLM’ler bu şekilde eğitilir. İnsanlar, annotatörler ve genel olarak profesyoneller değerlendirir: bu cevap iyidir, bu kötüdür ve puanlar atar. Keymakr gibi yüksek kaliteli veri anotasyonu ve doğrulama konusunda uzmanlaşmış şirketler, bu süreçte kilit bir rol oynar. Geri bildirim ayrıca normal kullanıcılar tarafından gelir: beğeniler, şikayetler ve tepkiler. Model bu sinyalleri yorumlar ve davranış kalıpları oluşturur.
Model eğitiminin pratikte nasıl göründüğü
Bir canlı örnek, OpenAI’nin ajanları “Hide and Seek” oyununda pekiştirme öğrenimi kullanarak eğittiği deneydir.
İki takım katıldı: “arananlar” (kırmızı) ve “gizlenenler” (mavi). Kurallar basitti: bir aranan bir gizleneni yakalarsa bir puan kazanırdı, yoksa bir puan kaybederdı. Başlangıçta, ajanlar yalnızca temel fiziksel yeteneklere sahipti, koşma ve zıplama, önceden tanımlanmış hiçbir strateji olmadan.
Başlangıçta, arananlar kaotik davrandı ve karşı tarafı yakalamak tesadüfi oldu. Ancak milyonlarca iterasyon sonra, davranışları evrimleşti. Gizlenenler, kapıları engellemek ve bariyerler oluşturmak için çevredeki nesneleri kullandılar. Bu beceriler, doğrudan programlama olmadan, yalnızca tekrarlanan girişimler ve başarılı olma ödülleri sayesinde ortaya çıktı.
Karşılık olarak, arananlar, başlangıçta ihmal edilen bir yetenek olan zıplamayı kullanmaya başladılar. Bir dizi başarısızlıktan sonra, zıplamanın rastgele kullanımı taktik değerini ortaya çıkardı. Sonra gizlenenler, savunmalarını daha da karmaşıklaştırdı, arananların görüş alanından nesneleri kaldırdı ve daha güvenilir sığınaklar inşa etti.
Deney, milyarlarca deneme, hata, ödül ve ceza döngüsü aracılığıyla, geliştiricinin müdahalesi olmadan karmaşık işbirliği davranışının oluşabileceğini gösterdi. Ayrıca, ajanlar, iletişim mekanizmaları programlanmamış olmasına rağmen, birlikte çalışmaya başladı, çünkü takım çalışması daha etkili olduğunu kanıtladı.
Büyük dil modelleri için de aynı şey geçerli. Tüm senaryoları yazmak imkansız: çok fazla durum ve dünya üzerinde çok fazla değişkenlik var. Bu nedenle, modelimize sabit kurallar öğretmiyoruz; öğrenmeyi öğretiyoruz.
Bu, RLHF’nin değeri. Onsuz, bir LLM ve ajanlar sadece bir metin kütüphanesi olur. Onu ile, bir sohbet ortağı haline gelir, uyarlayabilen, kendini düzeltme yeteneğine sahip ve esasen evrimleşen.
Sonraki nedir?
Çok người, LLM’ler ve ajan gelişmelerin istenmeyen veya hatta tehlikeli sonuçlara yol açıp açmayacağından endişe ediyor.
Önemli olan, bugün gördüğümüzün aslında bir MVP değil, sadece bir prototip olduğunu anlamaktır.
Gerçek devrim, güzel bir mektup yazmanıza veya onu Fransızca’ya çevirmenize yardımcı olmak won’t. Bunlar küçük şeyler. Ana yön, mikro görevlerin ve rutin süreçlerin otomasyonu, insanlara yalnızca gerçekten yaratıcı, entelektüel görevler veya dinlenme zamanı bırakmaktır.
Gerçek yenilikler, bağımsız olarak düşünebilen, davranabilen ve karar verebilen ajanlar etrafında odaklanıyor. İşte OpenAI, Google, Meta ve diğer şirketlerin bugün odaklandığı yer burası.
Büyük dil modelleri sadece temel. Gerçek gelecek, dinamik bir dünyada yaşayabilen, geri bildirim alan ve değişikliklere adapte olabilen ajanlar tarafından eğitilenlere ait.












