Bizimle iletişime geçin

Düşünce Liderleri

Yapay Zeka İnsanlar Gibi Düşündüğünde: LLM'lerin ve Temsilcilerin Zihnini Keşfetmek

mm

Günümüzde, hukuk alanında lisans derecesine sahip olanlar ve uzmanlar, algoritmik "düşünme" biçimleri ile insan zihni arasındaki çizgiyi bulanıklaştıracak şekilde öğreniyor, analiz ediyor ve kararlar alıyorlar. Temel aldıkları yaklaşımlar halihazırda bilişsel süreçlerimizi taklit ediyor ve aldıkları eğitimin ölçeği, insan deneyimini kat kat aşıyor. Bu da şu soruyu gündeme getiriyor: Yeteneklerimizi genişleten bir araç mı yaratıyoruz, yoksa sonuçları hâlâ tahmin edilemeyen yeni bir zihin türüne mi yol açıyoruz?

Modeller nasıl düşünür?

LLM ve aracı kavramları arasında ayrım yapmak önemlidir. Bir bilgisayarla benzetme yapmak gerekirse, LLM, bileşenlerinden biri, örneğin işlemci ile karşılaştırılabilir. Ancak bir aracı, bellek, grafik kartı ve ağ gibi çeşitli modüllerin bağlı olduğu bir "anakart" olan tüm sistemdir. Benzer şekilde, bir aracı, bir veya daha fazla LLM'yi bünyesinde barındırabilen, karar alma mekanizmaları ve dış çevreyle etkileşim araçlarıyla desteklenen karmaşık bir sistemdir.

Tek bir LLM'nin çalışmasını ele alırsak, her şey kalıp eşleştirmeye dayanır. Ancak, bir temsilci birden fazla LLM'yi birbirine bağladığında, "düşünüyor" diyebiliriz, ancak bu süreç yine de kalıplar üzerine kuruludur. Temsilci, modeller arasındaki etkileşim mantığını oluşturur: örneğin, bir LLM görevi analiz eder ve bu analize dayanarak temsilci, başka bir LLM'nin hangi eylemi gerçekleştirmesi gerektiğini belirler.

İnsan düşüncesi de benzer şekilde işler: Birikmiş bilgi ve kalıplara güvenir, bunları doğru anda seçer, işler ve sonuçlar çıkarırız. Bu sürece akıl yürütme denir.

ChatGPT, tıpkı insanlar gibi iki tür belleğe sahiptir: kısa süreli ve uzun süreli. Aradaki fark, insanlarda bu bellek seviyelerine erişimin daha karmaşık olması ve her zaman doğrusal olmamasıdır.

Kısa süreli hafıza, şu anda üzerinde çalıştığımız bilgilerdir. Bir kişi için bu, beş dakika önce söylediğiniz şey olabilir: hatırlayabilir veya hatırlamayabilir. Ancak GPT, her zaman "bağlam penceresi" içindeki her şeyi hesaba katar; bu verileri atlayamaz veya görmezden gelemez.

İnsanlarda uzun süreli hafıza, her zaman aktif olmayan ve yalnızca belirli tetikleyicilerle ortaya çıkabilen anılardan oluşur: çocukluk anıları, travmalar veya örneğin bir psikologla çalışmak. GPT'nin de benzer bir mantığı vardır: özellikle etkinleştirilmediği sürece bilgileri kendi başına "hatırlamaz". Örneğin, "Bana bu soruyu bir daha asla sorma" veya "Bana her zaman resmi bir şekilde hitap et" gibi bir talimat uzun süreli hafızada saklanabilir ve her seansta uygulanabilir.

Uzun süreli belleğin bir başka örneği de kaydedilmiş belgelerdir. Diyelim ki GPT'ye bir pazarlama araştırması talimatı yüklediniz. Model bunu belleğe kaydedebilir, ancak bu, her soruda bu belgeye başvuracağı anlamına gelmez. "Ay'a el feneri tutabilir misin?" diye sorarsanız, GPT talimatı yok sayar. Ancak istek, belgenin metniyle eşleşen anahtar kelimeler içeriyorsa, model talimatı "hatırlayabilir".

Bu mekanizma şu şekilde uygulanmaktadır: RAG (Geri Alma-Artırılmış Nesil), modelin vektör veri tabanları aracılığıyla ilgili ipuçlarıyla tetiklenen depolanmış bilgilere erişim sağladığı bir yaklaşımdır.

Dolayısıyla modelin gerçekten bir hafızası olduğu, ancak insan hafızasından farklı, daha biçimsel bir mantığa göre işlediği söylenebilir.

Yapay zeka ile yapılan bir sohbet neden bazen terapatik hissettirirken, bazen de soğuk ve robotik mi?

Modern dil modelleri son derece büyüktür: muazzam miktarda veri, bilgi ve bağlam depolarlar. Tüm bu bilgiler, tematik ve anlamsal alanlar olarak adlandırılan "kümeler" halinde düzenlenir. Model, kurgu ve bilimsel makalelerden YouTube yorumlarına kadar çeşitli kaynaklar kullanılarak eğitilmiştir.

Yapay zeka ile etkileşime girdiğinizde, sorgunuz (istem) modeli etkili bir şekilde belirli bir kümeye yönlendirir.

Örneğin, "New York'ta 20 yıllık deneyime sahip bir emlak avukatısınız, bana bir daire almamda yardımcı olur musunuz?" diye yazarsanız, model aynı anda birkaç kümeyi harekete geçirir: avukat → New York → emlak. Sonuç olarak, sanki gerçekten deneyimli bir profesyonele danışıyormuşsunuz gibi tutarlı, alakalı ve gerçekçi bir yanıt alırsınız.

Sorgu, kişisel gelişim veya duygular gibi daha kişisel veya felsefi konularla ilgiliyse, model psikoloji, felsefe veya içsel çalışma gibi diğer kümelere "kayıyor". Bu durumda, yanıtları şaşırtıcı derecede insani ve hatta terapötik görünebilir.

Ancak, aşırı genel veya belirsiz ifadelerle, model "kaybolur” kümeleme yapısı içindedir ve varsayılan bir yanıt verir, resmi, kopuk ve duygusal tondan yoksundur.

Yapay zekanın tepkisinin tarzı ve derinliği, onu komutla hangi kümeye yönlendirdiğinize bağlıdır.

Model eğitiminin felsefesi ve RLHF

Yapay zekanın öğrenmeye farklı yaklaşımları vardır. Bu bir felsefeden ziyade bir stratejidir.

Klasik seçenek, modele bir soru ve doğru cevabın verildiği gözetimli öğrenmedir. Model, neyin doğru kabul edildiğini gözlemleyerek öğrenir ve daha sonra benzer çözümleri gelecekte yeniden üretir.

Ama başka bir yaklaşım da var RLHF (İnsan Geri Bildiriminden Güçlendirilmiş Öğrenme)Bu farklı bir stildir: Model bir şeyi dener, başarılı eylemleri için bir "ödül" alır ve davranışını buna göre ayarlar. Yavaş yavaş etkili bir strateji geliştirir.

RLHF, ham maddenin bitmiş ürüne dönüştürülmesi sürecine benzetilebilir. Kullanımı kolay bir model oluşturmak için, insan geri bildirimiyle muazzam miktarda çalışma gerekir.

Size doğrudan adını vermeden bir nesne gösterdiğimi düşünün. Tereddüt ediyorsunuz: "Sigara kutusu mu? Kartlık mı?" Sadece "Daha yakın", "Daha uzak", "%60 evet" gibi ipuçları veriyorum. Yüzlerce benzer tekrardan sonra, tahmin ediyorsunuz: "Ah, bu bir cüzdan."

Hukuk alanında lisans derecesine sahip olanlar bu şekilde eğitilir. İnsanlar, yorumcular ve genel olarak profesyoneller, şu cevabı değerlendirir: bu cevap iyi, bu cevap kötü ve puanlar atarlar. AnahtarcıYüksek kaliteli veri açıklama ve doğrulama konusunda uzmanlaşmış olan , bu süreçte kilit bir rol oynar. Geri bildirimler sıradan kullanıcılardan da gelir: beğeniler, şikayetler ve tepkiler. Model, bu sinyalleri yorumlayarak davranış kalıpları oluşturur.

Model eğitimi pratikte nasıl görünüyor?

A canlı bir örnek OpenAI'nin deneyidir "Saklambaç" oyununda takviyeli öğrenmeyi kullanarak ajanların eğitilmesi.

İki takım katıldı: "Arayanlar" (kırmızı) ve "saklananlar" (mavi). Kurallar basitti: Bir arayıcı bir saklananı yakalarsa bir puan kazanır; yakalayamazsa bir puan kaybeder. Başlangıçta, ajanların önceden belirlenmiş stratejileri olmadan sadece koşma ve zıplama gibi temel fiziksel yetenekleri vardı.

Başlangıçta, arayıcılar kaotik bir şekilde hareket ediyorlardı ve rakipleri yakalamak şans eseri gerçekleşiyordu. Ancak milyonlarca denemeden sonra davranışları evrimleşti. Saklananlar, kapıları kapatmak ve bariyerler inşa etmek için çevredeki nesneleri kullanmaya başladılar. Bu beceriler, doğrudan programlama olmadan, tamamen tekrarlanan denemeler ve başarıya yönelik ödüllerle ortaya çıktı.

Buna karşılık, arayıcılar başlangıçtan beri mevcut olan ancak daha önce göz ardı edilen bir yetenek olan zıplamayı kullanmaya başladılar. Bir dizi başarısızlıktan sonra, zıplamanın rastgele kullanımı taktiksel değerini ortaya çıkardı. Ardından saklananlar, arayıcıların görüş alanındaki nesneleri kaldırarak ve daha güvenilir sığınaklar inşa ederek savunmalarını daha da karmaşıklaştırdılar.

Deney, milyarlarca deneme-yanılma, ödül ve ceza döngüsü sayesinde, geliştirici müdahalesi olmadan karmaşık işbirlikçi davranışların oluşabileceğini gösterdi. Dahası, iletişim mekanizmaları programlanmamış olsa bile, ekip çalışmasının daha etkili olduğu kanıtlandığı için, ajanlar koordinasyon içinde hareket etmeye başladılar.

Büyük dil modelleri için de durum aynı. Tüm senaryoları yazmak imkânsız: dünyada çok fazla durum ve çok fazla değişkenlik var. Bu nedenle, modele sabit kurallar öğretmiyoruz; ona nasıl öğreneceğini öğretiyoruz.

RLHF'nin değeri budur. RLHF olmadan, bir LLM ve temsilciler sadece bir metin kütüphanesi olarak kalır. RLHF ile birlikte, uyum sağlayabilen, kendini düzeltebilen ve özünde gelişebilen bir sohbet ortağı haline gelir.

Sırada ne var?

Birçok kişi LLM'lerin ve ajans geliştirmelerinin istenmeyen hatta tehlikeli sonuçlara yol açıp açmayacağını merak ediyor.

Bugün gördüğümüzün bir MVP bile olmadığını, sadece bir prototip olduğunu anlamak önemlidir.

Gerçek devrim, güzel bir mektup yazmaya veya Fransızcaya çevirmeye yardımcı olmakla ilgili olmayacak. Bunlar önemsiz şeyler. Asıl amaç, mikro görevlerin ve rutin süreçlerin otomasyonunu sağlayarak insanlara yalnızca gerçekten yaratıcı, entelektüel görevler veya dinlenme zamanı bırakmak.

Gerçek yenilikler, bir insan yerine bağımsız olarak düşünebilen, hareket edebilen ve karar verebilen sistemler olan aracılara odaklanır. OpenAI, Google, Meta ve diğer şirketler bugün tam da bu alana odaklanıyor.

Büyük dil modelleri sadece bir temeldir. Gerçek gelecek, dinamik bir dünyada yaşamak, geri bildirim almak ve değişikliklere uyum sağlamak üzere eğitilmiş ajanlarda yatmaktadır.

Michael Abramov, şirketin kurucusu ve CEO'sudur. İçgözlemci15 yılı aşkın yazılım mühendisliği ve bilgisayar görüşü yapay zeka sistemleri deneyimini, kurumsal düzeyde etiketleme araçları geliştirmek için kullanıyor.

Michael kariyerine yazılım mühendisi ve Ar-Ge yöneticisi olarak başladı, ölçeklenebilir veri sistemleri geliştirdi ve çok fonksiyonlu mühendislik ekiplerini yönetti. 2025 yılına kadar CEO olarak görev yaptı. AnahtarcıVeri etiketleme hizmeti veren bir şirkette, büyük ölçekli bilgisayar görüşü ve otonomi veri ihtiyaçlarını desteklemek için insan müdahalesi gerektiren iş akışları, gelişmiş kalite güvence sistemleri ve özel araçlar konusunda öncülük etti.

Bilgisayar Bilimleri alanında lisans derecesine sahip olan Michael, mühendislik ve yaratıcı sanatlar alanlarında da deneyim kazanmış olup, zor problemlerin çözümüne çok disiplinli bir bakış açısı getiriyor. Teknoloji inovasyonu, stratejik ürün liderliği ve gerçek dünya üzerindeki etki kesişiminde yer alan Michael, otonom sistemler ve akıllı otomasyonun yeni sınırlarını zorluyor.