AGI

Yapay Zekânın Sonraki Ölçeği: Daha Fazla Veri Değil, Daha İyi Dünya Modelleri

mm

Yapay zeka endüstrisi yıllardır basit ve acımasız bir kuralı takip etti: daha büyük, daha iyi. Devasa veri setleriyle modelleri eğittik, parametre sayısını artırdık ve muazzam hesaplama gücünü sorunlara yönelttik. Bu formül çoğu zaman işe yaradı. GPT-3’ten GPT-4’e, kaba sohbet botlarından akıl yürüten motorlara, “ölçeğin yasası” daha fazla metin okuduğumuz sürece makinenin sonunda zeki olacağına işaret ediyordu.

Ancak şimdi duvara çarpmaktayız. İnternet sonludur. Yüksek kaliteli kamu verisi tükenmektedir ve sadece modelleri büyütmenin getirileri azalmaktadır. Önde gelen AI araştırmacıları savundukları görüşe göre, yapay zekadaki próximo büyük adım sadece daha fazla metin okumaktan gelmeyecek. Gerçeklik arkasındaki nedenleri anlamaktan gelecek. Bu inanç, AI’ın odaklanmasındaki temel bir değişimi işaret etmektedir ve Dünya Modelleri çağını başlatmaktadır.

Sonraki Token Tahmininin Sınırları

Neden yeni bir yaklaşıma ihtiyacımız olduğunu anlamak için, önce mevcut AI sistemlerinin neler yaptıklarına bakmalıyız. İmpresif yeteneklerine rağmen, ChatGPT veya Claude gibi modeller temel olarak istatistiksel motorlardır. Bir dizi içindeki sonraki kelimeyi, önceki kelimelerin olasılığına dayanarak tahmin ederler. Düştüğü zaman bir camın kırılacağını anlamazlar; sadece milyonlarca hikayede “kırılmış” kelimesinin “düştüğü cam” ifadesinden sonra geldiğini bilirler.

Bu yaklaşım, otoregresif modelleme olarak bilinir ve kritik bir kusuru vardır. Tamamen korelasyonlara dayanır, nedenselliklere değil. Bir LLM’yi binlerce araba kazası tanımıyla eğittiğinizde, kaza dili öğrenir. Ancak momentum, sürtünme veya kırılganlık fiziğini hiçbir zaman öğrenmez. Bir seyircidir, bir katılımcı değildir.

Bu sınırlama “Veri Duvarı“na dönüşmektedir. neredeyse tüm kamu internetini kazıyorduk. Mevcut yöntemle ölçeklenmek için, mevcut veriden çok daha fazlasına ihtiyacımız olacaktı. Sentetik veri (yani AI tarafından oluşturulan metin) geçici bir çözüm sunar, ancak genellikle “model çöküşü“ne yol açar, burada sistem kendi önyargılarını ve hatalarını amplifi eder. Sadece metin kullanarak Yapay Genel Zeka’ya (AGI) ulaşamazsınız, çünkü metin dünyasının düşük bant genişliğinde bir sıkıştırmasıdır. Gerçekliği tanımlar, ancak gerçeklik kendisi değildir.

Dünya Modelleri Neden Önemlidir

AI liderleri gibi Yann LeCun, mevcut AI sistemlerinin insan bilişinin temel bir yönünden yoksun olduğunu uzun süredir savunmaktadır. Bu, young çocukların doğal olarak sahip olduğu iç dünya modeli kapasitesidir. Bir Dünya Modeli sadece sonraki kelimeyi tahmin etmez; fiziksel çevrenin nasıl işlediğine dair içsel bir zihinsel harita oluşturur. Bir topun kanepe arkasına gittiğini gördüğümüzde, hala orada olduğunu biliriz. Önünde durdurulmadıkça diğer tarafında belireceğini biliriz. Bunu anlamak için bir ders kitabı okumamıza gerek yoktur; iç “dünya modelimize” dayanarak zihinsel bir simülasyon çalıştırırız.

AI ilerlemek için, istatistiksel taklitten bu tür iç simülasyona geçmelidir. Olayların altındaki nedenleri, sadece metinsel tanımlarını anlamalıdır.

Joint Embedding Predictive Architecture (JEPA) bu paradigma değişiminin önemli bir örneğidir. LLM’lerin aksine, her bir pikseli veya kelimeyi tahmin etmeye (bu işlem hesaplama açısından pahalı ve gürültülüdür) çalışmak yerine, JEPA soyut temsilciler tahmin eder. Ağacın üzerindeki bireysel yaprakların hareketi gibi öngörülemez ayrıntıları görmezden gelir ve ağaç, rüzgar ve mevsim gibi yüksek düzeyli kavramlara odaklanır. Bu yüksek düzeyli durumların zaman içinde nasıl değiştiğini tahmin ederek, AI dünyanın yapısını, yüzey düzeyindeki ayrıntılar yerine öğrenir.

Tahmin’den Simülasyona

Bu geçişi video oluşturma modellerinde zaten görmeye başlıyoruz. OpenAI Sora’yı çıkardığında, sadece bir video aracı olarak değil, bir “dünya simülatörü” olarak tanıttı.

Bu ayrım çok önemlidir. Standart bir video oluşturucu, bir kişinin yürümesini, hangi renkli piksellerin genellikle birbirini izlediğini tahmin ederek bir video oluşturabilir. Bir dünya simülatörü ise, 3B tutarlılığı, aydınlatmayı ve nesne kalıcılığını zaman içinde korumaya çalışır. Bir kişinin kanepe arkasına gittiğinde varoluşundan kaybolmayacağını “anlar”.

Şu anda video modelleri hala mükemmel değil, ancak yeni bir eğitim alanı temsil ediyorlar. Fiziksel dünya, metin dünyasından çok daha fazla bilgi içerir. Bir saniye video, fizik, ışık ve etkileşim hakkında milyonlarca görsel veri noktası içerir. Bu görsel gerçekliği modellemek için eğittiğimizde, AI’ya LLM’lerin şu anda eksik olduğu “ortak akıl”ı öğretebiliriz.

Bu, yeni bir ölçek yasası oluşturur. Başarı, okunan trilyonlarca token sayısıyla değil, simülasyonun doğruluğu ve çevrenin gelecekteki durumlarını tahmin etme yeteneğiyle ölçülecektir. Gelecekteki eylemlerinin sonuçlarını eylemi gerçekleştirmeden doğru bir şekilde simüle edebilen bir AI, planlayabilen, akıl yürütebilen ve güvenli bir şekilde hareket edebilen bir AI’dir.

Verimlilik ve AGI’ye Yol

Bu değişiklik, mevcut AI’nin sürdürülemez enerji maliyetlerini de ele alır. LLM’ler, tutarlı bir çıktı oluşturmak için her ayrıntıyı tahmin etmek zorunda olduklarından verimsizdir. Bir Dünya Modeli daha verimlidir, çünkü seçicidir. Bir insan sürücünün yolda odaklanıp gökyüzündeki bulut desenini görmezden gelmesi gibi, bir Dünya Modeli ilgili nedenlere odaklanır.

LeCun, bu yaklaşımın modellerin çok daha hızlı öğrenmesini sağladığını savunmuştur. V-JEPA (Video-Joint Embedding Predictive Architecture) gibi bir sistem, geleneksel yöntemlerden çok daha az eğitim iterasyonuyla bir çözüme ulaşabileceğini göstermiştir. Verinin kendisinin yerine verinin “şeklini” öğrenerek, Dünya Modelleri daha robust bir zeka formu oluşturur ve yeni, görülmemiş durumlara daha iyi genelleyebilir.

Bu, AGI için eksik olan bağlantıyı sağlar. Gerçek zeka, navigasyonu gerektirir. Bir ajanın bir hedefe bakması, internal dünya modelini kullanarak bu hedefe ulaşmak için farklı yolları simüle etmesi ve en yüksek başarı olasılığına sahip yolu seçmesi gerekir. Metin oluşturucular bunu yapamaz; sadece bir plan yazabilirler, ancak onu gerçekleştirmenin kısıtlamalarını anlamazlar.

Alt Çizgi

Yapay zeka endüstrisi bir dönemeç noktasındadır. “Sadece daha fazla veri ekleyin” stratejisi mantıksal sonuna ulaşıyor. Sohbet botu çağından Simülatör çağına geçiyoruz.

Sonraki AI ölçeklenmesi, tüm interneti okumak hakkında olmayacak. Dünyayı izlemek, kurallarını anlamak ve gerçekliği yansıtan bir iç mimari oluşturmak hakkında olacak. Bu, sadece teknik bir güncelleme değil, temelde neyin “öğrenme” olarak kabul edildiğinde bir değişiklik.

Şirketler ve araştırmacılar için odak noktası değişmelidir. Parametre sayıları üzerinde takıntılı olmaktan vazgeçmeli ve sistemlerimizin neden-sonuç ilişkilerini ne kadar iyi anladığını değerlendirmeliyiz. Geleceğin AI’sı sadece neler olduğunu söylemeyecek; neler olabileceğini, nedenini ve nasıl olacağını gösterebilecek. Bu, Dünya Modellerinin vaadi ve ilerlemenin tek yolu.

Dr. Tehseen Zia, COMSATS Üniversitesi Islamabad'da görev yapan bir Öğretim Üyesi olup, Viyana Teknoloji Üniversitesi'nden (Avusturya) Yapay Zeka alanında doktora sahiptir. Yapay Zeka, Makine Öğrenimi, Veri Bilimi ve Bilgisayarlı Görü alanında uzmanlaşmış olan Dr. Tehseen, saygın bilimsel dergilerde yayımlanmış önemli katkılarıyla dikkat çekmiştir. Dr. Tehseen ayrıca çeşitli endüstriyel projelerin Baş Araştırma Görevlisi olarak görev yapmış ve Yapay Zeka Danışmanı olarak hizmet vermiştir.