Yapay Zeka
Yapay Zeka Aracıları Gerçek Araştırmada Ne Kadar İyi? Derin Araştırma Tezgahı Raporunun İçinde

As büyük dil modelleri (LLM'ler) hızla evrimleştikçe, güçlü araştırma asistanları olarak vaatleri de öyle. Giderek artan bir şekilde, yalnızca basit olgusal soruları yanıtlamıyorlar; çok adımlı akıl yürütme, çelişkili bilgileri değerlendirme, web genelinde veri kaynaklama ve bunları tutarlı bir çıktıya sentezleme gibi "derin araştırma" görevlerini üstleniyorlar.
Bu yeni ortaya çıkan yetenek artık büyük laboratuvarlar tarafından farklı marka adları altında pazarlanıyor—OpenAI buna "Derin Araştırma" diyor, Anthropic buna "Genişletilmiş Düşünme" diyor, Google'ın Gemini'si "Arama + Pro" özellikleri sunuyor ve Perplexity kendi ürünlerini "Pro Arama" veya "Derin Araştırma" olarak etiketliyor. Peki bu teklifler pratikte ne kadar etkili? GelecekAramabaşlıklı Derin Araştırma Tezgahı (DRB): Web Araştırma Aracılarını Değerlendirme, bugüne kadarki en titiz değerlendirmeyi sunuyor ve sonuçlar hem etkileyici yetenekleri hem de kritik eksiklikleri ortaya koyuyor.
Derin Araştırma Tezgahı Nedir?
FutureSearch ekibi tarafından geliştirilen Deep Research Bench, yapay zeka ajanlarının çok adımlı, web tabanlı araştırma görevlerindeki performansını değerlendirmek için özenle oluşturulmuş bir kıyaslama aracıdır. Bunlar, basit ve anlaşılır cevapları olan sorular değildir; analistlerin, politika yapıcıların ve araştırmacıların gerçek dünya koşullarında karşılaştıkları karmaşık ve açık uçlu zorlukları yansıtırlar.
Kriter, 89 kategoride 8 farklı görevi içeriyor:
- Numarayı Bul: Örn. "Kaç tane FDA Sınıf II tıbbi cihaz geri çağırması gerçekleşti?"
- İddiayı Doğrula: Örn. "ChatGPT, Google Arama'dan 10 kat daha fazla enerji tüketiyor mu?"
- Veri Setini Derle: örn. "2019-2023 yılları arasında ABD yazılım geliştiricileri için iş eğilimleri"
Her görev türü, insan tarafından doğrulanmış yanıtlarla dikkatlice yapılandırılır ve RetroSearch olarak bilinen, kazınmış web sayfalarından oluşan dondurulmuş bir veri kümesi kullanılarak değerlendirilir. Bu, model değerlendirmeleri arasında tutarlılığı garanti ederek canlı web'in dalgalanan durumundan kaçınılmasını sağlar.
Aracı Mimarisi: ReAct ve RetroSearch
Deep Research Bench'in merkezinde, "Reason + Act" ifadesinin kısaltması olan ReAct mimarisi yer alır. Bu yöntem, bir insan araştırmacının bir sorunu nasıl ele alabileceğini taklit eder: Görevi düşünerek, web araması yapmak gibi bir eylemde bulunarak, sonuçları gözlemleyerek ve ardından yineleme yapıp yapmamaya veya sonuca varmaya karar vererek.
Daha önceki modeller bu döngüyü açıkça takip ederken, daha yeni "düşünme" modelleri genellikle süreci basitleştirir ve akıl yürütmeyi eylemlerine daha akıcı bir şekilde yerleştirir. Değerlendirmeler arasında tutarlılığı sağlamak için DRB, RetroSearch'ü sunar; web'in özel olarak oluşturulmuş, statik bir sürümü. Sürekli değişen canlı internete güvenmek yerine, aracılar, şu araçlar kullanılarak taranan web sayfalarının düzenlenmiş bir arşivine erişir: Serper, Oyun yazarı, ve KazıyıcıAPIÖlçek etkileyici: "Kanıt Topla" gibi yüksek karmaşıklık gerektiren görevler için RetroSearch, zaman içinde dondurulmuş 189,000'den fazla sayfaya erişim sağlayarak adil ve tekrarlanabilir bir test ortamı sağlayabilir.
Hangi Yapay Zeka Ajanları Daha İyi Performans Gösteriyor?
Tüm yarışmacılar arasında OpenAI'nin o3'ü, Deep Research Bench'te olası 0.51 üzerinden 1.0 puan alarak en iyi performansı gösteren olarak ortaya çıktı. Bu mütevazı gelebilir ancak kıyaslamanın zorluğunu anlamak önemlidir: görev tanımları ve puanlamadaki belirsizlik nedeniyle kusursuz bir ajan bile muhtemelen 0.8 civarında bir puan alırdı; araştırmacıların "gürültü tavanı" dediği şey. Başka bir deyişle, günümüzün en iyi modelleri bile hâlâ iyi bilgilendirilmiş, metodik insan araştırmacıların gerisinde kalıyor.
Yine de, liderlik tablosu açıklayıcı içgörüler sunuyor. o3 sadece sürüye liderlik etmekle kalmadı, aynı zamanda bunu hız ve tutarlılıkla yaptı ve neredeyse tüm görev türlerinde güçlü bir performans gösterdi. Anthropic'ten Claude 3.7 Sonnet yakından takip etti ve hem "düşünen" hem de "düşünmeyen" modlarında çok yönlülük gösterdi. Google'ın amiral gemisi modeli olan Gemini 2.5 Pro, yapılandırılmış planlama ve adım adım akıl yürütme gerektiren görevleri ele alma becerisiyle öne çıktı. Bu arada, açık ağırlıklı DeepSeek-R1 hoş bir sürpriz sundu - GPT-4 Turbo ile aynı hızda ilerledi ve açık ve kapalı modeller arasındaki performans farkını daralttı.
Genel olarak net bir model ortaya çıktı: daha yeni, "düşünmeye olanak sağlayan" modeller, önceki emsallerinden sürekli olarak daha iyi performans gösterdi ve kapalı kaynaklı modeller, açık kaynaklı alternatiflere göre belirgin bir üstünlüğe sahip oldu.
Acenteler Nerede Mücadele Ediyor?
Deep Research Bench raporunda vurgulanan başarısızlık modellerini okumak şaşırtıcı derecede tanıdık geldi. Kişisel olarak karşılaştığım en sinir bozucu yönlerden biri, özellikle uzun araştırma veya içerik oluşturma oturumları sırasında, bir AI aracısının ne yaptığımızı unutmasıdır. Bağlam penceresi genişledikçe, model genellikle konuyu kaybetmeye başlar: önemli ayrıntılar kaybolur, hedefler karışır ve aniden yanıtlar kopuk veya amaçsız hissettirir. Bir noktada, şimdiye kadar üretilen her şeyi çöpe atmak anlamına gelse bile, kayıpları kesip sıfırdan başlamanın genellikle daha iyi olduğunu öğrendim.
Bu tür unutkanlık sadece anekdotsal değil; Deep Research Bench değerlendirmesinde başarısızlığın en önemli öngörücüsü. Ancak tek tekrar eden sorun bu değil. Rapor ayrıca bazı modellerin tekrarlayan araç kullanımına nasıl düştüğünü, aynı aramayı sanki bir döngüde takılıp kalmış gibi tekrar tekrar çalıştırdığını vurguluyor. Diğerleri, etkili bir şekilde nasıl arama yapılacağı konusunda eleştirel düşünmek yerine tembelce anahtar kelime eşleştirmesi yaparak zayıf sorgu oluşturma gösteriyor. Ve çok sık olarak, aracılar erken sonuçlara kurban gidiyor; teknik olarak kutuyu işaretleyen ancak gerçek içgörüden uzak yarı oluşturulmuş bir cevap sunuyorlar.
En üst modeller arasında bile farklar belirgindir. Örneğin GPT-4 Turbo, önceki adımları unutmaya yönelik belirgin bir eğilim gösterirken, DeepSeek-R1'in önceki adımları unutma olasılığı daha yüksekti. gördüğünü sanmak veya makul görünen—ama yanlış—bilgiler icat edin. Genel olarak, modeller çıktılarını sonlandırmadan önce kaynakları çapraz kontrol etmede veya bulguları doğrulamada sıklıkla başarısız oldu. Ciddi işler için yapay zekaya güvenen herkes için bu sorunlar fazlasıyla tanıdık gelecektir—ve gerçekten insanlar gibi düşünebilen ve araştırma yapabilen aracılar inşa etmede hala kat etmemiz gereken mesafenin altını çizerler.
Peki Ya Bellek Tabanlı Performans?
İlginçtir ki, Deep Research Bench, "araçsız" aracılar olarak adlandırdığı, web araması veya belge alma gibi harici araçlara erişim olmadan çalışan dil modellerini de değerlendirdi. Bu aracılar tamamen kendi iç eğitim verilerine ve hafızalarına güvenerek, yalnızca eğitim sırasında öğrendikleri bilgilere dayanarak yanıtlar üretirler. Pratikte bu, hiçbir şeyi araştıramayacakları veya bilgileri doğrulayamayacakları anlamına gelir; "hatırladıklarına" dayanarak tahminde bulunurlar.
Şaşırtıcı bir şekilde, bu araçsız ajanlar belirli görevlerde tam araştırma ajanları kadar iyi performans gösterdi. Örneğin, iddiayı doğrulama görevinde (amaç bir ifadenin makul olup olmadığını değerlendirmektir) 0.61 puan aldılar ve bu da araç destekli ajanların 0.62 ortalamasına neredeyse eşitti. Bu, o3 ve Claude gibi modellerin güçlü iç ön yargılara sahip olduğunu ve genellikle web'de arama yapmaya gerek kalmadan yaygın iddiaların doğruluğunu tanıyabildiğini gösteriyor.
Ancak daha zorlu görevlerde—çeşitli kaynaklardan birden fazla değeri bir araya getirmeyi gerektiren Sayıyı Türetme veya bağlam içinde çeşitli gerçekleri bulup değerlendirmeye dayanan Kanıt Toplama gibi—bu araçsız modeller tamamen dağıldı. Yeni bilgiler veya gerçek zamanlı arama yetenekleri olmadan, doğru veya kapsamlı cevaplar üretme araçlarından yoksundular.
Bu karşıtlık önemli bir nüansı vurguluyor: Günümüzün LLM'leri çok fazla "bilmeyi" simüle edebilirken, derin araştırma sadece hatırlamaya değil, aynı zamanda güncel, doğrulanabilir bilgilerle akıl yürütmeye de dayanır; bu da yalnızca araç destekli ajanların gerçek anlamda sağlayabileceği bir şeydir.
Son Düşüncelerimiz
DRB raporu bir şeyi açıkça ortaya koyuyor: Günümüzün en iyi yapay zeka ajanları, dar tanımlanmış görevlerde ortalama insanları geride bırakabiliyor ancak hâlâ yetenekli genel araştırmacıların gerisinde kalıyorlar; özellikle de stratejik planlama, süreç ortasında uyum sağlama ve ayrıntılı akıl yürütme söz konusu olduğunda.
Bu boşluk özellikle uzun veya karmaşık seanslar sırasında belirginleşiyor. Bunu bizzat deneyimledim; burada bir temsilci görevin amacını yavaş yavaş unutuyor ve bu da tutarlılık ve faydada sinir bozucu bir bozulmaya yol açıyor.
Ne yapar Derin Araştırma Tezgahı Çok değerli olmasının nedeni, yalnızca yüzeysel bilgiyi test etmekle kalmayıp; araç kullanımı, bellek, muhakeme ve adaptasyonun kesişimini de araştırarak, MMLU veya GSM8k gibi kıyaslama araçlarına kıyasla gerçek dünya araştırmalarına daha yakın bir benzerlik sunmasıdır.
LLM'ler ciddi bilgi çalışmalarına entegre olmaya devam ettikçe, GelecekArama DRB gibi araçlar, bu sistemlerin yalnızca ne bildiğini değil, aynı zamanda ne kadar iyi çalıştığını değerlendirmek için de önemli olacak.










