Yapay Zekâ
AI Ajanlarının Gerçek Araştırma Konusunda Ne Kadar İyi Olduğu? Derin Araştırma Bench Raporu İçinde

Büyük dil modelleri (LLM’ler) hızla evrimleşirken, güçlü araştırma asistanları olarak vaatleri de öyle. Artık sadece basit gerçek sorulara cevap vermiyorlar, “derin araştırma” görevlerini ele alıyor, bunlar çok adımlı akıl yürütme, çelişkili bilgileri değerlendirme, web genelinde veri kaynaklarından veri alma ve bunları tutarlı bir çıktı olarak sentezleme içerir.
Bu ortaya çıkan yetenek şimdi büyük laboratuvarlar tarafından farklı marka adları altında pazarlanıyor – OpenAI buna “Derin Araştırma” diyor, Anthropic “Uzatılmış Düşünme” olarak adlandırıyor, Google’ın Gemini “Arama + Pro” özelliklerine sahip, Perplexity ise bunları “Pro Arama” veya “Derin Araştırma” olarak etiketliyor. Ancak bu teklifler uygulamada ne kadar etkili? FutureSearch tarafından yapılan bir rapor, Derin Araştırma Bench (DRB): Web Araştırma Ajanlarını Değerlendirme adlı bir rapor, bugüne kadarki en katı değerlendirmeyi sunuyor ve sonuçlar hem etkileyici yetenekler hem de kritik eksiklikler ortaya koyuyor.
Derin Araştırma Bench Nedir?
FutureSearch ekibi tarafından oluşturulan Derin Araştırma Bench, AI ajanlarının web tabanlı, çok adımlı araştırma görevlerindeki performansını değerlendirmek için özenle inşa edilmiş bir referans noktasıdır. Bunlar basit sorular ve doğrudan cevaplar değil, gerçek dünya ayarlarında analistler, politika yapıcılar ve araştırmacıların karşılaştığı karmaşık, açık uçlu zorlukları yansıtırlar.
Referans noktası, “Bul Sayı” gibi 8 kategoride 89 ayrı görevi içerir:
- Bul Sayı: örneğin “FDA Sınıf II tıbbi cihaz geri çağırma sayısı kaçtı?”
- İddia Doğrula: örneğin “ChatGPT, Google Arama’dan 10 kat daha enerji yoğundur mu?”
- Veri Setini Derle: örneğin “2019-2023 yılları arasında ABD yazılım geliştiricileri için iş trendleri”
Her görev türü, insan tarafından doğrulanmış cevaplar ile özenle yapılandırılır ve RetroSearch olarak bilinen dondurulmuş bir web sayfası veri kümesi kullanılarak değerlendirilir. Bu, model değerlendirmeleri boyunca tutarlılığı sağlar ve canlı webin değişen durumundan kaçınır.
Ajan Mimarisi: ReAct ve RetroSearch
Derin Araştırma Bench’in kalbinde ReAct mimarisi yatıyor, “Akıl + Eylem” demektir. Bu yöntem, bir insan araştırmacının bir sorunu nasıl ele alabileceğini taklit eder – görevi düşünmek, bir web araması gibi bir eylem gerçekleştirmek, sonuçları gözlemlemek ve sonra yinelemek veya sonuçlandırmak için karar vermek.
Daha önceki modeller bu döngüyü açıkça takip ederken, daha yeni “düşünen” modeller genellikle süreci daha akıcı hale getirir ve akıl yürütmeyi eylemlerine daha sıvı bir şekilde entegre eder. Değerlendirmeler boyunca tutarlılığı sağlamak için DRB, RetroSearch’i tanıtır – webin özel olarak oluşturulmuş, statik bir sürümü. Canlı internete güvenmek yerine, ajanlar, Serper, Playwright ve ScraperAPI gibi araçlar kullanılarak kazınan web sayfalarının dondurulmuş bir arşividir. Ölçek etkileyicidir: yüksek karmaşıklıkta görevler için RetroSearch, 189.000’den fazla sayfaya erişim sağlayabilir, hepsi zaman içinde dondurulmuş, adil ve tekrarlanabilir bir test ortamı sağlar.
Hangi AI Ajanları En İyi Performansı Gösterir?
Tüm rakipler arasında, OpenAI’nin o3 en iyi performansı gösterdi ve Derin Araştırma Bench’de 1.0’ın mümkün olduğu 0.51 puan aldı. Bu, belki de mütevazı görünüyor, ancak benchmark’un zorluğunu anlamak önemlidir: görev tanımlarındaki belirsizlik ve puanlama nedeniyle, hatta kusursuz bir ajan bile yaklaşık 0.8 – araştırmacıların “gürültü tavanı” dediği seviyeye ulaşabilir. Diğer bir deyişle, günümüzde en iyi modeller hala iyi bilgilendirilmiş, metodik insan araştırmacıların gerisinde kalıyor.
Sıralama masih aydınlatıcı içgörüler sunuyor. o3 sadece liderliği ele geçirmekle kalmadı, aynı zamanda neredeyse tüm görev türlerinde güçlü bir performans sergiledi. Anthropic’in Claude 3.7 Sonnet’i, “düşünme” ve “düşünmeme” modlarında esneklik gösterdi. Google’ın amiral gemisi modeli Gemini 2.5 Pro, yapılandırılmış planlama ve adım adım akıl yürütme gerektiren görevlerde öne çıktı. Açık ağırlıklı DeepSeek-R1 ise GPT-4 Turbo ile performansı eşleştirdi ve açık ve kapalı modeller arasındaki performansı daralttı.
Genel olarak, net bir model ortaya çıktı: daha yeni, “düşünme etkin” modeller sürekli olarak daha eski karşıtlarını geride bıraktı ve kapalı kaynaklı modeller açık ağırlıklı alternatiflere karşı önemli bir avantajı korudu.
Ajanlar Nerede Zorlanıyor?
Derin Araştırma Bench raporunda vurgulanan başarısızlık modellerini okumak şaşırıcı bir şekilde tanıdık geldi. Özellikle uzun araştırma veya içerik oluşturma seansları sırasında karşılaştığım en can sıkıcı yönlerden biri, bir AI ajanının basitçe ne yaptığımızı unutmaya başlamasıdır. Bağlam penceresi genişledikçe, model genellikle işin bağlamını kaybetmeye başlar: ana ayrıntılar solmaya başlar, hedefler karışır ve cevaplar kopuk veya amaçsız hissedebilir. Bir noktada, genellikle her şeyi yeniden başlatmanın ve her şeyden vazgeçmenin daha iyi olduğunu öğrendim, даже eğer bu, üretilen her şeyi atmak anlamına geliyorsa.
Bu tür unutkanlık sadece anekdotsal değil – Derin Araştırma Bench değerlendirmesinde başarısızlığın en önemli öngörücüsü. Ancak tek tekrarlayan sorun bu değil. Rapor ayrıca bazı modellerin tekrarlayan araç kullanımına düşme eğilimini vurguluyor, sanki bir döngüde takılmış gibi aynı aramayı tekrar tekrar çalıştırıyor. Diğerleri kötü sorgu oluşturma sergiliyor, eleştirel olarak nasıl arama yapılacağı hakkında düşünmek yerine tembelce anahtar kelime eşleştirmeye başvuruyor. Ve çok fazla ajan, aceleci sonuçlara kurban gidiyor – teknik olarak kutunun işaretlendiği ancak gerçek içgörüden yoksun kalan yarı oluşmuş bir cevap sunuyor.
Hatta en iyi modeller arasında bile farklılıklar çarpıcı. GPT-4 Turbo, önceki adımları unutmaya eğilimliydi, oysa DeepSeek-R1 daha çok hayal görme veya yanlış ancak inandırıcı görünen bilgileri uydurma eğilimindeydi. Genellikle, modeller kaynakları çapraz kontrol etmekte veya bulgularını son çıktıları önce doğrulamaktan sık sık başarısız oluyordu. Ciddi iş için AI’ye güvenen herkes için bu sorunlar çok tanıdık gelecek ve gerçekten insan gibi düşünen ve araştıran ajanlar inşa etmemiz gereken yolun ne kadar uzun olduğunu vurgulayacaktır.
Hafıza Tabanlı Performans Nasıl?
İlginç bir şekilde, Derin Araştırma Bench ayrıca “araçsız” ajanları da değerlendirdi – dış araçlara, web aramasına veya belge alıma erişimi olmayan dil modelleri. Bu ajanlar, yalnızca iç eğitim verilerine ve hafızalarına güveniyor ve cevapları yalnızca önceden öğrendiklerine dayanarak üretiyorlar. Uygulamada bu, bir şeyleri arama veya doğrulama yetenekleri olmadan, yalnızca “hatırladıkları” şeylere dayanarak tahmin ediyor anlamına gelir.
Şaşırtıcı bir şekilde, bu araçsız ajanlar, belirli görevlerde tam araştırma ajanları kadar iyi performans gösterdi. Örneğin, bir ifadenin inandırıcılığını değerlendirmeyi amaçlayan İddia Doğrula görevinde, 0.61 puan aldılar, bu da araçlı ajanların 0.62’lik ortalama puanına yakındı. Bu, o3 ve Claude gibi modellerin güçlü iç ön yargılara sahip olduğunu ve webi aramalarına gerek kalmadan ortak iddiaların doğruluğunu thường tanıyabildiklerini gösteriyor.
Ancak, türetilen Sayı gibi, çeşitli kaynaklardan birden fazla değeri bir araya getirmeyi gerektiren veya bağlam içinde çeşitli gerçekleri bulup değerlendirmeye dayanan Topla Delil gibi daha talepkar görevlerde, bu araçsız modeller tamamen parçalandı. Taze bilgiler veya gerçek zamanlı arama yetenekleri olmadan, doğru veya kapsamlı cevaplar üretebilecek araçlardan yoksundular.
Bu karşıtlık, bugünün LLM’lerinin çok şey “bilmeyi” simüle edebileceğini vurguluyor, ancak derin araştırma, sadece geri çağırma değil, güncel, doğrulanabilir bilgilerle akıl yürütme gerektirir – bu, sadece araçla güçlendirilmiş ajanlar真正 olarak sunabilir.
Son Düşünceler
DRB raporu, bugünün en iyi AI ajanlarının, dar olarak tanımlanmış görevlerde ortalama insanları geçebileceğini, ancak özellikle stratejik planlama, süreçte adaptasyon ve nüanslı akıl yürütme söz konusu olduğunda, yetenekli genelci araştırmacılardan hâlâ geri kaldığını net bir şekilde ortaya koyuyor.
Bu boşluk, özellikle uzun veya karmaşık seanslarda belirgin hale geliyor – burada bir ajan, görevin amacını yavaş yavaş kaybetmeye başlıyor, bu da tutarlılık ve fayda açısından bir bozulmaya yol açıyor.
Derin Araştırma Bench’in değerli olmasının nedeni, sadece yüzey düzeyindeki bilgiyi test etmemesi, aynı zamanda araç kullanımının, hafızanın, akıl yürütmenin ve adaptasyonun kesişimini sorgulaması ve MMLU veya GSM8K gibi benchmark’lere göre daha gerçekçi bir araştırma analoğu sunmasıdır.
LLM’ler, ciddi bilgi işlerine entegre edilmeye devam ederken, FutureSearch araçları gibi DRB, bu sistemlerin ne bildiğini değil, nasıl çalıştığını değerlendirmek için çok önemli olacaktır.










