Kecerdasan buatan
Seberapa Baiknya Agen AI dalam Penelitian Riil? Di Dalam Laporan Bangku Penelitian Dalam

Karena model bahasa besar (LLMs) berkembang pesat, janji mereka sebagai asisten penelitian yang kuat juga berkembang. Semakin banyak, mereka tidak hanya menjawab pertanyaan faktual sederhana—mereka menangani tugas “penelitian dalam”, yang melibatkan penalaran multi-langkah, mengevaluasi informasi yang bertentangan, menyumber data dari seluruh web, dan mensintesisnya menjadi output yang koheren.
Kemampuan yang muncul ini sekarang dipasarkan dengan nama merek yang berbeda oleh laboratorium besar—OpenAI menyebutnya “Penelitian Dalam”, Anthropic menyebutnya “Pemikiran Diperpanjang”, Gemini dari Google menawarkan fitur “Pencarian + Pro”, dan Perplexity menamainya “Pencarian Pro” atau “Penelitian Dalam”. Tapi, seberapa efektifkah penawaran ini dalam praktek? Laporan baru dari FutureSearch, berjudul Bangku Penelitian Dalam (DRB): Mengevaluasi Agen Penelitian Berbasis Web, menawarkan evaluasi paling ketat hingga saat ini—dan hasilnya mengungkap kemampuan yang mengesankan serta kekurangan kritis.
Apa itu Bangku Penelitian Dalam?
Dibuat oleh tim FutureSearch, Bangku Penelitian Dalam adalah benchmark yang dirancang dengan hati-hati untuk menilai kinerja agen AI pada tugas penelitian berbasis web multi-langkah. Ini bukanlah pertanyaan sederhana dengan jawaban yang lurus—mereka mencerminkan tantangan yang kacau, terbuka, dan dihadapi oleh analis, pembuat kebijakan, dan peneliti di pengaturan dunia nyata.
Benchmark ini mencakup 89 tugas yang berbeda di 8 kategori seperti:
- Cari Nomor: misalnya “Berapa banyak pengambilan perangkat medis kelas II FDA?”
- Validasi Klaim: misalnya “Apakah ChatGPT 10x lebih banyak energi daripada Pencarian Google?”
- Kompilasi Dataset: misalnya “Tren pekerjaan untuk pengembang perangkat lunak AS dari 2019–2023”
Setiap jenis tugas dirancang dengan hati-hati dengan jawaban yang diverifikasi oleh manusia dan dievaluasi menggunakan dataset yang dibekukan dari halaman web yang dikumpulkan, yang dikenal sebagai RetroSearch. Ini memastikan konsistensi di seluruh evaluasi model, menghindari keadaan web yang berubah-ubah.
Arsitektur Agen: ReAct dan RetroSearch
Di jantung Bangku Penelitian Dalam terletak arsitektur ReAct, singkatan dari “Reason + Act.” Metode ini meniru bagaimana seorang peneliti manusia mungkin menangani masalah—dengan memikirkan tugas, melakukan tindakan seperti melakukan pencarian web, mengamati hasilnya, dan kemudian memutuskan apakah untuk mengulangi atau menyimpulkan.
Sementara model sebelumnya mengikuti loop ini secara eksplisit, model “pemikiran” yang lebih baru sering mempermudah proses, mengintegrasikan penalaran lebih lancar ke dalam tindakan mereka. Untuk memastikan konsistensi di seluruh evaluasi, DRB memperkenalkan RetroSearch—versi web statis yang dibuat khusus. Daripada mengandalkan internet langsung, yang terus berubah, agen mengakses arsip halaman web yang dikurasi menggunakan alat seperti Serper, Playwright, dan ScraperAPI. Skalanya impresif: untuk tugas kompleksitas tinggi seperti “Kumpulkan Bukti,” RetroSearch dapat menyediakan akses ke lebih dari 189.000 halaman, semua dibekukan dalam waktu, memastikan lingkungan pengujian yang adil dan dapat diulang.
Agen AI Mana yang Berkinerja Terbaik?
Di antara semua pesaing, o3 dari OpenAI muncul sebagai pemimpin, mencetak 0,51 dari skor maksimal 1,0 di Bangku Penelitian Dalam. Meskipun itu mungkin terdengar sederhana, penting untuk memahami kesulitan benchmark: karena ketidakjelasan dalam definisi tugas dan penilaian, bahkan agen yang sempurna kemungkinan akan mencapai sekitar 0,8—apa yang disebut peneliti sebagai “atap kebisingan.” Dengan kata lain, bahkan model terbaik saat ini masih jatuh pendek dari peneliti manusia yang terinformasi dengan baik dan metodis.
Namun, papan peringkat menawarkan wawasan yang mengungkap. o3 tidak hanya memimpin tetapi melakukannya dengan kecepatan dan konsistensi, menunjukkan kinerja kuat di hampir semua jenis tugas. Claude 3.7 Sonnet dari Anthropic mengikuti dari dekat, menunjukkan keluwesan dalam mode “pemikiran” dan “non-pemikiran”. Gemini 2.5 Pro, model unggulan Google, menonjol karena kemampuannya untuk menangani tugas yang memerlukan perencanaan terstruktur dan penalaran langkah demi langkah. Sementara itu, DeepSeek-R1 terbuka mengejutkan dengan mempertahankan langkah dengan GPT-4 Turbo dan menyempitkan kesenjangan kinerja antara model tertutup dan terbuka.
Di seluruh papan, pola yang jelas muncul: model “pemikiran” yang lebih baru secara konsisten mengungguli pendahulunya, dan model tertutup mempertahankan keunggulan yang signifikan atas alternatif berbasis terbuka.
Di Mana Agen Mengalami Kesusahan?
Membaca pola kegagalan yang disoroti dalam laporan Bangku Penelitian Dalam terasa sangat familiar. Salah satu aspek yang paling frustrasi yang saya temui—terutama selama sesi penelitian atau pembuatan konten yang panjang—adalah ketika agen AI hanya melupakan apa yang kita lakukan. Ketika jendela konteks meregang, model sering mulai kehilangan benang: detail kunci memudar, tujuan menjadi kabur, dan tiba-tiba, respons terasa tidak terhubung atau tanpa arah. Pada titik tertentu, saya telah belajar bahwa seringkali lebih baik untuk memotong kerugian dan memulai dari awal, bahkan jika itu berarti membuang semua yang telah dihasilkan sejauh ini.
Ketidakmampuan mengingat seperti itu bukan hanya anekdot—ini adalah prediktor kegagalan paling signifikan dalam evaluasi Bangku Penelitian Dalam. Tapi itu bukan satu-satunya masalah berulang. Laporan juga menyoroti bagaimana beberapa model jatuh ke dalam penggunaan alat berulang, menjalankan pencarian yang sama berulang-ulang seolah-olah terjebak dalam loop. Yang lain menunjukkan kerajinan kueri yang buruk, mencocokkan kata kunci dengan malas-malasan daripada berpikir kritis tentang bagaimana mencari secara efektif. Dan terlalu sering, agen menjadi korban kesimpulan prematur—menyampaikan jawaban setengah jadi yang secara teknis memenuhi syarat tetapi jatuh pendek dari wawasan nyata.
Bahkan di antara model terbaik, perbedaan itu mencolok. GPT-4 Turbo, misalnya, menunjukkan kecenderungan yang signifikan untuk melupakan langkah sebelumnya, sementara DeepSeek-R1 lebih mungkin untuk mengalami halusinasi atau menciptakan informasi yang terdengar masuk akal tetapi salah. Di seluruh papan, model sering gagal untuk memeriksa sumber silang atau memvalidasi temuan sebelum menyelesaikan output mereka. Bagi siapa saja yang telah mengandalkan AI untuk pekerjaan serius, masalah ini akan terasa sangat familiar—dan mereka menekankan seberapa jauh kita masih harus pergi dalam membangun agen yang dapat benar-benar berpikir dan melakukan penelitian seperti manusia.
Apa tentang Kinerja Berbasis Memori?
Menariknya, Bangku Penelitian Dalam juga mengevaluasi apa yang disebut “agen tanpa alat”—model bahasa yang beroperasi tanpa akses ke alat eksternal, seperti pencarian web atau pengambilan dokumen. Agen-agen ini sepenuhnya mengandalkan data pelatihan internal dan memori, menghasilkan jawaban berdasarkan apa yang telah mereka pelajari selama pelatihan. Dalam praktek, ini berarti mereka tidak dapat mencari atau memverifikasi informasi—mereka menebak berdasarkan apa yang mereka “ingat”.
Menariknya, agen-agen tanpa alat ini hampir sebaik agen penelitian penuh pada tugas tertentu. Misalnya, pada tugas Validasi Klaim—di mana tujuannya adalah menilai kemungkinan pernyataan—mereka mencetak 0,61, hampir menyamai rata-rata 0,62 agen yang diaktifkan alat. Ini menunjukkan bahwa model seperti o3 dan Claude memiliki prioritas internal yang kuat dan dapat mengenali kebenaran klaim umum tanpa perlu mencari web.
Tapi pada tugas yang lebih menantang—seperti Turunan Nomor, yang memerlukan penggabungan nilai dari berbagai sumber, atau Mengumpulkan Bukti, yang bergantung pada menemukan dan mengevaluasi fakta yang beragam dalam konteks—model tanpa alat ini sepenuhnya hancur. Tanpa informasi baru atau kemampuan pencarian waktu nyata, mereka sepenuhnya kekurangan sarana untuk menghasilkan jawaban yang akurat atau komprehensif.
Kontras ini menyoroti nuansa penting: sementara LLM saat ini dapat mensimulasikan “mengetahui” banyak hal, penelitian dalam bergantung tidak hanya pada pengingatan, tetapi pada penalaran dengan informasi yang mutakhir dan dapat diverifikasi—sesuatu yang hanya dapat disampaikan oleh agen yang ditingkatkan dengan alat.
Pemikiran Akhir
Laporan DRB membuat satu hal jelas: sementara agen AI terbaik saat ini dapat mengungguli manusia rata-rata pada tugas yang didefinisikan dengan sempit, mereka masih tertinggal di belakang peneliti umum yang terampil—terutama ketika datang ke perencanaan strategis, adaptasi mid-proses, dan penalaran dengan nuansa.
Kesenjangan ini menjadi sangat jelas selama sesi panjang atau kompleks—sesuatu yang saya alami secara langsung, di mana agen secara bertahap kehilangan jejak tujuan tugas, menyebabkan keruntuhan yang frustrasi dalam koherensi dan utilitas.
Apa yang membuat Bangku Penelitian Dalam sangat berharga adalah bahwa itu tidak hanya menguji pengetahuan tingkat permukaan—itu menyelidiki persimpangan penggunaan alat, memori, penalaran, dan adaptasi, menawarkan analog yang lebih dekat dengan penelitian dunia nyata daripada benchmark seperti MMLU atau GSM8k.
Ketika LLM terus mengintegrasikan ke dalam pekerjaan pengetahuan serius, alat FutureSearch seperti DRB akan penting untuk menilai tidak hanya apa yang sistem ini ketahui, tetapi seberapa baik mereka benar-benar bekerja.












