Kecerdasan buatan
Model AI Teratas Mengalami Kehilangan dalam Dokumen Panjang

Sebuah studi baru dari peneliti di LMU Munich, Munich Center for Machine Learning, dan Adobe Research telah mengungkap kelemahan dalam model bahasa AI: mereka berjuang untuk memahami dokumen panjang dengan cara yang mungkin mengejutkan Anda. Temuan tim peneliti menunjukkan bahwa bahkan model AI paling canggih memiliki kesulitan menghubungkan informasi ketika mereka tidak dapat mengandalkan pencocokan kata sederhana.
Masalah Tersembunyi dengan Keterampilan Membaca AI
Bayangkan mencoba menemukan detail spesifik dalam sebuah makalah penelitian panjang. Anda mungkin memindai melalui itu, membuat koneksi mental antara bagian yang berbeda untuk merangkai informasi yang Anda butuhkan. Banyak model AI, ternyata, tidak bekerja dengan cara ini sama sekali. Sebaliknya, mereka sering mengandalkan pencarian kata yang tepat, mirip dengan menggunakan Ctrl+F di komputer Anda.
Tim peneliti mengembangkan sebuah benchmark baru yang disebut NOLIMA (No Literal Matching) untuk menguji berbagai model AI. Hasilnya menunjukkan bahwa ketika model AI menangani teks yang lebih panjang dari 2.000 kata, kinerjanya menurun secara dramatis. Pada saat mereka mencapai 32.000 kata – sekitar panjang sebuah buku singkat – sebagian besar model hanya berkinerja setengah dari kemampuan biasanya. Ini termasuk pengujian model besar seperti GPT-4o, Gemini 1.5 Pro, dan Llama 3.3 70B.
Pertimbangkan seorang peneliti medis yang menggunakan AI untuk menganalisis catatan pasien, atau tim hukum yang menggunakan AI untuk meninjau dokumen kasus. Jika AI melewatkan koneksi penting karena informasi yang relevan menggunakan kata yang berbeda dari kueri pencarian, konsekuensinya bisa signifikan.
Mengapa Pencocokan Kata Tidak Cukup
Model AI saat ini memproses teks menggunakan sesuatu yang disebut mekanisme perhatian. Sistem ini membantu AI untuk fokus pada bagian teks yang berbeda untuk memahami hubungan antara kata dan ide. Ketika bekerja dengan teks yang lebih pendek, ini bekerja dengan cukup baik. Namun, penelitian menunjukkan bahwa mekanisme ini menjadi kewalahan ketika teks menjadi lebih panjang, terutama ketika tidak dapat mengandalkan pencocokan kata yang tepat.
Tes NOLIMA mengungkapkan keterbatasan ini dengan meminta model AI untuk menjawab pertanyaan yang memerlukan pemahaman konteks daripada pencarian kata yang tepat. Hasilnya sangat mengungkapkan. Sementara model berkinerja baik dengan teks pendek, kemampuan mereka untuk membuat koneksi ini menurun secara signifikan seiring dengan pertambahan panjang teks. Bahkan model khusus yang dirancang untuk tugas penalaran mencetak di bawah 50% akurasi ketika menangani dokumen yang lebih panjang.
Tanpa bantuan pencocokan kata, model AI berjuang untuk:
- Menghubungkan konsep yang terkait yang menggunakan terminologi yang berbeda
- Mengikuti jalur penalaran multi-langkah
- Menemukan informasi yang relevan ketika itu muncul setelah konteks kunci
- Mengabaikan pencocokan kata yang menyesatkan di bagian yang tidak relevan
Angka-angka Menceritakan Kisah
Temuan penelitian menggambarkan gambaran yang jelas tentang bagaimana model AI menangani teks yang lebih panjang. GPT-4o menunjukkan kinerja terkuat, mempertahankan efektivitas hingga sekitar 8.000 token (sekitar 6.000 kata). Namun, bahkan performer teratas ini menunjukkan penurunan yang signifikan dengan teks yang lebih panjang. Sebagian besar model lain, termasuk Gemini 1.5 Pro dan Llama 3.3 70B, mengalami penurunan kinerja yang tajam antara 2.000 dan 8.000 token.
Penurunan kinerja menjadi lebih jelas ketika tugas memerlukan beberapa langkah penalaran. Misalnya, jika sebuah model perlu membuat dua koneksi logis – seperti memahami bahwa sebuah karakter tinggal di dekat sebuah landmark, dan landmark itu berada di sebuah kota tertentu – tingkat keberhasilan menurun secara signifikan. Penelitian menunjukkan bahwa jenis penalaran multi-langkah ini menjadi sangat menantang dalam teks yang melebihi 16.000 token, bahkan ketika menggunakan teknik yang dirancang untuk meningkatkan penalaran, seperti Chain-of-Thought prompting.
Apa yang membuat temuan ini sangat penting adalah bahwa mereka menantang klaim tentang kemampuan model AI untuk menangani konteks yang panjang. Sementara banyak model mengiklankan dukungan untuk jendela konteks yang luas, benchmark NOLIMA menunjukkan bahwa pemahaman efektif menurun jauh sebelum mencapai batas teoretis ini.

Sumber: Modarressi et al.
Ketika AI Melewatkan Hutan untuk Pohon
Keterbatasan ini memiliki implikasi serius untuk bagaimana kita menggunakan AI dalam aplikasi dunia nyata. Pertimbangkan sebuah sistem AI hukum yang mencari melalui hukum kasus. Ini mungkin melewatkan preseden yang relevan hanya karena mereka menggunakan terminologi yang berbeda dari kueri pencarian. Sistem ini bisa malah fokus pada kasus yang kurang relevan yang kebetulan berbagi lebih banyak kata dengan istilah pencarian.
Dampaknya pada pencarian dan analisis dokumen sangat mengkhawatirkan. Sistem pencarian AI yang ditenagai saat ini sering mengandalkan teknik yang disebut Retrieval-Augmented Generation (RAG). Bahkan ketika sistem ini berhasil mengambil dokumen yang berisi informasi yang tepat, AI mungkin gagal mengenali relevansinya jika kata-katanya berbeda dari kueri. Sebaliknya, AI mungkin tertarik pada dokumen yang kurang relevan yang berbagi kesamaan permukaan dengan istilah pencarian.
Bagi pengguna AI, temuan ini menunjukkan beberapa pertimbangan penting:
Pertama, kueri dan dokumen yang lebih pendek kemungkinan akan menghasilkan hasil yang lebih dapat diandalkan. Ketika bekerja dengan teks yang lebih panjang, memecahnya menjadi segmen yang lebih kecil dan terfokus mungkin membantu mempertahankan kinerja AI.
Kedua, pengguna harus sangat berhati-hati ketika meminta AI untuk membuat koneksi di seluruh bagian dokumen yang panjang. Penelitian menunjukkan bahwa model AI berjuang paling ketika mereka perlu merangkai informasi dari bagian yang berbeda, terutama ketika koneksi tidak jelas melalui kata-kata yang sama.
Ketiga, keterbatasan ini menyoroti pentingnya pengawasan manusia yang berkelanjutan. Sementara AI dapat menjadi alat yang sangat berguna untuk memproses dan menganalisis teks, mereka tidak boleh dianggap sebagai pengganti total untuk analisis manusia dari dokumen yang kompleks. Kemampuan manusia untuk mempertahankan konteks dan membuat koneksi konseptual di seluruh teks yang panjang tetap unggul dibandingkan dengan kemampuan AI saat ini.
Temuan ini berfungsi sebagai pengingat bahwa meskipun kemajuan pesat dalam teknologi AI, sistem ini masih memproses informasi dengan sangat berbeda dari manusia. Memahami keterbatasan ini sangat penting untuk menggunakan alat AI secara efektif dan mengetahui kapan penilaian manusia tetap penting.
Apa yang Terjadi Selanjutnya
Memahami keterbatasan kemampuan model AI saat ini untuk memproses teks panjang membuka pertanyaan penting tentang masa depan pengembangan AI. Penelitian di balik benchmark NOLIMA telah menunjukkan bahwa pendekatan kami saat ini terhadap pemrosesan teks AI mungkin perlu penyempurnaan yang signifikan, terutama dalam cara model menangani informasi di seluruh pasaje yang lebih panjang.
Solusi saat ini hanya menunjukkan keberhasilan sebagian. Chain-of-Thought prompting, yang mendorong model AI untuk memecah penalaran mereka menjadi langkah-langkah, membantu meningkatkan kinerja sedikit. Misalnya, ketika menggunakan teknik ini, Llama 3.3 70B menunjukkan kemampuan yang lebih baik untuk menangani konteks yang lebih panjang. Namun, pendekatan ini masih belum mencukupi ketika menangani teks yang melebihi 16.000 token, menunjukkan bahwa kita memerlukan solusi yang lebih mendasar.
Mekanisme perhatian, yang membentuk tulang punggung dari cara model AI saat ini memproses teks, perlu dipikirkan kembali. Bayangkan seperti mencoba mengadakan percakapan di ruangan yang ramai – semakin lama percakapan, semakin sulit untuk melacak semua poin penting yang disebutkan sebelumnya. Model AI kita saat ini menghadapi tantangan serupa, tetapi dalam skala yang jauh lebih besar.
Menghadap ke masa depan, peneliti sedang menjelajahi beberapa arah yang menjanjikan. Salah satu pendekatan melibatkan pengembangan cara baru bagi AI untuk mengatur dan memprioritaskan informasi dalam teks panjang, melangkah melampaui pencocokan kata sederhana untuk memahami koneksi konseptual yang lebih dalam. Ini mungkin bekerja lebih seperti bagaimana manusia membuat peta mental informasi, menghubungkan ide berdasarkan makna daripada hanya kata-kata yang sama.
Area pengembangan lain fokus pada perbaikan cara model AI menangani apa yang disebut peneliti sebagai “loncatan laten” – langkah logis yang diperlukan untuk menghubungkan bagian informasi yang berbeda. Model saat ini berjuang dengan koneksi ini, terutama dalam teks yang lebih panjang, tetapi arsitektur baru mungkin membantu menjembatani kesenjangan ini.
Bagi mereka yang bekerja dengan alat AI hari ini, temuan ini menunjukkan beberapa pendekatan praktis:
Pertimbangkan untuk memecah dokumen yang lebih panjang menjadi segmen yang lebih bermakna ketika bekerja dengan AI. Ini membantu menciptakan bagian logis yang mempertahankan konteks penting. Misalnya, jika menganalisis makalah penelitian, Anda mungkin ingin menjaga bagian metode dan hasil bersama karena mereka sering berisi informasi yang terkait.
Ketika meminta AI untuk menganalisis teks yang lebih panjang, pastikan untuk spesifik tentang koneksi yang Anda inginkan untuk dibuat. Sebagai gantinya untuk mengajukan pertanyaan yang luas, arahkan AI ke hubungan spesifik yang Anda tertarik untuk dijelajahi. Ini membantu mengkompensasi keterbatasan model dalam membuat koneksi ini secara mandiri.
Mungkin yang paling penting, pertahankan harapan yang realistis tentang kemampuan AI dengan teks panjang. Sementara alat ini dapat sangat membantu untuk banyak tugas, mereka tidak boleh dianggap sebagai pengganti total untuk analisis manusia dari dokumen yang kompleks. Kemampuan manusia untuk mempertahankan konteks dan membuat koneksi konseptual di seluruh teks yang panjang tetap unggul dibandingkan dengan kemampuan AI saat ini.
Jalan menuju pengembangan AI di area ini adalah tantangan dan menarik. Ketika kita memahami keterbatasan ini lebih baik, kita dapat bekerja menuju sistem AI yang benar-benar memahami teks panjang daripada hanya memprosesnya. Sampai saat itu, menggunakan AI secara efektif berarti bekerja dengan keterbatasan saat ini sambil menghargai kekuatannya.












