Kecerdasan buatan

Mengatasi Hallusinasi LLM Menggunakan Generasi yang Ditingkatkan dengan Pencarian (RAG)

Published March 5, 2024

Updated April 4, 2026

Haziqa Sajid

Model Bahasa Besar (LLM) merevolusi cara kita memproses dan menghasilkan bahasa, tetapi mereka tidak sempurna. Sama seperti manusia mungkin melihat bentuk di awan atau wajah di bulan, LLM juga dapat “berhalusinasi,” menciptakan informasi yang tidak akurat. Fenomena ini, dikenal sebagai halusinasi LLM, menimbulkan kekhawatiran yang semakin besar karena penggunaan LLM semakin meluas.

Kesalahan dapat membingungkan pengguna dan, dalam beberapa kasus, bahkan dapat menyebabkan masalah hukum bagi perusahaan. Misalnya, pada 2023, seorang veteran Angkatan Udara Jeffery Battle (dikenal sebagai The Aerospace Professor) mengajukan gugatan terhadap Microsoft ketika dia menemukan bahwa mesin pencari Bing yang ditenagai oleh ChatGPT Microsoft sometimes memberikan informasi yang tidak akurat dan merusak tentang nama pencarianannya. Mesin pencari itu membingungkan dia dengan seorang terpidana bernama Jeffery Leon Battle.

Untuk mengatasi halusinasi, Generasi yang Ditingkatkan dengan Pencarian (RAG) telah muncul sebagai solusi yang menjanjikan. Ini mengintegrasikan pengetahuan dari basis data eksternal untuk meningkatkan akurasi dan kredibilitas hasil LLM. Mari kita lihat lebih dekat bagaimana RAG membuat LLM lebih akurat dan dapat diandalkan. Kami juga akan membahas apakah RAG dapat secara efektif mengatasi masalah halusinasi LLM.

Mengerti Hallusinasi LLM: Penyebab dan Contoh

LLM, termasuk model terkenal seperti ChatGPT, ChatGLM, dan Claude, dilatih pada dataset teks yang luas tetapi tidak kebal dari menghasilkan output yang tidak akurat, suatu fenomena yang disebut ‘halusinasi.’ Halusinasi terjadi karena LLM dilatih untuk membuat respons yang bermakna berdasarkan aturan bahasa yang mendasarinya, tanpa memperhatikan akurasi faktualnya.

Sebuah studi Tidio menemukan bahwa sementara 72% pengguna percaya LLM dapat diandalkan, 75% telah menerima informasi yang tidak akurat dari AI setidaknya sekali. Bahkan model LLM paling menjanjikan seperti GPT-3.5 dan GPT-4 dapat kadang-kadang menghasilkan konten yang tidak akurat atau tidak masuk akal.