Pemimpin pemikiran

Mengatasi Masalah Saat Ini Dalam LLM & Melihat Ke Depan Untuk Apa Yang Akan Datang

Published January 2, 2025

Updated April 27, 2026

Uday Kamath, Chief Analytics Officer at Smarsh

Hari ini, ada puluhan model bahasa besar (LLM) yang tersedia secara publik, seperti GPT-3, GPT-4, LaMDA, atau Bard, dan jumlahnya terus bertambah karena model baru dirilis. LLM telah merevolusi kecerdasan buatan, mengubah secara total cara kita berinteraksi dengan teknologi di berbagai industri. Model-model ini memungkinkan kita untuk belajar dari banyak dataset bahasa manusia dan telah membuka jalur baru untuk inovasi, kreativitas, dan efisiensi.

Namun, dengan kekuatan besar datang kompleksitas besar. Ada tantangan dan masalah etika yang melekat pada LLM yang harus diatasi sebelum kita dapat memanfaatkannya secara maksimal. Misalnya, sebuah studi terbaru di Stanford menemukan bias rasial dan gender ketika mengamati ChatGPT-4 dalam menangani pertanyaan yang mencakup nama depan dan belakang yang sugestif tentang ras atau gender. Dalam studi ini, program tersebut diminta untuk memberikan saran tentang berapa banyak yang harus dibayarkan untuk sebuah sepeda bekas yang dijual oleh seseorang yang bernama Jamal Washington, yang menghasilkan jumlah yang jauh lebih rendah dibandingkan ketika penjualnya bernama Logan Becker. Ketika penemuan-penemuan ini terus muncul, kebutuhan untuk mengatasi tantangan LLM hanya meningkat.

Bagaimana Mengurangi Kekhawatiran LLM Yang Umum

Bias

Salah satu masalah yang paling sering dibahas di antara LLM adalah bias dan keadilan. Dalam sebuah studi terbaru, para ahli menguji empat LLM yang baru saja dipublikasikan dan menemukan bahwa mereka semua mengekspresikan asumsi yang bias tentang pria dan wanita, terutama yang sejalan dengan persepsi orang-orang daripada yang didasarkan pada fakta. Dalam konteks ini, bias merujuk pada perlakuan atau hasil yang tidak sama di antara kelompok sosial yang berbeda, kemungkinan besar karena ketidakseimbangan kekuasaan historis atau struktural.

Dalam LLM, bias disebabkan oleh seleksi data, demografi pembuat, dan skew bahasa atau budaya. Bias seleksi data terjadi ketika teks yang dipilih untuk pelatihan LLM tidak mewakili keragaman bahasa yang digunakan di web. LLM yang dilatih pada dataset yang luas tetapi terbatas dapat mewarisi bias yang sudah ada dalam teks-teks tersebut. Dengan demografi pembuat, kelompok demografi tertentu lebih sering disoroti daripada yang lain, yang menunjukkan kebutuhan akan lebih banyak keberagaman dan inklusivitas dalam pembuatan konten untuk mengurangi bias. Misalnya, Wikipedia, sebuah sumber umum untuk data pelatihan, menunjukkan ketidakseimbangan demografi yang signifikan di antara penyuntingnya dengan mayoritas laki-laki (84%). Ini serupa dengan skew yang ditemukan untuk bahasa dan budaya juga. Banyak sumber yang LLM dilatihkan pada memiliki skew, cenderung berpusat pada bahasa Inggris, yang hanya kadang-kadang diterjemahkan secara akurat ke bahasa dan budaya lain.

Sangat penting bahwa LLM dilatih pada data yang disaring, dan bahwa guardrails ada untuk menekan topik yang tidak konsisten dengan representasi data. Salah satu cara untuk melakukannya adalah melalui teknik augmentasi data. Anda dapat menambahkan contoh dari kelompok yang kurang terwakili ke data pelatihan, sehingga memperluas keragaman dataset. Strategi mitigasi lainnya adalah penyaringan data dan penimbangan ulang, yang terutama fokus pada menargetkan contoh yang tidak terwakili secara spesifik dalam sebuah dataset yang ada.

Halusinasi

Dalam konteks LLM, halusinasi adalah fenomena yang ditandai dengan produksi teks yang, meskipun secara gramatikal benar dan tampaknya kohesif, menyimpang dari akurasi faktual atau niat dari materi sumber. Faktanya, laporan terbaru telah menemukan bahwa sebuah gugatan tentang hukum Minnesota secara langsung dipengaruhi oleh halusinasi LLM. Sebuah affidavit yang diajukan untuk mendukung hukum tersebut telah ditemukan mengandung sumber yang tidak ada yang mungkin dihalusinasikan oleh ChatGPT atau LLM lain. Halusinasi ini dapat dengan mudah mengurangi keandalan LLM.

Ada tiga bentuk utama halusinasi:

Halusinasi Konflik Input: Ini terjadi ketika output LLM menyimpang dari input pengguna yang disediakan, yang biasanya mencakup instruksi tugas dan konten yang sebenarnya perlu diproses.
Halusinasi Konflik Konteks: LLM mungkin menghasilkan respons yang tidak konsisten secara internal dalam skenario yang melibatkan dialog yang diperpanjang atau pertukaran yang berbeda. Ini menunjukkan kemungkinan kekurangan dalam kemampuan model untuk melacak konteks atau mempertahankan kohesi selama berbagai interaksi.
Halusinasi Konflik Faktual: Bentuk halusinasi ini muncul ketika LLM menghasilkan konten yang bertentangan dengan pengetahuan faktual yang mapan. Asal-usul kesalahan seperti itu beragam dan dapat terjadi pada berbagai tahap dalam siklus hidup LLM.

Banyak faktor telah menyumbang pada fenomena ini, seperti kekurangan pengetahuan, yang menjelaskan bagaimana LLM mungkin kekurangan pengetahuan atau kemampuan untuk mengasimilasi informasi dengan benar selama pra-pelatihan. Selain itu, bias dalam data pelatihan atau strategi generasi berurutan LLM, yang dijuluki “halusinasi snowballing,” dapat menciptakan halusinasi.

Ada cara untuk mengurangi halusinasi, meskipun halusinasi akan selalu menjadi karakteristik LLM. Strategi mitigasi yang berguna untuk halusinasi adalah mengurangi selama pra-pelatihan (menghaluskan data secara manual menggunakan teknik penyaringan) atau fine-tuning (mengkurasi data pelatihan). Namun, mitigasi selama inferensi adalah solusi terbaik karena efisiensi biaya dan kontrolnya.

Privasi

Dengan meningkatnya aksesibilitas informasi pribadi dan data lainnya melalui internet, privasi telah menjadi perhatian yang luas. Sebuah studi menemukan bahwa 80% dari konsumen Amerika khawatir bahwa data mereka digunakan untuk melatih model AI. Karena LLM yang paling menonjol bersumber dari situs web, kita harus mempertimbangkan bagaimana ini menimbulkan risiko privasi dan tetap menjadi masalah yang belum terpecahkan untuk LLM.

Cara paling langsung untuk mencegah LLM dari mendistribusikan informasi pribadi adalah dengan menghapusnya dari data pelatihan. Namun, mengingat jumlah data yang sangat besar yang terlibat dalam LLM, hampir mustahil untuk menjamin bahwa semua informasi pribadi dihilangkan. Alternatif lain yang umum untuk organisasi yang mengandalkan model yang dikembangkan secara eksternal adalah memilih LLM sumber terbuka sebagai gantinya menggunakan layanan seperti ChatGPT.

Dengan pendekatan ini, salinan model dapat diterapkan secara internal. Prompt pengguna tetap aman dalam jaringan organisasi daripada terpapar pada layanan pihak ketiga. Meskipun ini secara dramatis mengurangi risiko kebocoran data sensitif, juga menambah kompleksitas. Mengingat kesulitan untuk menjamin perlindungan data pribadi secara penuh, sangat penting bagi pengembang aplikasi untuk mempertimbangkan bagaimana model-model ini bisa membahayakan penggunanya.

Batas Baru untuk LLM

Ketika kita terus tumbuh dan membentuk evolusi selanjutnya dari LLM melalui mitigasi risiko saat ini, kita harus berharap munculnya agen LLM, yang sudah kita lihat perusahaan seperti H dengan Runner H, mulai merilis. Perubahan dari model bahasa murni ke arsitektur agenik mewakili perubahan dalam desain sistem AI; industri akan bergerak melampaui keterbatasan inheren antarmuka obrolan dan generasi yang ditingkatkan dengan pengambilan. Kerangka agen baru ini akan memiliki modul perencanaan yang canggih yang memecah tujuan kompleks menjadi subtugas atom, mempertahankan memori episodik untuk penalaran kontekstual, dan memanfaatkan alat khusus melalui API yang terdefinisi dengan baik. Ini menciptakan pendekatan yang lebih kuat untuk otomatisasi tugas.

Selain LLM, akan ada fokus yang lebih besar pada melatih model bahasa yang lebih kecil karena efisiensi biaya, aksesibilitas, dan kemudahan penerapan. Misalnya, model bahasa spesifik domain mengkhususkan diri dalam industri atau bidang tertentu. Model-model ini disempurnakan dengan data dan terminologi spesifik domain, membuatnya ideal untuk lingkungan yang kompleks dan terregulasi, seperti bidang medis atau hukum, di mana presisi sangat penting. Pendekatan yang ditargetkan ini mengurangi kemungkinan kesalahan dan halusinasi yang model umum mungkin produksi ketika dihadapkan pada konten spesialis.

Ketika kita terus menjelajahi batas baru dalam LLM, sangat penting untuk mendorong batas inovasi dan mengatasi serta mengurangi risiko yang terkait dengan pengembangan dan penerapan mereka. Hanya dengan mengidentifikasi dan proaktif menangani tantangan yang terkait dengan bias, halusinasi, dan privasi dapat kita menciptakan fondasi yang lebih kuat untuk LLM untuk berkembang di berbagai bidang.

Uday Kamath, Chief Analytics Officer at Smarsh

Uday Kamath adalah Chief Analytics Officer di Smarsh, pemimpin global di bidang data dan intelijen komunikasi. Perannya mencakup memimpin ilmu data dan penelitian di bidang AI konversasional. Dengan lebih dari 25 tahun pengalaman dalam pengembangan analitis dan gelar Ph.D. di bidang pembelajaran mesin yang dapat diskalakan, kontribusi Kamath yang signifikan mencakup berbagai jurnal, konferensi, buku, dan paten. Ia juga merupakan anggota aktif Dewan Penasihat untuk berbagai entitas, termasuk perusahaan komersial seperti Falkonry dan lembaga akademis seperti Pusat Kemitraan Manusia-Mesin di GMU.

Unite.AI

Mengatasi Masalah Saat Ini Dalam LLM & Melihat Ke Depan Untuk Apa Yang Akan Datang

Bagaimana Mengurangi Kekhawatiran LLM Yang Umum

Bias

Halusinasi

Privasi

Batas Baru untuk LLM

You may like