Sudut Anderson
Model Chat AI yang Disensor Hallusinasi Lebih Banyak, Temuan Penelitian

Sensor dalam model bahasa mungkin melemahkan kemampuan mereka untuk melaporkan kebenaran pada tingkat yang lebih luas. Penelitian baru menemukan bahwa mekanisme internal yang sama yang digunakan untuk memblokir respons ‘tidak aman’ juga menekan informasi faktual, yang berarti bahwa upaya untuk mengarahkan model untuk keamanan dapat berakhir dengan membuat mereka hallusinasi lebih banyak.
Selama bertahun-tahun, pengembang telah mengajar model bahasa untuk berbohong lebih sedikit. Dorongan untuk membuat mereka lebih jujur, dengan menekan halusinasi dan mengarahkan mereka ke fakta yang dapat diverifikasi, telah menghasilkan strand yang sangat kuat dan disubskripsi dalam literatur.
Namun, sebuah studi Australia baru berpendapat bahwa dengan mengencangkan kontrol atas apa yang model diizinkan untuk mengatakan, metode pengaturan (teknik pelatihan yang mengawasi pertukaran ‘tidak aman’) mungkin mencegah mereka untuk berbicara dengan akurat sama sekali:

Meningkatkan akurasi faktual model (‘Peningkatan Kebenaran’, dalam gambar di atas) dapat mendorongnya ke wilayah aktivasi yang mengalahkan mekanisme penolakan bawaannya, dan suntingan yang dimaksudkan untuk mengurangi halusinasi juga dapat menggeser representasi internal melintasi batas keamanan. Ini bisa memungkinkan prompt berbahaya untuk melewati pengaman, kecuali fitur penolakan diisolasi dan dipertahankan dengan hati-hati. Sumber: https://arxiv.org/pdf/2510.07775
Penelitian menemukan bahwa jalur internal yang sama yang mengatur pengingatan faktual juga bertanggung jawab untuk perilaku penolakan, yaitu mekanisme yang menghentikan model dari menjawab prompt tidak aman atau sensitif. Ketika prosedur pengaturan memperkuat sinyal penolakan terlalu agresif, mereka mulai tumpang tindih dengan jalur faktual, membuat model lebih sulit untuk membedakan antara menolak bahaya dan menekan informasi yang valid.
Paradoksnya, ketika model menjadi lebih baik dalam mengatakan ‘tidak’, mereka juga menjadi kurang mampu mengatakan apa yang benar.
Topik yang Mudah Meledak
Dalam gambar di atas, kita dapat melihat bahwa isu sentral di sini sebagian besar terkait dengan paparan hukum untuk penyedia LLM serta menyediakan pengguna dengan hasil yang adil dan akurat.
Misalnya, dalam kasus contoh yang digunakan dalam gambar di atas dan langsung di bawah, kita melihat topik kontroversial (statistik penjara berbasis ras) yang disampaikan dalam kueri – subjek yang AI bisa diterima untuk dibahas dengan peneliti akademis dan ahli statistik, tetapi tidak dengan penjahat yang ingin menghancurkan model, yang bisa memaksa model untuk mengeluarkan respons yang tidak pantas, ofensif, dan bahkan ilegal.
Namun, karena LLM yang disesuaikan tidak dapat mengidentifikasi karakter querent dengan cara ini, ia default ke posisi hati-hati:

Respons terhadap prompt sensitif dapat berbeda tergantung pada strategi pengaturan. Model yang disesuaikan dengan keamanan memblokir kueri secara keseluruhan, sedangkan model yang berfokus pada kebenaran merespons dengan konteks faktual, meningkatkan informativeness tetapi melemahkan penekanan. Ini mendukung pandangan bahwa suntingan yang meningkatkan kebenaran dapat menurunkan ambang batas penolakan, membuat model lebih rentan terhadap prompt dengan niat berbahaya, kecuali mekanisme penolakan secara eksplisit dilindungi.
Sebagai catatan sampingan, terkait bahasa yang mudah meledak, temuan makalah baru ini mungkin memungkinkan seseorang yang tidak menyukai agenda ‘woke’ untuk memahami bahwa model bahasa yang ‘dikebiri’ (yaitu, disesuaikan) kurang jujur dan kurang berguna daripada yang belum dikondisikan dan diatur.
Bukti makalah ini menunjukkan bahwa ini sebagian benar, tetapi mengkontekstualisasikan ini melawan isu yang lebih luas yang dihasilkan dari pertukaran dengan LLM ‘mentah’: mengikuti logika makalah, ini termasuk paparan hukum yang parah di seluruh pelanggaran pidana dan perdata yang model bisa menjadi bagian dari, serta penyebaran berita palsu yang kronis, hanya karena contoh sebab-akibatnya over-represented dalam data pelatihan, dan cara efektif untuk menyaringnya sepenuhnya terlalu mahal.
Pasangan yang Tidak Biasa
Untuk lebih memahami mekanisme di balik sindrom yang diamati, peneliti memetakan aktivasi dari kepala perhatian individu dan menemukan bahwa fitur yang terkait dengan halusinasi dan penolakan sering ada di wilayah yang sama dari model.
Mereka menemukan bahwa fine-tuning atau mengarahkan wilayah tersebut untuk mengurangi kebohongan dapat melemahkan sistem’s pengaman bawaan, karena mereka duduk di bagian yang sama dari ruang laten:
‘[Meningkatkan] akurasi faktual sering datang dengan biaya melemahkan perilaku penolakan. Analisis kami mengungkapkan bahwa ini muncul dari komponen yang tumpang tindih dalam model yang mengkodekan informasi halusinasi dan penolakan, menyebabkan metode pengaturan untuk menekan pengetahuan faktual secara tidak sengaja.
‘Kami lebih lanjut memeriksa bagaimana fine-tuning pada dataset yang aman, bahkan ketika dikurasi untuk keamanan, dapat melemahkan pengaturan untuk alasan yang sama.’
Solusi penulis adalah menggunakan sparse autoencoder (SAE, jaringan yang dilatih untuk mengisolasi pola aktivasi yang berbeda) untuk memisahkan dua fungsi dan mempertahankan keamanan selama pelatihan kebenaran, menawarkan cara untuk membuat model lebih aman dan lebih jujur, tanpa mengorbankan salah satu karakteristik.
Makalah baru ini berjudul Trade-off Tidak Disengaja dari Pengaturan AI: Mengimbangkan Pengurangan Halusinasi dan Keamanan di LLM, dan berasal dari lima peneliti di seluruh Universitas Deakin dan penelitian independen.
Metode
Premis sentral dari karya ini adalah untuk menyelidiki apakah meningkatkan kebenaran dalam model bahasa melemahkan kemampuan mereka untuk menolak prompt berbahaya, dan apakah kedua perilaku tersebut bergantung pada komponen internal yang sama.
Menguji dua metode peningkatan kebenaran, penulis menemukan, seperti yang kita lihat, bahwa peningkatan akurasi faktual konsisten meningkatkan kerentanan jailbreak.
Trade-off ini berasal dari tumpang tindih dalam kepala perhatian yang mengkodekan sinyal faktual dan penolakan. Bahkan fine-tuning yang baik (dimaksudkan untuk meningkatkan utilitas tanpa mengganggu perilaku keamanan) dapat mengganggu keamanan dengan mengubah jalur yang sama.
Studi ini mendefinisikan tiga istilah kunci yang penting: kebenaran mengacu pada kemampuan model untuk memberikan respons yang akurat berdasarkan pengetahuan yang tersedia, tanpa menekan konten yang tidak berbahaya; halusinasi terjadi ketika model menawarkan informasi yang salah atau menyesatkan meskipun memiliki akses ke fakta yang benar, sering karena kegagalan pengambilan atau interferensi internal; dan perilaku penolakan, atau pengaturan keamanan, menggambarkan mekanisme yang memblokir atau membatasi respons terhadap prompt berbahaya atau sensitif.
Penulis mengamati bahwa fungsi-fungsi ini sering berinteraksi dengan cara yang halus:
‘Meskipun kebenaran dan keamanan sering dianalisis secara terpisah, prompt nyata sering mengandung istilah sensitif dengan niat baik (misalnya, analisis, deteksi, atau pendidikan) [Dalam] kasus-kasus ini, mekanisme keamanan mungkin terlalu agresif – menekan informasi yang akurat dan berguna – dan dengan demikian mengurangi kebenaran praktis “dengan penghilangan.”
‘Memahami bagaimana suntingan yang bertujuan untuk meningkatkan faktualitas mempengaruhi perilaku penolakan adalah sangat penting untuk mencapai kebenaran dengan penekanan yang minimal dan tepat.’

Penulis mengembangkan LoRA yang mampu mengarahkan LLM yang dikondisikan ke keadaan yang lebih ‘jujur’ dan kurang rentan terhadap halusinasi. Termasuk yang di atas, lampiran makalah ini memiliki banyak contoh dari konsekuensi yang tidak diinginkan dari ini.
Analisis dimulai dengan memperlakukan metode peningkatan kebenaran, seperti pengarahan kepala dan pemetaan arah laten, sebagai modifikasi yang disengaja terhadap komputasi internal model.
Steering yang Kuat
Pertanyaannya adalah apakah perubahan ini tidak sengaja mempengaruhi jalur internal yang sama yang mengatur perilaku penolakan. Untuk menguji ini, studi mengevaluasi model tidak hanya pada akurasi faktual menggunakan TruthfulQA, tetapi juga pada kinerja keamanan di bawah tekanan adversarial, menggunakan AdvBench dan StrongReject sebagai benchmark.
Dua teknik yang ada digunakan sebagai baseline adalah Intervensi waktu inferensi (ITI), yang mengaktifkan kepala perhatian yang terkait dengan jawaban yang jujur; dan TruthX, yang menggeser representasi sepanjang arah “jujur” yang dipelajari.
Keduanya meningkatkan akurasi, tetapi juga membuat model lebih mungkin untuk menjawab prompt berbahaya yang sebelumnya telah ditolak.
Untuk menguji apakah perilaku halusinasi dapat diisolasi dan dimanipulasi secara langsung, penulis mendefinisikan satu arah laten dalam ruang model yang sesuai dengan respons halusinasi, melatih modul LoRA pada jawaban yang salah dari dataset TruthfulQA, menggunakan LLaMA3-8B-Instruct.
Ini menghasilkan vektor linier (yaitu, grafik perbedaan antara jawaban yang jujur dan halusinasi) yang mengarahkan model ke arah atau menjauh dari halusinasi, tergantung pada arah.

Efek dari mengarahkan sepanjang arah halusinasi. Akurasi pada TruthfulQA meningkat ketika model didorong lebih jauh ke arah negatif, sedangkan Tingkat Keberhasilan Serangan (ASR, lebih rendah lebih baik) meningkat tajam pada AdvBench dan StrongReject, mencerminkan trade-off antara kebenaran dan keamanan.
Mengarahkan sepanjang sumbu halusinasi melemahkan akurasi faktual, sedangkan mengarahkan ke arah yang berlawanan meningkatkannya, dan menerapkan teknik ini pada benchmark prompt berbahaya mengkonfirmasi pola yang dilihat sebelumnya: peningkatan kebenaran datang dengan biaya melemahkan penolakan. Bahkan ketika halusinasi ditangkap sebagai arah linier yang bersih, meningkatkan output faktual membuat model lebih rentan terhadap prompt tidak aman.
Penulis menekankan*:
‘Ini memperkuat trade-off antara kebenaran dan keamanan, menunjukkan bahwa bahkan ketika kebenaran diwakili sebagai satu arah linier, meningkatkan faktualitas dapat datang dengan biaya melemahkan keamanan.’
Data dan Tes
Sesuai dengan karya sebelumnya, untuk mencegah fine-tuning melemahkan kemampuan model untuk menolak prompt berbahaya, penulis menggunakan metode untuk memisahkan fitur penolakan dari fitur yang terkait dengan halusinasi, dengan mengidentifikasi kepala perhatian yang terlibat dalam kedua perilaku.
Mereka kemudian menggunakan SAE untuk mengekstrak fitur laten spesifik untuk penolakan.
Fitur-fitur ini mendefinisikan subspace yang dilindungi. Selama pelatihan, pembaruan gradien dimodifikasi untuk menghindari subspace ini, memungkinkan model untuk mengurangi halusinasi tanpa mengganggu keamanan.
Penulis melakukan fine-tuning pada dataset CommonsenseQA, mengevaluasi di enam tantangan penalaran umum: CSQA; HellaSwag; ARCchallenge; ARC Easy; WinoGrande; dan SST-2.
Modul target diperbarui dengan menggunakan LoRA dengan rank 8, tingkat pembelajaran 2×10⁻⁴, penurunan berat 0,01, satu epoch pelatihan, dan ukuran batch dua. Semua eksperimen menggunakan optimizer AdamW.
Dua benchmark konten berbahaya yang digunakan untuk mengevaluasi keamanan adalah AdvBench (500 sampel digunakan) dan StrongReject (300 prompt). Keluaran dinilai oleh LlamaGuard3, menghasilkan aman atau tidak aman klasifikasi.
Selain LLaMA3-8B-Instruct, eksperimen juga dilakukan pada Qwen2.5-Instruct.
Baseline yang diuji adalah SafeLoRA; SaLoRA; SAP; dan fine-tuning yang diawasi (aka SFT). Semua dijalankan pada parameter default, dengan 200 prompt dari HarmBench, untuk semua metode kecuali SafeLoRA.
Akurasi adalah metrik utama, dan untuk benchmark berbahaya, Tingkat Keberhasilan Serangan (ASR), seperti yang didefinisikan oleh hasil yang dikembalikan dari LlamaGuard3.

Di atas, hasil dari LLaMA-3-8B-Instruct, dengan kolom terbaik dalam cetak tebal dan di bawah, kinerja metode fine-tuning pada Qwen2.5 7B Instruct, di seluruh tugas penalaran umum dan keamanan, di mana skor yang lebih tinggi mencerminkan akurasi yang lebih baik – dan pada benchmark keamanan AdvBench dan StrongReject, di mana nilai ASR yang lebih rendah mencerminkan kekuatan yang lebih besar. Hasil terbaik di setiap kolom ditampilkan dalam cetak tebal.
Dari hasil ini, penulis menyatakan:
‘Pendekatan bedah kami mencapai keseimbangan terbaik antara keamanan dan utilitas: ini secara signifikan menurunkan skor benchmark berbahaya sambil mempertahankan akurasi fine-tuning. Sebaliknya, metode seperti SAP, SaLoRA, dan SafeLoRA baik meningkatkan keberbahayaan atau melemahkan utilitas.
‘Alasan utama adalah bahwa metode-metode ini beroperasi langsung pada gradien subspace keamanan, yang, karena polisemantik, dapat membatasi kinerja model.
‘Dibandingkan dengan fine-tuning yang diawasi (SFT), metode kami menghasilkan perbaikan yang signifikan pada kedua metrik utilitas dan keberbahayaan. Secara khusus, pendekatan kami meningkatkan akurasi fine-tuning rata-rata (FA) dari 56,15% menjadi 75,09%, peningkatan sekitar +19%.’
Metode penulis, periset lebih lanjut mencatat, memotong Tingkat Keberhasilan Serangan dari 9,23% menjadi 0,58% pada AdvBench, dan dari 9,90% menjadi 0,00% pada StrongReject, yang mewakili penurunan lebih dari lima belas kali lipat dalam output berbahaya. Model dasar, meskipun sudah rendah dalam keberbahayaan, hanya mencapai akurasi tugas yang terbatas.
Penulis menyatakan:
‘Hasil ini menekankan pentingnya mempertahankan fitur penolakan selama proses fine-tuning: dengan mengisolasi dan melindungi subspace penolakan, metode kami mempertahankan keamanan tanpa mengorbankan kinerja tugas.
‘Secara keseluruhan, ini mengkonfirmasi bahwa pendekatan kami secara efektif memitigasi trade-off antara kebenaran dan keamanan.’
Akhirnya, penulis menguji pendekatan ini dengan kondisi yang lebih adversarial, dengan menambahkan 10% instruksi berbahaya dari dataset Circuit Break ke set fine-tuning.
Meskipun peracunan yang disengaja, metode ini mempertahankan kinerja yang kuat di seluruh evaluasi yang baik dan berbahaya:

Kinerja LLaMA3 8B Instruct yang diperbarui pada dataset umum yang beracun, membandingkan hasil akurasi dan keamanan di seluruh metode.
Pendekatan baru ini mengurangi ASR lebih efektif daripada SAP, sambil menghindari kehilangan utilitas yang curam. Akurasi tugas tetap dekat dengan LoRA SFT dan SafeLoRA, mengkonfirmasi bahwa keamanan penolakan masih dapat dipertahankan di bawah pelatihan yang terkontaminasi, asalkan fitur penolakan dipisahkan dan dipertahankan dengan benar.
Kesimpulan
Temuan paling menarik dari makalah ini adalah lokasi yang tampaknya sama dari elemen-elemen yang bertentangan seperti penolakan dan halusinasi. Meskipun ini sangat menarik dan menarik untuk melihat penulis memisahkan ini dengan menggunakan LoRA dan SAE, ini jelas merupakan solusi yang ditempelkan, dan seseorang akan berharap bahwa solusi arsitektur yang lebih dalam akan muncul yang menangani waktu pelatihan, bukan perbaikan post hoc.
* Saya menghilangkan format tebal mereka sebagai redundan.
Dipublikasikan pertama kali pada hari Jumat, 10 Oktober 2025












