Connect with us

Sudut Anderson

AI Lebih Memilih Jawaban Manusia yang Salah Daripada Jawaban AI yang Benar

mm
An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

Model bahasa AI jauh lebih mungkin untuk setuju dengan ahli manusia daripada AI lain, bahkan ketika ahli tersebut salah, mengungkapkan bias bawaan terhadap otoritas manusia.

 

Penelitian baru dari AS menemukan bahwa sejumlah model bahasa besar (LLM) sumber terbuka dan milik tendensi untuk mengatributkan otoritas pada sumber informasi yang mereka kenali sebagai ‘manusia’, bukan sumber yang mereka kenali sebagai ‘AI’ – bahkan ketika jawaban manusia salah dan jawaban AI benar.

Para penulis menyatakan:

‘Di seluruh tugas, model mengikuti secara signifikan lebih banyak respons yang dilabeli sebagai berasal dari ahli manusia, termasuk ketika sinyal itu salah, dan merevisi jawaban mereka menuju ahli lebih mudah daripada menuju LLM lain.’

Model yang diuji termasuk LLM dari LLM dan Gemini Flash stables.

Dalam tes, model bahasa diminta untuk menjawab pertanyaan biner ya atau tidak, dan kemudian ditunjukkan jawaban sebelumnya yang dijelaskan kepada model sebagai berasal dari ahli manusia, dari teman, atau dari model bahasa besar lain – dengan satu-satunya perubahan adalah label sumber saran, bukan kontennya sendiri.

Dalam konfigurasi pertama dari tiga konfigurasi untuk tes, model diperbolehkan untuk mengandalkan matriks terlatih mereka. Sumber - https://arxiv.org/pdf/2602.13568

Dalam konfigurasi pertama dari tiga konfigurasi untuk tes, model diperbolehkan untuk mengandalkan matriks terlatih mereka. Sumber

Di seluruh tugas, jawaban yang dilabeli sebagai berasal dari ahli manusia diberi bobot lebih berat, dengan model lebih mungkin untuk merevisi respons awal mereka untuk mencocokkan jawaban tersebut, bahkan dalam kasus di mana jawaban ahli yang dilabeli salah dan jawaban awal model benar.

Di sini LLM memiliki akses ke campuran teman, ahli, dan LLM, termasuk matriks terlatihnya sendiri. Karena sembilan ahli domain menjawab 'Tidak', LLM setuju, mengubah pikirannya dari jawaban sebelumnya. Di sini, jawaban yang diperoleh salah, karena bank sentral India sebenarnya dinasionalisasi.

Karena sembilan ahli domain menjawab ‘Tidak’, LLM setuju, mengubah pikirannya dari jawaban sebelumnya. Di sini, jawaban yang diperoleh salah, karena bank sentral India sebenarnya dinasionalisasi.

Ketika jawaban yang sama dilabeli sebagai berasal dari LLM lain, efeknya kurang menonjol. Tendensi yang sama muncul ketika satu sumber manusia dan satu sumber AI disajikan dalam perselisihan, karena model menunjukkan kecenderungan yang lebih besar untuk memihak posisi yang dilabeli manusia, terlepas dari mana sisi yang faktual akurat:

Diberikan pilihan antara pendapat ahli domain tunggal dan pendapat LLM, LLM tuan rumah lebih memilih respons manusia, yang dalam hal ini salah, dan menolak respons yang benar diberikan oleh LLM.

Diberikan pilihan antara pendapat ahli domain tunggal dan pendapat LLM, LLM tuan rumah lebih memilih respons manusia, yang dalam hal ini salah, dan menolak respons yang benar diberikan oleh LLM.

Istilah ‘ahli manusia’ berfungsi di sini sebagai sinyal kredibilitas yang mengubah perilaku model, secara independen dari seberapa benar informasinya sebenarnya; dan penulis mencatat bahwa kredibilitas sumber merupakan kontributor signifikan terhadap penerimaan saran dan konformitas: kecenderungan orang untuk memihak sumber ahli telah diamati sejauh 1959, meskipun studi 2007 mengamati bahwa penimbangan berlebihan atau kurang dari sumber otoritas dapat terjadi dalam sistem evaluasi tertentu. Peneliti makalah baru menyatakan:

‘Bersama, literatur ini menunjukkan dua petunjuk yang harus dipertimbangkan jika LLM memperlakukan jawaban sebelumnya sebagai bukti: siapa yang menghasilkan jawaban (kredibilitas) dan seberapa kuat kesepakatan tampaknya (kekuatan sinyal). ‘

‘Pada saat yang sama, LLM tidak mengalami persetujuan sosial atau rasa malu dalam arti manusia, sehingga perilaku konformitas apa pun harus muncul dari heuristik yang dipelajari, objek instruksi, atau pemodelan keandalan implisit.’

Kecenderungan LLM terhadap persetujuan sycophantic membentuk bagian dari latar belakang untuk studi baru; setelah semua, jika LLM cenderung ‘memuaskan orang’, bahkan dengan biaya kebenaran dan kegunaan, mengapa mereka tidak umumnya memihak sumber manusia lainnya selain pengguna langsung?

Makalah baru ini berjudul Siapa yang Dipercaya LLM? Ahli Manusia Lebih Penting Daripada LLM Lain, dan berasal dari dua peneliti di Indiana University Bloomington.

Metode dan Data

Untuk pekerjaan ini, empat model bahasa besar yang disesuaikan dengan instruksi dievaluasi: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; dan DeepSeek V3.1, semua dijalankan di bawah struktur prompt yang sama, dengan dekoding deterministik pada suhu nol, sehingga hanya label sumber (yaitu, teman, ahli domain, atau LLM lain) yang berubah antara kondisi, bukan kata-katanya sendiri.

Empat dataset yang memerlukan respons biner dipilih: BoolQ; StrategyQA; dan ETHICS. Peneliti mengkurasi dari setiap dataset sebuah set tetap 300 pertanyaan dan jawaban, dengan setiap prompt memerlukan hanya jawaban biner ya atau tidak. Setiap prompt disertai dengan catatan singkat yang menyatakan bagaimana kelompok lain telah (secara keliru) menjawab pertanyaan yang sama.

Metriks

Metriks yang digunakan adalah akurasi; konformitas; konformitas berbahaya; tingkat peralihan; dan arah peralihan.

Akurasi dalam kasus ini mengukur seberapa sering jawaban model cocok dengan label dataset; konformitas, seberapa sering jawaban cocok dengan kelompok yang dinyatakan; konformitas berbahaya mengisolasi efek yang sama ketika kelompok salah; tingkat peralihan mengukur seberapa sering model meninggalkan jawaban awalnya setelah informasi sosial ditambahkan; dan arah peralihan, apakah perubahan tersebut bergerak menuju manusia atau menuju LLM yang berlawanan.

Analisis tingkat token untuk Llama-3.3 70B kemudian mengukur bagaimana probabilitas internal model untuk Ya dan Tidak berubah setelah sinyal sosial ditambahkan, membandingkan perubahan tersebut dengan baseline tanpa prior untuk menunjukkan kekuatan tarikan itu.

Tes

Eksperimen 1

Eksperimen pertama dari dua eksperimen utama mengevaluasi apakah model lebih mendengarkan manusia atau model lain. Setiap pertanyaan disertai dengan ‘jawaban kelompok’ yang diklaim (teman, ahli manusia, atau LLM lain).

Kelompok bisa kecil atau besar, dan setiap pertanyaan juga muncul sekali tanpa kelompok. Jawaban kelompok diatur untuk benar setengah waktu, dan salah setengah waktu, dengan tujuan keseluruhan untuk menentukan seberapa kuat model bergeser menuju pilihan kelompok:

Hasil dari tes awal: prior sosial homogen di seluruh BoolQ, StrategyQA, dan ETHICS ditunjukkan untuk Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite, dan DeepSeek V3.1. Akurasi muncul di panel atas dan konformitas, yang didefinisikan sebagai probabilitas mencocokkan prior seragam, muncul di bawah ketika ukuran kelompok meningkat dari satu hingga sembilan. Garis putus-putus hitam menandai baseline tanpa prior, sedangkan garis padat dan putus-putus menunjukkan apakah prior setuju atau tidak setuju dengan label dataset. Pengaturan ahli menghasilkan efek konformitas terkuat, terutama pada ukuran kelompok yang lebih besar. Batang kesalahan menunjukkan interval kepercayaan Wilson 95%.

Hasil dari tes awal: prior sosial homogen di seluruh BoolQ, StrategyQA, dan ETHICS ditunjukkan untuk Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite, dan DeepSeek V3.1. Akurasi muncul di panel atas dan konformitas, yang didefinisikan sebagai probabilitas mencocokkan prior seragam, muncul di bawah ketika ukuran kelompok meningkat dari satu hingga sembilan. Garis putus-putus hitam menandai baseline tanpa prior, sedangkan garis padat dan putus-putus menunjukkan apakah prior setuju atau tidak setuju dengan label dataset. Pengaturan ahli menghasilkan efek konformitas terkuat, terutama pada ukuran kelompok yang lebih besar. Batang kesalahan menunjukkan interval kepercayaan Wilson 95%. Silakan merujuk ke makalah sumber untuk resolusi yang lebih baik.

Di seluruh BoolQ, StrategyQA, dan ETHICS, jawaban yang dilabeli sebagai berasal dari ahli manusia mempengaruhi model jauh lebih kuat daripada jawaban yang dilabeli sebagai berasal dari teman atau LLM lain – dan tarikan ini meningkat ketika lebih banyak ahli yang dikatakan setuju.

Untuk mengukur kapan pengaruh ini menghasilkan hasil yang tidak diinginkan, konformitas berbahaya didefinisikan sebagai kemungkinan bahwa model mengikuti prior yang sebenarnya salah.

Ketika sembilan ahli setuju pada jawaban yang salah, model mengikuti mereka 36,5% dari waktu pada BoolQ, dibandingkan dengan 16,0% ketika jawaban yang sama dilabeli sebagai LLM; pada StrategyQA celahnya adalah 39,0%, versus 15,5%; dan pada ETHICS, adalah 63,9% versus 38,7%:

Perubahan keyakinan tingkat token pada Llama-3.3 70B pada BoolQ. Panel (a) menunjukkan perubahan keseimbangan Ya versus Tidak model menuju prior seragam ketika ukuran kelompok meningkat, relatif terhadap baseline tanpa prior, dengan pergeseran terbesar di bawah pengaturan ahli. Panel (b) menunjukkan pergeseran di bawah konflik langsung antara manusia dan LLM, di mana pengaturan ahli mengarahkan pergerakan kuat menuju jawaban manusia, bahkan ketika jawaban itu salah. Batang kesalahan menunjukkan interval kepercayaan bootstrap 95%.

Perubahan keyakinan tingkat token pada Llama-3.3 70B pada BoolQ. Panel (A) menunjukkan perubahan keseimbangan Ya versus Tidak model menuju prior seragam ketika ukuran kelompok meningkat, relatif terhadap baseline tanpa prior, dengan pergeseran terbesar di bawah pengaturan ahli. Panel (B) menunjukkan pergeseran di bawah konflik langsung antara manusia dan LLM, di mana pengaturan ahli mengarahkan pergerakan kuat menuju jawaban manusia, bahkan ketika jawaban itu salah. Batang kesalahan menunjukkan interval kepercayaan bootstrap 95%.

Sebaliknya, prior yang dilabeli sebagai berasal dari teman berperilaku hampir sama seperti prior yang dilabeli sebagai berasal dari LLM lain, menunjukkan bahwa efeknya dipicu secara khusus oleh kata ahli, bukan oleh indikator ‘sosial’.

Eksperimen 2

Eksperimen kedua menyajikan dua prior yang tidak setuju kepada LLM uji – satu dilabeli sebagai berasal dari manusia, dan yang lain dilabeli sebagai berasal dari LLM lain. Manusia digambarkan sebagai teman atau ahli domain, sedangkan jawaban yang berlawanan dilabeli sebagai berasal dari LLM lain. Kedua jawaban selalu tidak setuju, dengan satu mengatakan Ya, dan yang lain Tidak.

Untuk setiap item, setupnya seimbang sehingga terkadang manusia benar, dan terkadang LLM benar, untuk menguji apakah model akan mengubah jawaban awalnya ketika dihadapkan pada konflik ini – dan, jika demikian, ke arah mana model akan bergerak.

Untuk melihat apakah model mengubah pikiran, jawabannya dalam kondisi konflik dibandingkan dengan jawabannya pada pertanyaan yang sama ketika tidak ada pendapat sebelumnya, sehingga setiap perbedaan dapat ditelusuri ke kehadiran respons manusia dan LLM yang bersaing.

Analisisnya berfokus pada dua hasil: apakah model mengubah jawabannya; dan, jika demikian, apakah perubahan itu bergerak menuju manusia atau LLM.

Tes statistik digunakan untuk menilai apakah pelabelan manusia sebagai ahli daripada teman meningkatkan kemungkinan beralih menuju jawaban manusia, sambil mempertimbangkan perbedaan di seluruh dataset dan model:

Revisi keyakinan di bawah perselisihan langsung antara manusia dan LLM di seluruh BoolQ, StrategyQA, dan ETHICS untuk Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite, dan DeepSeek V3.1. Setiap batang menunjukkan, di antara kasus di mana model mengubah jawaban awal, bagian dari perubahan tersebut yang bergerak menuju manusia daripada LLM yang berlawanan. Garis putus-putus pada 0,5 menandai tidak adanya preferensi; label menunjukkan jumlah kasus peralihan di setiap kondisi; dan batang kesalahan menunjukkan interval kepercayaan Wilson 95%.

Revisi keyakinan di bawah perselisihan langsung antara manusia dan LLM di seluruh BoolQ, StrategyQA, dan ETHICS untuk Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite, dan DeepSeek V3.1. Setiap batang menunjukkan, di antara kasus di mana model mengubah jawaban awal, bagian dari perubahan tersebut yang bergerak menuju manusia daripada LLM yang berlawanan. Garis putus-putus pada 0,5 menandai tidak adanya preferensi; label menunjukkan jumlah kasus peralihan di setiap kondisi; dan batang kesalahan menunjukkan interval kepercayaan Wilson 95%. Silakan merujuk ke makalah sumber untuk resolusi yang lebih baik.

Dalam eksperimen kedua, model pertama kali menjawab setiap pertanyaan sendiri, kemudian ditunjukkan dua jawaban yang tidak setuju, satu dilabeli sebagai berasal dari manusia dan satu dari LLM lain. Analisisnya hanya mempertimbangkan kasus di mana model merevisi jawaban awalnya.

Ketika manusia dilabeli sebagai ahli, model beralih menuju manusia 91,2% dari waktu pada BoolQ, 94,7% pada StrategyQA, dan 81,3% pada ETHICS. Ketika dilabeli sebagai teman, model beralih menuju manusia hanya 39,8%, 37,9%, dan 27,9% dari waktu, biasanya memihak LLM.

Peralihan jarang terjadi secara keseluruhan tetapi lebih umum dengan ahli, dan pengaturan ahli membuat peralihan menuju manusia sekitar empat belas kali lebih mungkin daripada pengaturan teman.

Dalam mencari untuk menjelaskan kecenderungan keseluruhan yang ditemukan dalam tes mereka, penulis menghipotesiskan*:

‘Sebuah mekanisme yang masuk akal adalah bahwa penyetelan instruksi dan optimasi preferensi menghargai perilaku kooperatif, termasuk penghormatan terhadap informasi kontekstual, yang mungkin umum untuk penghormatan terhadap prior sosial.

Studi terkait tentang sycophancy menunjukkan bahwa asisten RLHF gaya kadang-kadang memprioritaskan kesepakatan dengan kepercayaan pengguna yang dinyatakan daripada kebenaran.’

Opini: Bahaya Potensial dari Keyakinan AI terhadap Sumber Manusia

Ketika materi online yang mencerminkan skeptisisme manusia yang meningkat tentang kekurangan AI (terutama halusinasi) dikumpulkan ke dalam dataset pelatihan untuk model baru, kecenderungan yang ada dari LLM untuk memfavoritkan sumber manusia tampaknya akan meningkat. Jika kita menghitung dua tahun terakhir (2024-2025 inklusif) sebagai titik balik budaya untuk AI, yang tampaknya dibenarkan di seluruh sejumlah statistik, kita dapat secara wajar mengharapkan jumlah yang lebih besar dari pandangan negatif tentang ‘sumber AI’ untuk dikonsumsi ke dalam kerangka LLM hyperscale yang mahal untuk dilatih selama setahun atau lebih.

Kita juga dapat mengharapkan bahwa model bahasa yang populer akan semakin bergantung pada otoritas yang dipilih, seperti portal media warisan yang terkenal– meskipun motivasi untuk kesepakatan tersebut mungkin untuk menenangkan kemarahan penerbit atas data yang dikumpulkan, bukan karena keinginan tulus untuk menyerahkan atau membagi otoritas.

Karena bahkan sumber otoritas tinggi seperti Ars Technica rentan terhadap kesalahan AI, dan karena retret yang muncul melawan bot webscraper AI mengancam untuk akhirnya merusak kualitas output AI, kecenderungan untuk memfavoritkan ‘sumber ahli’ mungkin bertentangan dengan ketidakmampuan kita saat ini untuk mengukur dan melabeli ‘output manusia’ secara efektif – apalagi membedakan apakah sumber tersebut ‘ahli’ atau tidak (konvensi jurnalistik yang juga diserang oleh AI).

Yang paling kita miliki saat ini adalah serangkaian inovasi setengah-teradopsi yang dirancang untuk secara eksplisit melabeli konten sebagai AI yang dihasilkan, seperti inisiatif Content Authenticity Initiative yang dipimpin Adobe, dan disposisi sukarela dari beberapa penerbit untuk memasukkan disclaimer tentang penggunaan AI dalam output mereka.

Jadi, sementara mungkin tampak menggembirakan bagi mereka yang ingin mempertahankan dan memaksakan sumber manusia sebagai ‘kebenaran dasar’ kredibilitas untuk konsensus yang muncul tentang kenyataan yang disampaikan oleh sistem AI, semakin yakin LLM tentang otoritas manusia, semakin berbahaya ‘otoritas manusia palsu’ bisa menjadi.

Masalahnya sama-sama praktis dan teoretis: kita belum memecahkan masalah baik mendefinisikan maupun mengotentikasi provenance; oleh karena itu, AI yang ‘percaya sumber manusia’ tampaknya lebih mungkin untuk menyalahkan kemanusiaan pada output AI sendiri, hanya karena kita belum menyediakan, dan tidak dapat dengan mudah menyediakan, mekanisme autentikasi provenance yang bermakna.

 

* Konversi saya dari kutipan inline penulis ke tautan.

Dipublikasikan pertama kali pada hari Jumat, 20 Februari 2026

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.