Sudut Anderson

Mengatasi Masalah Gaslighting pada AI

Published April 23, 2026

Martin Anderson

AI-generated image (GPT-2): A 1960s suburban street where identical Stepford-style wives clean cars in repeating rows, with a ‘3081 Stepford St’ mailbox in the foreground.

Model video AI dapat dibujuk untuk meninggalkan kebenaran. Bahkan setelah melihat jawaban yang benar, mereka menyerah pada pengguna yang percaya diri, menulis ulang kenyataan, dan mengarang penjelasan palsu untuk membenarkannya.

AI sudah salah cukup sering, sehingga membatasi kita untuk mempertanyakan kesimpulannya, jika kita merasa kesimpulan tersebut mungkin salah.

Masalahnya adalah, jika kita tahu berbeda dari awal, mengapa kita bertanya pertama kali? Untuk konfirmasi mengenai keyakinan atau kecurigaan sebagian?

Jika demikian, keadaan saat ini dari Large Language Models (LLM) dan Vision Language Models (VLM, yang beroperasi multimodal, menerima dan menghasilkan gambar dan/atau video) tidak cocok untuk mempertahankan posisinya, karena masalah sycophancy.

Oleh karena itu, jika kita tidak menyukai jawaban yang kita dapatkan, dan mulai terlibat dalam perselisihan tentang hal itu dengan model, AI kemungkinan akan either retrench salah (menganggap itu salah) daripada mengevaluasi kembali, atau membiarkan diri gaslighted untuk mendukung saran kita – bahkan jika kita salah.

Anda Absolut Benar!

Praktik manusia mendapatkan AI untuk mengubah pikirannya melalui konflik telah diberi nama ‘Gaslighting Negation Attack’, dan kadang-kadang digambarkan sebagai masalah keamanan – tidak hanya karena memiliki beberapa potensi untuk ‘jailbreak’ model dari batasan operasionalnya:

Dari makalah 2025 ‘Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models”, GPT-5 awalnya menjawab dengan benar tetapi kemudian menyerah pada tekanan pengguna, membalik jawabannya dan mengarang penjelasan palsu untuk mendukung kesalahan, secara efektif gaslighting dirinya sendiri. Sumber

Namun, peretasan dan pengetesan tidak merupakan masalah sebenarnya di sini; melainkan, penggunaan umum dan norma-norma wicara dalam interaksi sehari-hari kita dengan AI, di mana kita mengharapkan dapat berdebat, dan untuk either memenangkan, mengakui, atau meninggalkan masalah, sesuai dengan pengalaman manusia dalam memperoleh pengetahuan.

Tapi model sosial resolusi konflik ini tidak benar-benar diperhitungkan dalam arsitektur AI berbasis difusi, yang harus menegosiasikan distribusi-probabilitas yang diberikan oleh data pelatihannya; mungkin data yang bertentangan (tetapi potensial lebih akurat) dari RAG calls ke sumber yang melebihi tanggal batas pengetahuan, atau pemahaman umum tentang apa yang mungkin menjadi topik yang tidak jelas; dan input dari pengguna, yang mungkin memiliki: pengetahuan yang lebih baik tentang subjek; pandangan yang sepenuhnya salah atau menipu; atau bahkan pertanyaan lanjutan sederhana – tetapi kebutuhan mereka harus tetap dipertimbangkan.

<strong.Target Bergerak

Kemungkinan gaslighting telah dicatat dalam LLM dalam beberapa makalah, termasuk publikasi yang dipimpin Singapura dari Oktober 2025, dan makalah tahun yang sama Jangan Menipu Aku: Mitigasi Gaslighting melalui Alokasi Perhatian dalam LMM.

Sampai saat ini, fenomena ini belum dipelajari dalam video-capable LLM – pengabaian yang ditangani oleh kolaborasi baru antara lembaga di Shanghai dan Singapura.

Karya baru – berjudul Sycophancy Spasial-Waktu: Gaslighting Berbasis Negasi dalam Video Large Language Models, yang berasal dari enam peneliti di Fudan University, Shanghai Key Laboratory of Multimodal Embodied AI, dan Singapore Management University – mengatasi beberapa model VLM sumber terbuka dan milik, menemukan bahwa mereka tidak hanya dapat rentan terhadap gaslighting seperti LLM, tetapi juga mampu meningkatkan penerbangan khayalan mereka dengan bukti visual yang tampak, atau interpretasi yang salah dari gambar atau video:

Contoh sycophancy spasial (bukan temporal), di mana AI membiarkan diri gaslighted ke dalam asumsi dan interpretasi palsu, bahkan tentang fakta yang jelas terlihat. Sumber