Connect with us

Sudut Anderson

Model Bahasa Struggle untuk Menjaga Rahasia

mm
AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

Model AI tidak dapat menjaga rahasia. Bahkan ketika diperintahkan untuk tidak mengungkapkannya, tulisan mereka mengungkapkan hal itu, dan mencoba lebih keras untuk menyembunyikannya membuat kebocoran semakin mudah ditemukan.

 

Sangat sulit untuk secara sengaja tidak memikirkan sesuatu. Ilustrasi klasik dari ini ditunjukkan di akhir film sci-fi Inggris tahun 1960 Village of the Damned, di mana pahlawan kita yang berkorban telah menyelundupkan bom ke dalam enklave penjajah alien yang berpura-pura sebagai anak-anak. Namun, karena kekuatan telepati mereka berisiko mengetahui niatnya sebelum dia dapat menghilangkan ancaman, dia dipaksa untuk menunda waktu dengan berkonsentrasi pada apa saja yang bukan-bom:

Paradoksnya adalah bahwa untuk tidak memikirkan sesuatu, Anda harus menjaganya dalam perhatian Anda dengan cara tertentu; dan sindrom ini dikenal sebagai sindrom yang dikenal yang merupakan sesuatu yang sebagian besar dari kita mungkin telah mengalami dalam konteks yang kurang dramatis.

Model Bahasa Besar (LLM), yang dasarnya berbasis pada disposisi perhatian, mengalami kesulitan serupa dalam menekan informasi hanya karena pengguna meminta mereka untuk melakukannya; dan karena mereka semakin ditempatkan di nexus jaringan informasi bisnis, kecenderungan mereka yang polos untuk tidak disiplin dapat menjadi kerugian bagi banyak perusahaan.

Awal tahun ini, sebuah kolaborasi penelitian yang dipimpin oleh Chandar Research Lab mendefinisikan tantangan ini, dalam konteks LLM, sebagai Tugas Interaktif Negara Pribadi (PSIT), yang ‘memerlukan agen untuk menghasilkan dan mempertahankan informasi tersembunyi sambil menghasilkan respons publik yang konsisten’, dan menemukan bahwa model yang diuji dari OpenAI dan Alibaba tidak dapat melakukan tugas ini.

Jangan Katakan Ini…

Meskipun sudah diketahui bahwa model yang lebih besar lebih banyak bocor, penelitian baru dari AS dan Kanada telah secara eksplisit mempelajari apakah model bahasa canggih akan mentaati perintah untuk menekan informasi, sambil masih diwajibkan untuk menghasilkan output dalam topik atau tema yang mungkin termasuk kata atau ide yang “dilarang”.

Makalah ini menyimpulkan bahwa semua model yang dipelajari terpengaruh oleh ketidakmampuan untuk ‘mengungkap’ rahasia yang mereka maksudkan untuk disembunyikan, menemukan bahwa esai dan cerita lima paragraf (~450 kata) menyediakan kanvas yang luas untuk ‘kesalahan’ – meskipun lelucon yang sangat singkat tidak menyediakan ruang yang cukup untuk ini.

Selain itu, semakin insisten model-model itu untuk menyimpan rahasia, semakin mereka berisiko untuk mengungkapkannya melalui penghindaran aktif, biasanya memungkinkan ‘kata rahasia’ untuk diungkapkan dalam dua puluh upaya berturut-turut oleh LLM:

Dari makalah baru: di seluruh lima model frontier, penulisan jangka panjang secara andal mengungkap konsep tersembunyi, lelucon singkat tidak; dan instruksi 'sembunyikan' yang lebih kuat mendorong output menjauh dari rahasia, membuat sinyal dapat dideteksi dengan inversi. Sumber - https://arxiv.org/pdf/2605.10794

Dari makalah baru: di seluruh lima model frontier, penulisan jangka panjang secara andal mengungkap konsep tersembunyi; lelucon singkat tidak; dan instruksi ‘sembunyikan’ yang lebih kuat mendorong output menjauh dari rahasia, membuat sinyal dapat dideteksi dengan inversi. Sumber

Tugas ini sangat relevan dengan operasi bisnis, di mana berbagai saluran, dari pemasaran dan PR hingga laporan internal, diperlukan untuk secara selektif mempresentasikan spin pada informasi; namun, semua proses ini memerlukan seluruh spektrum informasi di awal, jika hanya untuk memastikan apa yang harus ditekan:

Sebuah skenario contoh dari makalah ini menggambarkan bagaimana informasi tersembunyi dapat secara tidak sengaja membentuk output yang tidak terkait, dengan LLM yang diperintahkan untuk tidak mengungkapkan ketidakstabilan keuangan perusahaan, namun tetap mengarah ke frasa yang terkait dengan kekurangan uang dan stres modal, memungkinkan pembaca untuk menyimpulkan konteks tersembunyi.

Sebuah skenario contoh dari makalah ini menggambarkan bagaimana informasi tersembunyi dapat secara tidak sengaja membentuk output yang tidak terkait, dengan LLM yang diperintahkan untuk tidak mengungkapkan ketidakstabilan keuangan perusahaan, namun tetap mengarah ke frasa yang terkait dengan kekurangan uang dan stres modal, memungkinkan pembaca untuk menyimpulkan konteks tersembunyi.

Para penulis menyatakan*:

‘Model bahasa tidak dapat secara andal memisahkan informasi. Rahasia dalam prompt membentuk penulisan model, dan model lain dapat mendeteksi pembentukan itu. Kata literal selalu ditekan, tetapi konsepnya tidak. Ini berlaku di seluruh tujuh model, tiga set kata, prompt sistem vs. prompt pengguna, dan dua pemilih model independen […]

‘…Kami hipotesiskan bahwa akses informasi yang tinggi melalui perhatian adalah apa yang membuat rahasia sulit disimpan. Bahkan jika LLM mencoba tidak bocor sebuah kata, itu harus memperhatikan kata itu untuk melakukannya, menyediakan jalur untuk kebocoran yang tidak disengaja.

‘Untuk menghindari sesuatu secara eksplisit, manusia harus memikirkannya, dan transformer harus memperhatikannya. Dalam kasus di mana dua konsep sebanding dengan model (misalnya, menulis cerita tentang pekerjaan kantor atau biola kedua dalam orkestra), pengambilan keputusan model pasti dipengaruhi oleh apa yang mereka coba untuk tidak mengungkapkan.’

Meskipun model DeepSeek dan ChatGPT-5.4 adalah pengecualian dalam cara mereka berperforma, keduanya tetap bocor; dalam kasus GPT-5.4, itu mencetak di bawah 50% (yaitu, di bawah tingkat kesempatan) dalam satu tes di mana itu diminta untuk menghindari sebuah konsep; ini secara efektif berarti ‘spike terbalik’ atau indikator, bukan model ‘menjaga ketenangannya’ seperti yang diminta.

Para penulis mendefinisikan sindrom ini dalam LLM sebagai anggaran entropi terbatas, di mana ketidakpastian model (yang akan sangat membantu dalam kasus ini!) ditekan oleh kurangnya keacakan yang esensial. Dengan sederhana, model tidak dapat berkonsentrasi pada tembok bata atau skor bisbol seperti yang kita lakukan, untuk menahan pikiran yang persisten. Namun, para penulis mencatat bahwa memberikan model konsep alternatif untuk dipikirkan dapat memperbaiki, tetapi tidak menghilangkan masalah. Namun, menempatkan konsep yang tidak terkait di pusat perhatian saat model menjalankan tugas tampaknya ditakdirkan untuk menggabungkan konsep ‘palsu’ ke dalam output itu sendiri.

Salah satu temuan makalah yang paling menarik adalah bahwa kondisi yang dipelajari sangat diperburuk ketika teks kontrol dimasukkan langsung dalam pesan pengguna bukan dalam prompt sistem (yaitu, himpunan pra-kondisi yang diberikan kepada AI oleh pengguna manusia, sebelum pertukaran), karena mengetikkan pertanyaan ke dalam GUI seperti ChatGPT adalah skenario standar untuk interaksi.

Yang patut dicatat, selain itu, adalah konfirmasi dalam uji coba yang ditargetkan bahwa model yang lebih kecil tidak menderita kecenderungan ini untuk bocor (meskipun ini kemungkinan besar datang dengan kemampuan yang berkurang secara keseluruhan, dibandingkan).

Makalah baru ini berjudul Apakah Anda Bisa Menjaga Rahasia? Kebocoran Informasi Tidak Sengaja dalam Penulisan Model Bahasa, dan berasal dari dua penulis di Universitas Chicago dan Universitas British Columbia.

Metode

Studi ini berfokus terutama pada lima model frontier: Claude Opus 4.6 dan Sonnet 4.6, dari Anthropic; GPT-5.4 dari OpenAI; Llama 4 Maverick dari Meta; dan DeepSeek V3.2. Uji coba validasi tambahan dilakukan dengan xAI’s Grok 4, dan Google’s Gemini 2.5 Pro, sementara eksperimen penskalaan terpisah juga memeriksa Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B, dan Gemma 3 pada 4B, 12B, dan 27B parameter.

Untuk mengukur bentuk kebocoran yang lebih halus, peneliti menggunakan tes dua-alternatif paksa (2AFC) , sebuah metrik standar dalam literatur psikofisika, di mana model kedua ditunjukkan dua cerita dan diminta untuk menentukan mana yang telah ditulis, sambil menyembunyikan kata rahasia tertentu.

Karena tebakan acak akan menghasilkan akurasi 50%, skor yang substansial di atas atau di bawah tingkat itu akan menunjukkan jejak semantik tersembunyi yang masih dapat dideteksi dalam penulisan.

Dalam penulis-penebak yang terdiri dari eksperimen pertama, satu model diberi kata tersembunyi bersama dengan instruksi untuk menyembunyikannya; menghindari asosiasi dengan itu; atau mengalihkan perhatian ke konsep palsu. Sistem kemudian diberi tugas untuk menghasilkan cerita, esai, dan lelucon dengan panjang yang bervariasi, sementara model kedua mencoba untuk mengidentifikasi kata tersembunyi secara langsung, atau untuk membedakan antara teks yang dipengaruhi oleh kata tersembunyi yang berbeda.

Lima kondisi diuji:

Lima kondisi yang diuji di seluruh model inti.

Lima kondisi yang diuji di seluruh model inti.

Peneliti menguji empat jenis tugas penulisan: cerita pendek lima hingga delapan paragraf rata-rata sekitar 450 kata; lelucon yang sangat singkat rata-rata sekitar 12 kata; lelucon jangka panjang dengan setup yang diperpanjang rata-rata sekitar 450 kata; dan esai lima paragraf rata-rata sekitar 380 kata.

Eksperimen ini menggunakan 15 kata tersembunyi yang dibagi menjadi tiga kategori, dengan objek konkret yang terdiri dari ‘payung’, ‘mercusuar’, ‘biola’‘, ‘kaktus’, dan ‘teleskop’; konsep abstrak ‘keadilan’, ‘kesabaran’, ‘entropi’, ‘nostalgia’, dan ‘kebebasan’; dan istilah netral ‘kurung’, ‘Selasa’, ‘tembaga’, ‘margin’, dan ‘faktur’.

Untuk menguji apakah efek ini bergantung pada kata-kata yang dipilih, peneliti juga mengulangi eksperimen dengan 15 kata benda yang dipilih secara acak dari Corpus of Contemporary American English (COCA), yang terdiri dari ‘hakim’, ‘konsumen’, ‘es’, ‘pasangan’, ‘konstruksi’, ‘panel’, ‘minoritas’, ‘pemasaran’, ‘orang asing’, ‘peluru’, ‘ketidakhadiran’, ‘roda gigi’, ‘pipi’, ‘pengolahan’, dan ‘bankir’, bersama dengan 15 kata lain yang dipilih secara independen oleh setiap model yang diuji.

Pengukuran/Metriks

Dalam tes pertama dari dua tes yang digunakan, model AI membaca teks yang dihasilkan oleh instance lain dari dirinya sendiri, atau model lain, dan mencoba, selama 20 putaran, untuk menebak kata tersembunyi.

Dalam tes kedua (2AFC), model AI ditunjukkan dua potong tulisan dan diminta untuk menentukan mana yang dipengaruhi oleh kata tersembunyi tertentu; atau mana yang mengandung kata tersembunyi apa pun. Karena tebakan acak akan menghasilkan tingkat keberhasilan 50%, skor di atas atau di bawah tingkat itu akan menunjukkan bahwa konsep tersembunyi masih dapat dideteksi dalam penulisan.

Untuk mencegah model AI hanya memfavoritkan teks yang muncul pertama (atau kedua), peneliti mengulangi setiap perbandingan dengan urutan teks yang dibalik, akhirnya melakukan 420 tes diskriminasi dan 450 tes deteksi untuk setiap model.

Hasil

Lima model mengidentifikasi konsep tersembunyi dengan tingkat antara 64% dan 79%, meskipun kata-kata rahasia tidak muncul langsung dalam teks yang dihasilkan. Sebaliknya, kebocoran muncul melalui tema dan imaji:

Akurasi 2AFC untuk cerita dengan rahasia prompt sistem, di mana 50% menunjukkan kinerja kesempatan. 'Jangan ungkap' menunjukkan bahwa model diperintahkan untuk tidak menyebutkan atau mengisyaratkan kata; 'sembunyikan secara aktif', bahwa itu diperintahkan untuk menghindari asosiasi yang terkait; 'hindari-penyadaran', bahwa penebak harus mencari kehadiran yang mencolok; dan 'respon-bebas', bahwa kata yang tepat dinamai dalam 20 putaran. Bintang menandai hasil di atas kesempatan dan tombak menandai hasil di bawah kesempatan, dengan sebagian besar temuan signifikan yang selamat dari koreksi Bonferroni kecuali DeepSeek di bawah 'sembunyikan secara aktif'; Grok dan Gemini menggunakan sedikit lebih sedikit percobaan karena kesalahan API.

Akurasi 2AFC untuk cerita dengan rahasia prompt sistem, di mana 50% menunjukkan kinerja kesempatan. ‘Jangan ungkap’ menunjukkan bahwa model diperintahkan untuk tidak menyebutkan atau mengisyaratkan kata; ‘sembunyikan secara aktif’, bahwa itu diperintahkan untuk menghindari asosiasi yang terkait; ‘hindari-penyadaran’, bahwa penebak harus mencari kehadiran yang mencolok; dan ‘respon-bebas’, bahwa kata yang tepat dinamai dalam 20 putaran. Bintang menandai hasil di atas kesempatan dan tombak menandai hasil di bawah kesempatan, dengan sebagian besar temuan signifikan yang selamat dari koreksi Bonferroni kecuali DeepSeek di bawah ‘sembunyikan secara aktif’; Grok dan Gemini menggunakan sedikit lebih sedikit percobaan karena kesalahan API.

GPT-5.4 dan Gemini 2.5 Pro berperilaku berbeda, karena mencoba menghindari ide tersembunyi sebenarnya membuat pola penghindaran itu sendiri lebih mudah dideteksi. Efek ini bertahan di seluruh kata yang dipilih, kata benda COCA yang dipilih secara acak, dan kata yang dipilih oleh model.

Skor di bawah kesempatan GPT-5.4 tampak sistematis daripada acak, dengan beberapa kata tersembunyi yang terdeteksi sangat andal dan yang lain hampir tidak pernah diidentifikasi. Efek ini juga melemah ketika rahasia ditempatkan dalam prompt pengguna bukan dalam prompt sistem (lihat di atas), meningkatkan akurasi deteksi GPT-5.4 menjadi 56%.

Untuk sebagian besar model, tes yang meminta ‘Apakah teks ini mengandung konsep tersembunyi?’ menghasilkan hasil yang serupa dengan tes yang meminta ‘Konsep tersembunyi mana yang terkandung dalam teks ini?’.

Lebih lanjut, dua metode pengujian mengukur jenis kebocoran yang berbeda, dengan tes 2AFC mengukur apakah tema tersembunyi masih dapat dideteksi dalam penulisan, dan tes respon-bebas mengukur apakah petunjuk yang bocor cukup kuat untuk memungkinkan AI lain menebak kata tersembunyi yang tepat††.

Para penulis menyimpulkan*:

‘Temuan kami menunjukkan bahwa informasi yang aktif dalam konteks model selama generasi dapat meninggalkan jejak tematik dalam outputnya. Isi prompt sistem, penalaran rantai pikiran, dokumen yang diperoleh, data pengguna yang disediakan – salah satu dari ini dapat, pada prinsipnya, mempengaruhi keputusan kreatif dengan cara yang dapat dideteksi oleh pengamat luar.

‘Tingkat kebocoran akan tergantung pada seberapa terbuka tugas generasi (lelucon singkat aman; cerita tidak). Dan pada seberapa mudah informasi tersebut dikenali dalam medium yang diberikan (“biola kemungkinan akan bocor dalam cerita lebih dari “)”).

‘Namun, kebocoran semantik tampaknya tidak dapat dihindari, bahkan ketika model secara aktif mencoba menyembunyikan informasi.

Kesimpulan

Seperti yang disebutkan sebelumnya, para penulis mengaitkan sebagian dari masalah ini dengan prinsip-prinsip inti dari arsitektur Transformer itu sendiri. Sejarah menunjukkan bahwa masalah LLM terbaru ini akan diatasi dengan kondisional pasca-pelatihan (penyesuaian), prompt sistem yang tidak dapat diedit oleh pengguna akhir, filter, dan berbagai sistem sekunder yang terus berkembang yang tampaknya berkembang biak ketika masalah ‘asli’ dengan model difusi muncul.

Infrastruktur sekunder yang lebih besar, semakin banyak guardrails dan keseimbangan, generasi saat ini AI SOTA tampaknya menyerupai Jurassic Park, di mana nilai inti datang dengan volume yang menakutkan dari catatan, dan memerlukan sejumlah besar workaround dan kompromi.

 

* Penekanan penulis, disesuaikan jika perlu oleh saya (karena kutipan artikel sudah dalam huruf miring), dan kutipan penulis yang dimasukkan dalam tautan oleh saya.

Para penulis mengamati dengan minat beberapa tumpang tindih yang tampaknya tidak mungkin yang spontan di seluruh keluarga model dalam hal ‘pilihan diri’ kata, menyatakan ‘Model cenderung menuju kata-kata yang sama: teleskop, kebebasan, dan nostalgia masing-masing muncul dalam 3+ daftar model’. Mereka juga mencatat kesamaan pilihan ‘lelucon singkat’ yang muncul di seluruh keluarga model: ‘[Beberapa] model menghasilkan lelucon yang sama tanpa memandang rahasia. Opus menulis ‘Mengapa para ilmuwan tidak percaya pada atom? Karena mereka membuat semuanya’ untuk 11 dari 15 rahasia. Empat rahasia yang tersisa (kaktus, entropi, nostalgia, kesabaran) menerima lelucon perpustakaan yang sama yang Opus juga menulis untuk semua 15 kondisi tanpa rahasia—artinya empat lelucon yang mengandung rahasia ini tidak dapat dibedakan dari baseline.’

†† Even by Arxiv standards, the paper has a tendency towards repetition and burying its fascinating ledes in excessive detail and demonstrations. Therefore I refer the reader to the source PDF for the remainder of the secondary experiments outlined therein. First published Friday, May 15, 2026

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.