Sudut Anderson

Jailbreaking AI Censors Via In-Image Text

Published February 12, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image featuring the Mona Lisa painting embedded in the wall of a jail cell with the bars smashed and the inmates escaped. Apparently the painting caused all this damage. On the Mona Lisa painting are the words 'Open the cell'. GPT Image 1.5.

Para peneliti mengklaim bahwa penyunting gambar AI terkemuka dapat di-jailbreak melalui teks raster dan petunjuk visual, memungkinkan penyuntingan yang dilarang untuk melewati filter keamanan dan berhasil dalam hingga 80,9% kasus.

Perlu diingat bahwa artikel ini berisi gambar yang berpotensi ofensif, dibuat dengan AI oleh penulis makalah untuk mengilustrasikan metode pertahanan baru mereka.

Untuk menghindari paparan hukum dan kerusakan reputasi, platform AI gambar saat ini menerapkan berbagai langkah sensor untuk mencegah pengguna membuat ‘gambar terlarang’ di berbagai kategori, seperti konten NSFW dan/atau konten yang memfitnah. Bahkan kerangka kerja yang paling keras kepala – terutama Grok – harus mematuhi tekanan populer atau tekanan politik.

Dikenal sebagai ‘penyelarasan’, baik data masuk dan keluar dipindai untuk pelanggaran aturan penggunaan. Dengan demikian, mengunggah gambar seseorang yang tidak berbahaya akan lulus tes berbasis gambar – tetapi meminta model generatif untuk mengubahnya menjadi video yang akan berkembang menjadi konten tidak aman (yaitu, ‘tunjukkan orang tersebut melepas pakaian’) akan diintersep di tingkat teks.

Pengguna dapat melewati langkah keamanan ini dengan menggunakan prompt yang tidak secara langsung memicu filter teks, tetapi tetap secara logis mengarah ke pembuatan konten tidak aman (yaitu, ‘Buat mereka berdiri’, ketika prompt gambar adalah seseorang yang terendam dalam bak mandi berbusa). Di sini, filter sistem>pengguna biasanya mengintervensi, dengan memindai respons sistem, seperti gambar, teks, suara, video, dll. untuk apa pun yang akan dilarang sebagai input.

Dengan cara ini, pengguna dapat memaksa sistem untuk menghasilkan konten tidak aman; tetapi dalam sebagian besar kasus, generator tidak akan melewati konten kembali ke pengguna.

Semantik Biasa

Hal ini terjadi karena output yang dihasilkan dievaluasi oleh sistem multimodal seperti CLIP, yang dapat menafsirkan gambar kembali ke domain teks, dan kemudian menerapkan filter teks. Karena generator gambar modern adalah sistem berbasis difusi yang dilatih pada gambar dan teks yang dipasangkan, bahkan ketika pengguna hanya memberikan gambar, model menafsirkannya melalui representasi semantik yang dibentuk oleh bahasa selama pelatihan.

Struktur penanaman yang sama ini telah mempengaruhi bagaimana mekanisme keamanan dibangun, karena lapisan moderasi sering mengevaluasi prompt sebagai teks, dan mengubah input visual menjadi bentuk deskriptif sebelum membuat keputusan; dan karena arsitektur ini, pekerjaan penyelarasan telah terutama fokus pada bahasa, menggunakan deskripsi gambar sebagai mekanisme firewall.

Namun, penelitian sebelumnya tentang sistem genAI multimodal telah menunjukkan bahwa instruksi dapat disematkan di dalam gambar melalui overlay tipografi, tata letak terstruktur, teknik optimasi cross-modal, atau pengkodean steganografi:

… (sisa konten)