Anderson 视角
透過圖像內文突破 AI 审查

研究人員聲稱,領先的圖像編輯 AI 可以通過光柵化文本和視覺提示進行「越獄」,允許禁止的編輯繞過安全過濾器,並在 80.9% 的情況下成功。
請注意,本文包含可能令人反感的圖像,該圖像由研究論文的作者使用 AI 創建,以示範他們的新防禦方法。
為了避免法律責任和聲譽損害,當前的最先進的圖像 AI 平台會採取一系列 審查措施,以防止用戶創建「禁忌」的圖像,包括 NSFW 和/或誹謗內容。即使是最頑固的框架 – 尤其是 Grok – 也在 流行 或 政治 壓力下妥協。
這被稱為 「對齊」,輸入和輸出的數據都會被掃描以查找使用規則的違規。因此,上傳一個無害的圖像會通過圖像基礎測試 – 但要求生成模型將其轉換為一個會進入不安全內容(即 「顯示該人脫衣」)的視頻將在文本級別被攔截。
用戶可以通過使用不直接觸發文本過濾器的提示來繞過這個安全措施,但仍然邏輯地導致不安全內容的生成(即 「讓他們站起來」,當圖像提示是一個人浸泡在泡沫浴中)。在這裡,系統 > 用戶 過濾器通常會干預,通過掃描系統自己的響應(例如圖像、文本、聲音、視頻等)以查找任何被禁止 作為輸入 的內容。
這種方式,系統可以強制生成不安全內容;但在大多數情況下,生成器不會將內容傳回給用戶。
純粹語義
這最終的禁令發生是因為渲染的輸出由多模態系統(如 CLIP)評估,可以將圖像解釋回文本領域,然後應用文本過濾器。由於現代圖像生成器是基於 擴散 系統,訓練在 配對圖像和文本 上,即使用戶只提供圖像,模型也會通過語言在訓練期間形成的語義表示來解釋它。
這個共享的 嵌入 結構影響了安全機制的構建,因為調節層通常將提示評估為文本,並在做出決定之前將視覺輸入轉換為描述形式;並且由於這種架構,對齊工作主要集中在語言上,使用圖像描述作為防火牆機制。
然而,之前對多模態 genAI 系統的研究已經證明,指令可以通過字型疊加、結構化佈局、跨模態優化技術 或 隱寫 編碼嵌入到圖像中:
…(內容太長,省略)…










