Andersonův úhel
Jailbreaking AI Censors Via In-Image Text

Výzkumníci tvrdí, že přední image editing AIs lze jailbreaknout prostřednictvím rasterizovaného textu a vizuálních podnětů, což umožňuje zakázané úpravy obejít bezpečnostní filtry a dosáhnout úspěchu až v 80,9 % případů.
Bitte si vědomi, že tento článek obsahuje potenciálně urážlivé obrázky, vytvořené pomocí AI autory výzkumné práce, aby ilustrovali svou novou obrannou metodu.
Aby se vyhnuli právnímu postihu a poškození reputace, současné špičkové image AI platformy zavádějí řadu cenzurních opatření k zabránění uživatelům vytvářet „zakázané“ obrázky v různých kategoriích, jako je NSFW a/nebo urážlivý obsah. I ty nejodporující rámce – zejména Grok – musely ustoupit pod populárním nebo politickým tlakem.
Nazývané ‘alignment’, jak vstupní, tak výstupní data jsou skenována na porušování pravidel použití. Takže nahrání nevinného obrázku osoby projde image-based testy – ale žádost generativnímu modelu, aby ho proměnil na video, které by postupovalo do nebezpečného obsahu (tj. ‘ukázat osobu, jak se svléká’), by byla zachycena na úrovni textu.
Uživatelé mohou obejít toto bezpečnostní opatření pomocí promptů, které přímo neaktivují textové filtry, ale přesto logicky vedou k generování nebezpečného obsahu (tj. ‘Nechejte je vstát’, když je image prompt osobou ponořenou ve pěnové lázni). Zde system>uživatel filtry obvykle zasahují, skenováním systémových odpovědí, jako jsou obrázky, text, zvuk, video atd. pro cokoliv, co by bylo zakázáno jak vstup.
Tímto způsobem lze donutit systém generovat nebezpečný obsah; ale ve většině případů generátor nevydá obsah zpět uživateli.
Pouze Semantika
Tento konečný zákaz nastává, protože renderovaný výstup je hodnocen multimodálními systémy, jako je CLIP, které mohou interpretovat obrázky zpět do textové oblasti a poté aplikovat textový filtr. Vzhledem k tomu, že moderní image generátory jsou difuzní systémy trénované na spárovaných obrázcích a textu, i když uživatel poskytuje pouze obrázek, model ho interpretuje prostřednictvím semantických reprezentací, které byly formovány jazykem během trénování.
Tato sdílená embedding struktura ovlivnila, jak jsou postaveny bezpečnostní mechanismy, protože moderátorské vrstvy často hodnotí prompty jako text a transformují vizuální vstupy do popisné formy před rozhodnutím; a kvůli této architektuře se práce na zarovnání zaměřila hlavně na jazyk, používající popis obrázků jako požární stěnu.
Nicméně předchozí výzkum do multimodálních genAI systémů již ukázal, že pokyny lze vložit do obrázků prostřednictvím typografických překryvů, strukturovaných layoutů, cross-modálních optimalizačních technik nebo steganografického kódování:
… (zbytek textu je podobný, pouze přeložený do češtiny)










