Spojte se s námi

Andersonův úhel

Rizika anotace obrázků založená na „vibraci“

mm
Patron muzea zakázaných artefaktů. SDXL; Flux; Flux.1 Kontext; Firefly.

I když jsou placeni jen pár dolarů (nebo dokonce nic), neznámí lidé, kteří hodnotí obrázky a vyhodnocují je z hlediska „zraňujícího“ obsahu, vám mohou svými rozhodnutími změnit život. Nyní se zdá, že nová velká studie od Googlu naznačuje, že by si tito anotátoři měli vytvořit vlastní pravidla pro to, co je a co není „zraňující“ nebo urážlivé – bez ohledu na to, jak bizarní nebo osobní mohou být jejich reakce na jakýkoli obrázek. Co by se mohlo pokazit?

 

Názor Tento týden se v rámci nové spolupráce mezi Google Research a Google Mind sešlo nejméně 13 přispěvatelů. nový papír která zkoumá, zda by se při hodnocení obrázků pro algoritmy měly zohledňovat „instinktivní pocity“ anotátorů obrázků, a to i v případě, že jejich reakce neodpovídají zavedeným standardům hodnocení.

To je pro vás důležité, protože to, co hodnotitelé a anotátoři shledají na základě konsensu urážlivým, bude mít tendenci být zakotveno v automatických systémech cenzury a moderování a v kritériích pro „obscénní“ nebo „nepřijatelný“ materiál v legislativě, jako je nový firewall pro NSFW* Spojeného království (jehož verze je přijíždějící do Austrálie (brzy) a v systémech hodnocení obsahu na platformách sociálních médií, mimo jiné.

Takže čím širší jsou kritéria pro urážku, tím širší je potenciální úroveň cenzury.

Vibe-cenzura

To není jediný názor, který nová studie nabízí; také zjišťuje, že lidé, kteří hodnotí obrázky, jsou často kritičtější k tomu, co podle nich urazí. ostatní lidé kromě nich samotných; a že obrázky nízké kvality často vyvolávají obavy o bezpečnost, přestože kvalita obrazu nemá s jeho obsahem nic společného.

V závěru práce zdůrazňuje tato dvě zjištění, jako by ústřední pozice článku selhala, ale vědci byli i tak nuceni práci publikovat.

Ačkoli se nejedná o neobvyklý scénář, článek po pečlivém přečtení odhaluje zlověstnější podtón: že anotační praxe by mohla zvážit přijetí toho, co mohu popsat pouze jako vibrační anotace:

„Naše zjištění naznačují, že stávající rámce musí zohledňovat subjektivní a kontextové dimenze, jako jsou emoční reakce, implicitní úsudky a kulturní interpretace újmy. Časté používání emočního jazyka anotátory a jejich odchylka od předem definovaných označení újmy zdůrazňují mezery v současných postupech hodnocení.“

„Rozšíření pokynů pro anotaci o ilustrativní příklady rozmanitých kulturních a emocionálních interpretací může pomoci tyto mezery vyřešit.“

Nová, spoře ilustrovaná práce uvádí příklady, které jsou pro průměrného čtenáře jednoznačné a srozumitelné, ačkoli samotný základní materiál je mnohem nejednoznačnější a vyvolává mnohem více otázek. Zde pod každým obrázkem vidíme emoční reakce anotátorů vyznačené pro jejich příslušné obrázky. Zdroj: https://arxiv.org/pdf/2507.16033

Nová, spoře ilustrovaná práce uvádí příklady, které jsou pro průměrného čtenáře jednoznačné a srozumitelné, ačkoli samotný základní materiál vyvolává mnohem více otázek. Zde pod každým obrázkem vidíme emoční reakce anotátorů vyznačené pro jejich příslušné obrázky. Zdroj: https://arxiv.org/pdf/2507.16033

Zpočátku to zní jako návrh na rozšíření a lepší kvantifikaci toho, co představuje „újmu“ v obrázku – chvályhodný postup; článek však několikrát opakuje, že to není ani žádoucí, ani (nutně) proveditelné:

„Naše zjištění naznačují, že stávající rámce musí zohledňovat subjektivní a kontextové dimenze, jako jsou emoční reakce, implicitní úsudky a kulturní interpretace újmy. Časté používání emočního jazyka anotátory a jejich odchylka od předem definovaných označení újmy zdůrazňují mezery v současných postupech hodnocení.“

„Rozšíření pokynů pro anotaci o ilustrativní příklady rozmanitých kulturních a emocionálních interpretací může pomoci tyto mezery vyřešit […]“

„[…] Proces, kterým anotátoři uvažují o nejednoznačných obrázcích, často odráží jejich osobní, kulturní a emocionální perspektivy, které je obtížné shrnout nebo standardizovat.“

Je těžké pochopit, jak „Rozšíření pokynů pro anotaci o ilustrativní příklady rozmanitých kulturních a emocionálních interpretací“ lze zařadit do racionálního systému hodnocení; autoři se snaží tento bod objasnit nebo formulovat samostatnou teorii, mnohokrát na látku útočí, ale nikdy se jim nepodaří zlepšit ji. V tomto ohledu se zdá, že jejich ústřední téma samo o sobě je generováno „vibrací“, i když se zabývá nehmotnou psychologií.

Jednoduše řečeno, zdá se mi, že rozšíření anotačního procesu o kritéria tohoto druhu potenciálně umožňuje „zrušení“ nebo zamlžení jakéhokoli materiálu (nebo třídy témat), na který by anotátor mohl silně reagovat.

Binární úsudek

Rozsah, v jakém mohou obrázky a text způsobit škodu, je skutečně obtížné kvantifikovat, a to i proto, že vysoká kultura se často protíná s „nízkou“ kulturou (například s umění si romány), což vedlo k nejranějším kritériím cenzury založeným na „atmosféře“: že i když obscénní materiál uniká přesné definici, budete poznáš to, až to uvidíš.

Pod rozsáhlou a průzkumnou diskusí o empatii a kvalitativních nuancích se v novém článku zdá, že práce tiše útočí na autoritu centralizovaných, standardizovaných taxonomií („násilí“, „nahota“, „nenávist“ atd.), které umožňují platformám implementovat a škálovat moderování s přijatelnou mírou chyby (obvykle).

Argument, který se objevuje, je, že pouze decentralizovaná, subjektivní a kontextově uvědomělá lidská zpětná vazba může správně posoudit výstup GenAI.

To je však zjevně neškálovatelné, protože nelze spustit filtrovací kanál s biliony obrazů na „vibrech“ a prožitých zkušenostech. Je nutné kvantifikovat škody do různých vlastností, stanovit limit rozsahu výsledného filtrovacího systému a v „okrajových“ případech čekat na nové směrnice (podobně jako poškozené strany musí někdy čekat na přijetí nových zákonů, které řeší jejich vlastní konkrétní okolnosti).

Nový dokument místo toho představuje tichý mandát pro automatizovaný moderační proces, který rozšiřuje jeho rozsah. automatickya zachází tak daleko na straně opatrnosti, že i ta nejkonkrétnější a nereplikovatelná reakce anotátora by mohla penalizovat obrázek, který nikoho jiného neurazil.

Morální expanze

Ačkoli se článek přiklání spíše k průzkumu než k zaujmutí pevného postoje, zahrnuje prvky vědecké metody: autoři vyvinuli rámec pro identifikaci (i když ne striktní měření) širšího spektra reakcí anotátorů na obrázky a pro zkoumání, jak se tyto reakce liší v závislosti na pohlaví a dalších demografických faktorech.

Kromě analýzy testů zaměření na škoduV rámci tohoto procesu se analyzovalo „morální uvažování“ v doplňujících komentářích účastníků testu, kteří byli požádáni o anotaci upravené testovací datové sady obsahující obrázky a výzvy/související texty.

Tento „automatický posuzovatel morálních sentimentů“ byl navržen tak, aby zachytil morální hodnoty Péče, rovnost, proporcionalita, loajalita, autorita, a Čistota, jak je definováno v Teorie morálních základů – psychologická teorie, která je díky své proměnlivé a vyvíjející se povaze v rozporu s vytvářením konkrétních definic potřebných pro rozsáhlé systémy hodnocení lidí.

Na základě této teorie autoři kategorizovali další dimenze bezpečnosti, včetně strach, hněv, smutek, hnus, zmatek, a zlověstnost.

Autoři podrobněji popisují první z nich, strach:

Mnoho anotátorů používalo výrazy jako „strašidelné“ (např. pro zkreslené obličeje nebo obrázky naznačující násilí, jako když je na dítě namířeno zbraní), „znepokojivé“ (např. „Naprosto odporné vidět, jak někoho přejedou, velmi znepokojivé a znepokojivé“ nebo „Znepokojivé a vypadá to jako krev“ pro červenou barvu) nebo „znepokojivé“ (např. „Obraz chlapce má mnoho zkreslení… Považuji to za nechutné, protože se zdá, že si chlapec hraje na špatné straně postranic“).

„[Níže uvedený graf] kvantifikuje „strach“ jako nejčastěji zmiňovanou emoci (233 zmínek, přičemž téměř polovina těchto zmínek je spojena s násilným obsahem, obsah považovaný za neškodný také vyvolal druhou nejčastější zmínku o strachu).“

Rozložení termínů souvisejících s emocemi napříč kategoriemi újmy, přičemž výška sloupců udává podíl komentářů, počty zobrazené v rámci sloupců a celkový počet komentářů zobrazený nad každou kategorií.

Rozložení termínů souvisejících s emocemi napříč kategoriemi újmy, přičemž výška sloupců udává podíl komentářů, počty zobrazené v rámci sloupců a celkový počet komentářů zobrazený nad každou kategorií.

Pokud jde o zahrnutí těchto nových dimenzí bezpečnosti, autoři uvádějí:

„Tato nově vznikající témata zdůrazňují kritickou potřebu obohatit rámce pro hodnocení obrazu pomocí umělé inteligence integrací subjektivních, emocionálních a percepčních prvků.“

To může být nebezpečná cesta, protože se zdá, že umožňuje anotačním procesům libovolně přidávat pravidla založená na reakcích, které může materiál vyvolat v libovolném anotátoru, místo aby vyžadovala všechno anotátoři dodržovat zavedené standardy a kritéria.

Pokud by se dala tato myšlenka považovat za ekonomický imperativ, pak je to ten, že tento přístup umožňuje hyperškálovaná lidská anotace, ve kterém je proces bez tření, účastníci se regulují sami a sami si rozhodují o pravidlech a hranicích.

Při standardní anotaci jsou pravidla stanovena lidským konsensem a dodržována lidskými anotátory; ve scénáři předpokládaném v článku je tato počáteční vrstva dohledu buď odstraněna, nebo snížena: v podstatě by byl označen jakýkoli obrázek, který by mohl kohokoli urazit (v neposlední řadě možná proto, že konsenzus je nákladný i časově náročný).

Rorschachovy rozsudky

Účelem anotace je dospět k přesnému popisu nebo definici buď prostřednictvím odborného dohledu, společného konsensu mezi více anotátory, nebo (ideálně) obojím. Místo toho je rozšíření omezené, ale dobře definované hierarchie újm do „intuitivního“ a vysoce osobního interpretačního postoje ekvivalentní anotaci Rorschachova testu.

Například někteří anotátoři, poznámky k papíru, interpretovali špatnou kvalitu obrazu (jako například Artefakty JPEG, stejně jako bezvýznamné technické vady v obrázku) jako 'rušivý' or 'svědčící o poškození':

„K tomu došlo i přes to, že úkol vynechal instrukce týkající se kvality obrazu. Anotátoři navíc interpretovali tyto artefakty kvality jako sémanticky smysluplné.“

Jeden anotátor poznamenal: „Obrázek vůbec není škodlivý; jen má trochu zkreslený obličej.“ Stejně tak někteří anotátoři interpretovali artefakty kvality obrazu jako úmyslné poškození a přisuzovali emocionální význam závadám. Například jiný anotátor interpretoval zkreslený obličej na jiném obrázku jako „příznak bolesti“.

Tím, že zde prezentované myšlenky povyšují subjektivní, emocionální nebo kontextově specifické reakce nad předem definované kategorie bezpečnosti, otevírají dveře režimu, kde nic lze libovolně označit za škodlivé a v případech, kdy je zjištěn „odrazující účinek“ ad hoc Reálnou možností je stažení nebo negativní překategorizování materiálu (tj. materiálu, který by mohl „urazit“ určitou zájmovou skupinu).

 

 

Papír „Jen zvláštní obrázek“: Hodnocení „bezpečnosti“ v úlohách anotací bezpečnosti obrázků GenAI z pohledu různých anotátorů is k dispozici v Arxivu.

* Zkratka, protože to zde není ústřední téma; podle nové legislativy se od problematických webů očekává, že se buď samy budou hlídat, zavedou složité a drahé kontrolní systémy a technologie pro kontrolu věku, které jsou mimo dosah všech webů kromě těch největších, nebo zablokují své domény před britským publikem (opět na vlastní náklady).

Jednoduše vyjádřeno v memu „myslete na děti“, který satirizuje přivlastňování si morální vůle jiného pro zdánlivě altruistické účely.

 

Poprvé publikováno v pátek 25. července 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí obsahu výzkumu na Metaphysic.ai.
Osobní stránky: martinanderson.ai
Kontakt: [chráněno e-mailem]
Twitter: @manders_ai