Unghiul lui Anderson

Riscurile annotării bazate pe “vibe” a imaginilor

mm
A patron in the museum of banned artifacts. SDXL; Flux; Flux.1 Kontext; Firefly.

Chiar dacă sunt plătiți doar cu câteva dolari (sau chiar deloc), oamenii necunoscuți care evaluează imagini pentru conținut “dăunător” pot schimba viața ta cu alegerile pe care le fac. Acum, o nouă lucrare amplă de la Google pare să sugereze că acești annotatori își creează propriile reguli pentru a decide ce este sau nu “dăunător” sau ofensator – indiferent cât de ciudate sau personale ar fi reacțiile lor la orice imagine. Ce ar putea merge prost?

 

Opinie În această săptămână, o nouă colaborare între Google Research și Google Mind a adus împreună nu mai puțin de 13 contribuitori la o nouă lucrare care explorează dacă “sentimentele instinctive” ale annotatorilor de imagini ar trebui luate în considerare atunci când oamenii evaluează imagini pentru algoritmi, chiar dacă reacțiile lor nu se potrivesc cu standardele de evaluare stabilite.

Acest lucru este important pentru tine, deoarece ceea ce găsesc evaluatorii și annotatorii ofensator prin consens va tend să devină înscris în sistemele automate de cenzură și moderare, și în criteriile pentru material “obscen” sau “inacceptabil”, în legislația precum noua barieră NSFW* din Regatul Unit (o versiune a căreia urmează să apară în curând în Australia), și în sistemele de evaluare a conținutului pe platformele de socializare, printre alte medii.

Așa că, cu cât criteriile de ofensă sunt mai largi, cu atât potențialul de cenzură este mai mare.

Cenzura bazată pe “vibe”

Acesta nu este singurul punct de vedere pe care îl oferă noua lucrare; ea mai găsește și că oamenii care evaluează imagini sunt adesea mai cenzuroși la ceea ce cred că ar putea ofensa alți oameni, în afara lor înșiși; și că imaginile de calitate scăzută provoacă adesea preocupări legate de siguranță, deși calitatea imaginii nu are nimic de-a face cu conținutul ei.

La concluzia lucrării, aceasta subliniază aceste două constatări, ca și cum poziția centrală a lucrării ar fi eșuat, dar cercetătorii ar fi fost obligați să publice oricum.

Deși acesta nu este un scenariu neobișnuit, lucrarea oferă, la o citire atentă, o tendință mai sinistră: că practicile de annotare ar putea considera adoptarea a ceea ce pot numi annotare bazată pe “vibe”:

‘Rezultatele noastre sugerează că cadrele existente trebuie să țină cont de dimensiunile subiective și contextuale, cum ar fi reacțiile emoționale, judecățile implicite și interpretările culturale ale dăunătorului. Utilizarea frecventă a limbajului emoțional de către annotatori și divergența lor de la etichetele predefinite de dăunător subliniază lacunele în practicile actuale de evaluare.

‘Extinderea ghidurilor de annotare pentru a include exemple ilustrative de interpretări culturale și emoționale diverse poate ajuta la soluționarea acestor lacune.’

Noua lucrare, slab ilustrată, începe cu exemple care sunt neambigue și simpatice pentru cititorul mediu, deși materialul de bază real este mult mai ambiguu și invită la multe întrebări. Aici, sub fiecare imagine, vedem răspunsurile emoționale ale annotatorilor notate pentru imaginile respective. Sursă: https://arxiv.org/pdf/2507.16033

Noua lucrare, slab ilustrată, începe cu exemple care sunt neambigue și simpatice pentru cititorul mediu, deși materialul de bază real invită la multe întrebări. Aici, sub fiecare imagine, vedem răspunsurile emoționale ale annotatorilor notate pentru imaginile respective. Sursă: https://arxiv.org/pdf/2507.16033

La prima vedere, acest lucru pare a fi o propunere de a extinde și a cuantifica mai bine ceea ce constituie “dăunător” într-o imagine – o urmărire lăudabilă; dar lucrarea repetă de mai multe ori că acest lucru nu este nici dorit, nici (necesar) fezabil:

‘Rezultatele noastre sugerează că cadrele existente trebuie să țină cont de dimensiunile subiective și contextuale, cum ar fi reacțiile emoționale, judecățile implicite și interpretările culturale ale dăunătorului. Utilizarea frecventă a limbajului emoțional de către annotatori și divergența lor de la etichetele predefinite de dăunător subliniază lacunele în practicile actuale de evaluare.

‘Extinderea ghidurilor de annotare pentru a include exemple ilustrative de interpretări culturale și emoționale diverse poate ajuta la soluționarea acestor lacune […]

‘[…] Procesul prin care annotatorii raționează despre imagini ambigue adesea reflectă perspectivele lor personale, culturale și emoționale, care sunt greu de structurat sau standardizat.’

Este greu de văzut cum ‘Extinderea ghidurilor de annotare pentru a include exemple ilustrative de interpretări culturale și emoționale diverse’ poate fi integrat într-un sistem de evaluare rațional; autorii se luptă să clarifice acest punct sau să formuleze o teorie distinctă, atacând materialul de mai multe ori, dar niciodată reușind să-l depășească. În acest sens, tema centrală a lucrării pare a fi “generată de vibe”, chiar dacă se ocupă de psihologii intangibile.

Simplu spus, pare a fi că extinderea pipeline-ului de annotare pentru a include criterii de acest fel ar putea permite “anularea” sau ofuscarea oricărui material (sau clase de subiecte) pe care un annotator l-ar putea reacționa puternic.

Judecată binară

Măsura în care imaginile și textele pot provoca dăunător este, într-adevăr, dificil de cuantificat, nu în ultimul rând pentru că cultura înaltă se intersectează adesea cu “cultură joasă” (de exemplu, cu arta și romanele), ducând la primele criterii de cenzură bazate pe “vibe”: chiar dacă materialul obscen scapă de definiția exactă, vei ști când vei vedea.

Sub discuția extinsă și exploratorie a lucrării despre empatie și nuanță calitativă, lucrarea pare a ataca în mod tacit autoritatea taxonomiilor centralizate și standardizate (‘violență’, ‘nuditate’, ‘ură’, etc.) care permit platformelor să implementeze și să scaleze moderarea cu marje de eroare tolerabile (de obicei).

Argumentul care apare este că doar feedback-ul uman subiectiv, contextual și conștient poate judeca în mod corespunzător ieșirile GenAI.

În orice caz, acest lucru este în mod evident inescalabil, deoarece nu poți rula un filtru de imagini de trilion pe “vibe” și experiență trăită. Trebuie să cuantifici dăunătorul în proprietăți diverse; să stabilești o limită pentru domeniul de aplicare a sistemului de filtrare rezultat; și să aștepți noi directive în “cazuri marginale” (la fel cum părțile lezate trebuie uneori să aștepte promulgarea unor legi noi care să abordeze circumstanțele lor specifice).

În schimb, noua lucrare prezintă un mandat tacit pentru un pipeline de moderare automată care își extinde domeniul de aplicare automat, și greșește atât de mult în favoarea prudenței, încât chiar și cea mai particulară și nerepetabilă reacție din partea unui annotator ar putea penaliza o imagine care nu a ofensat pe nimeni altcineva.

Extinderea morală

Deși lucrarea se înclinează mai mult spre explorare decât spre adoptarea unei poziții ferme, ea incorporează elemente de metodă științifică: autorii au dezvoltat un cadru pentru a identifica (chiar dacă nu în mod strict măsurabil) un spectru mai larg de reacții ale annotatorilor la imagini, și pentru a examina modul în care aceste reacții variază în funcție de gen și alte factori demografici.

Pe lângă analiza testelor axate pe dăunător, procesul a analizat “raționamentul moral” în comentariile auxiliare ale participanților la test, care au fost rugați să anoteze un set de teste modificate care conțineau imagini și texte asociate.

Acest “autorator de sentimente morale” a fost proiectat pentru a captura valorile morale Îngrijire, Egalitate, Proporționalitate, Loialitate, Autoritate, și Puritate, așa cum sunt definite în Teoria Fundațiilor Morale – o teorie psihologică care, datorită naturii sale fluide și evolutive, este antitetică creării definițiilor concrete necesare pentru sistemele de evaluare umană la scară largă.

Informată de această teorie, autorii au categorisit dimensiuni suplimentare de siguranță, inclusiv frica, furie, tristețe, dezgust, confuzie, și ciudățenie.

Autorii detaliază despre prima dintre acestea, frica:

‘Mulți annotatori au folosit termeni ca “înfricoșător” (de exemplu, pentru fețe distorsionate sau imagini care sugerează violență, cum ar fi un pistol îndreptat către un copil), “deranjant” (de exemplu, “Absolut oribil de văzut pe cineva lovit, foarte deranjant și înfricoșător”, sau “Deranjant și pare a fi sânge” pentru vopsea roșie), sau “înfricoșător” (de exemplu, “Imaginea băiatului are multe distorsionări… Îl găsesc neplăcut pentru că pare că băiatul se joacă pe partea greșită a barelor de siguranță”).

‘[Graficul de mai jos] cuantifică “frica” ca emoția menționată cel mai frecvent (233 de menționări, în timp ce aproape jumătate dintre aceste menționări sunt asociate cu conținut violent, conținutul considerat nepericulos a evocat, de asemenea, cea mai mare menționare a fricii).’

Distribuția termenilor legați de emoții în categoriile de dăunător, cu înălțimi de bare care indică proporțiile de comentarii, numărătoare afișate în bare și numărătoare totale de comentarii afișate deasupra fiecărei categorii.

Distribuția termenilor legați de emoții în categoriile de dăunător, cu înălțimi de bare care indică proporțiile de comentarii, numărătoare afișate în bare și numărătoare totale de comentarii afișate deasupra fiecărei categorii.

În ceea ce privește includerea acestor noi dimensiuni de siguranță, autorii afirmă:

‘Aceste teme emergente subliniază o nevoie critică de a îmbogăți cadrele de evaluare a imaginilor AI prin integrarea elementelor subiective, emoționale și perceptive.’

Acest lucru poate fi un drum periculos de urmat, deoarece pare să permită proceselor de annotare să adauge reguli arbitrare pe baza reacțiilor pe care materialul le-ar putea provoca la orice annotator, în loc de a cere toți annotatorilor să respecte standarde și repere stabilite.

Dacă ar putea fi atribuit un imperativ economic acestei idei, este acela că această abordare permite annotarea umană hiperscalabilă, în care procesul este fără fricțiuni, participanții sunt autoreglementați, și ei înșiși decid ce sunt regulile și limitele.

Sub annotarea standard, regulile sunt stabilite prin consens uman și respectate de către annotatorii umani; sub scenariul imaginat în lucrare, acel strat inițial de supraveghere este fie eliminat, fie degradat: efectiv, orice imagine care ar putea ofensa pe oricine ar fi marcată (nu în ultimul rând, poate, pentru că consensul este costisitor, precum și consumator de timp).

Judecăți Rorschach

Scopul annotării este de a ajunge la o descriere sau definiție precisă, fie prin supraveghere expertă, fie prin consens comun printre mai mulți annotatori, sau (ideal) ambele. În schimb, extinderea unei ierarhii limitate, dar bine definite a dăunătorului, într-o poziție interpretativă “intuitivă” și foarte personală, este echivalentă cu annotarea unui test Rorschach.

De exemplu, unii annotatori, conform lucrării, au interpretat calitatea slabă a imaginii (cum ar fi artefactele JPEG, precum și defecte tehnice lipsite de sens într-o imagine) ca ‘deranjant’ sau ‘indicativ de dăunător’:

‘Acest lucru s-a întâmplat, deși sarcina a omis instrucțiunile cu privire la calitatea imaginii. Mai mult, annotatorii au interpretat aceste artefacte de calitate ca fiind semnificative din punct de vedere semantic.

‘Un annotator a comentat: “Imaginea nu este deloc dăunătoare; el are doar o față ușor distorsionată.” În același mod, unii annotatori au interpretat artefactele de calitate ale imaginii ca dăunător intenționat, atribuind o semnificație emoțională glitch-urilor. De exemplu, un alt annotator a interpretat o față distorsionată într-o altă imagine ca fiind “indicativ de durere”’

Prin ridicarea reacțiilor subiective, emoționale sau contextuale deasupra categoriilor de siguranță predefinite, ideile prezentate aici deschid calea către un regim în care orice poate fi marcat arbitrar ca dăunător, și în care un “efect de răcire” al înlăturărilor ad-hoc sau recategorizării negative a materialului (de exemplu, material care ar putea “ofensa” un grup de interes special) devine o perspectivă reală.

 

 

Lucrarea “Doar o poză ciudată”: Evaluarea “siguranței” în sarcinile de annotare a imaginilor GenAI din perspective diverse ale annotatorilor este disponibilă la Arxiv.

* O scurtătură, deoarece nu este subiectul central aici; sub noua legislație, site-urile ofensatoare sunt așteptate să fie fie autopolice, să impună sisteme complexe și scumpe de revizuire și tehnologii de verificare a vârstei, care sunt inaccesibile tuturor, cu excepția celor mai mari site-uri; sau să blocheze domeniile lor pentru publicul din Regatul Unit (din nou, la propriile lor cheltuieli).

Exprimat simplu în meme-ul “gândește-te la copii”, care satirizează aproprierea agenției morale a altcuiva pentru scopuri aparent altruiste.

 

Publicat pentru prima dată vineri, 25 iulie 2025

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.