Unghiul lui Anderson

Riscurile adnotării imaginilor bazate pe „Vibe”

Publicat Iulie 25, 2025

Martin Anderson

Un patron în muzeul artefactelor interzise. SDXL; Flux; Flux.1 Kontext; Firefly.

Chiar dacă sunt plătiți doar cu câțiva dolari (sau chiar nimic), persoanele necunoscuți care evaluează imaginile pentru conținut „dăunător” îți pot schimba viața prin alegerile pe care le fac. Acum, un nou studiu important de la Google pare să sugereze că acești adnotatori își creează propriile reguli cu privire la ce este sau nu „dăunător” sau ofensator - indiferent cât de bizare sau personale ar putea fi reacțiile lor la o anumită imagine. Ce ar putea merge prost?

Opinie Săptămâna aceasta, o nouă colaborare între Google Research și Google Mind a reunit nu mai puțin de 13 contribuitori la... o hârtie nouă care explorează dacă „sentimentele instinctive” ale adnotatorilor de imagini ar trebui luate în considerare atunci când oamenii evaluează imagini pentru algoritmi, chiar dacă reacțiile lor nu sunt în conformitate cu standardele de evaluare stabilite.

Acest lucru este important pentru dumneavoastră, deoarece ceea ce evaluatorii și adnotatorii consideră ofensator conform regulii consensului va tinde să fie consacrat în sistemele automate de cenzură și moderare și în criteriile pentru materiale „obscene” sau „inacceptabile”, în legislație precum... nou firewall NSFW* din Regatul Unit (o versiune a căreia este venind in Australia în curând) și în sistemele de evaluare a conținutului pe platformele de socializare, printre alte medii.

Așadar, cu cât criteriile pentru ofensă sunt mai ample, cu atât nivelul potențial de cenzură este mai larg.

Vibe-Cenzură

Acesta nu este singurul punct de vedere oferit de noul studiu; acesta constată, de asemenea, că persoanele care evaluează imaginile sunt adesea mai cenzure în ceea ce privește ceea ce cred că va ofensa. alte alte persoane în afară de ei înșiși; și că imaginile de calitate scăzută ridică adesea probleme de siguranță, chiar dacă calitatea imaginii nu are nicio legătură cu conținutul imaginii.

În concluzie, lucrarea subliniază aceste două descoperiri, ca și cum poziția centrală a lucrării ar fi eșuat, dar cercetătorii ar fi fost obligați să publice oricum.

Deși nu este un scenariu neobișnuit, lucrarea, după o lectură atentă, dezvăluie un curent subteran și mai sinistru: practicile de adnotare ar putea lua în considerare adoptarea a ceea ce pot descrie doar ca fiind adnotarea vibrațiilor:

„Constatările noastre sugerează că cadrele existente trebuie să ia în considerare dimensiunile subiective și contextuale, cum ar fi reacțiile emoționale, judecățile implicite și interpretările culturale ale prejudiciului. Utilizarea frecventă a limbajului emoțional de către adnotatori și abaterea lor de la etichetele predefinite ale prejudiciului evidențiază lacunele din practicile actuale de evaluare.”

„Extinderea ghidurilor de adnotare pentru a include exemple ilustrative de interpretări culturale și emoționale diverse poate ajuta la abordarea acestor lacune.”

Noua lucrare, cu ilustrații insuficiente, introduce exemple lipsite de ambiguitate și accesibile cititorului obișnuit, deși materialul central este mult mai ambiguu și ridică mult mai multe întrebări. Aici, sub fiecare imagine, vedem răspunsurile emoționale ale adnotatorilor, indicate pentru imaginile respective. Sursa: https://arxiv.org/pdf/2507.16033

Noua lucrare, cu ilustrații insuficiente, introduce exemple lipsite de ambiguitate și care sunt potrivite pentru cititorul obișnuit, deși materialul principal ridică mult mai multe întrebări. Aici, sub fiecare imagine, vedem răspunsurile emoționale ale adnotatorilor, indicate pentru imaginile respective. Sursa: https://arxiv.org/pdf/2507.16033

La început, aceasta sună ca o propunere de a extinde și de a cuantifica mai bine ce constituie „dăunător” într-o imagine – o încercare lăudabilă; dar lucrarea reiterează de mai multe ori că acest lucru nu este nici de dorit, nici (neapărat) fezabil:

„Extinderea ghidurilor de adnotare pentru a include exemple ilustrative de interpretări culturale și emoționale diverse poate ajuta la abordarea acestor lacune […]”

„[…] Procesul prin care adnotatorii raționează asupra imaginilor ambigue reflectă adesea perspectivele lor personale, culturale și emoționale, care sunt dificil de structurat sau standardizat.”

Este greu de văzut cum „Extinderea ghidurilor de adnotare pentru a include exemple ilustrative de interpretări culturale și emoționale diverse” se poate încadra într-un sistem rațional de evaluare; autorii se luptă să clarifice acest punct sau să formuleze o teorie distinctă, atacând materialul de multe ori, dar fără a-l stăpâni niciodată. În acest sens, tema lor centrală însăși pare generată de „vibrații”, chiar dacă se ocupă de psihologii intangibile.

Simplu spus, mi se pare că extinderea canalului de adnotare pentru a include criterii de acest tip permite potențial „anularea” sau ofuscarea oricărui material (sau clasă de subiecte) la care un adnotator ar putea reacționa puternic.

Judecata binară

Măsura în care imaginile și textul pot cauza daune este într-adevăr dificil de cuantificat, nu în ultimul rând pentru că cultura înaltă se intersectează adesea cu cultura „inferioară” (de exemplu, cu artă și romane), ceea ce a dus la cele mai vechi criterii de cenzură bazate pe „vibrații”: chiar dacă materialul obscen nu se încadrează în definiția exactă, veți recunoaște-l când îl vezi.

Dincolo de discuția extinsă și exploratorie a empatiei și nuanțelor calitative din noul articol, lucrarea pare să atace discret autoritatea taxonomiilor centralizate, standardizate („violență”, „nuditate”, „ură” etc.) care permit platformelor să implementeze și să scaleze moderarea cu marje de eroare tolerabile.obișnuit).

Argumentul care reiese este că doar feedback-ul uman descentralizat, subiectiv și conștient de context poate evalua în mod corect rezultatul GenAI.

Totuși, acest lucru este în mod clar nescalabil, deoarece nu poți rula o conductă de filtrare de trilioane de imagini pe baza „vibrațiilor” și a experiențelor trăite. Trebuie cuantificată prejudiciul în diverse proprietăți; stabilită o limită a domeniului de aplicare al sistemului de filtrare rezultat; și așteptată noi directive în cazurile „limită” (la fel cum părțile prejudiciate trebuie uneori să aștepte adoptarea unor noi legi care să abordeze propriile lor circumstanțe specifice).

În schimb, noua lucrare prezintă un mandat tacit pentru o conductă de moderare automată care îi extinde domeniul de aplicare. în mod automatși greșește atât de mult din partea precauției încât chiar și cea mai particulară și ireproductibilă reacție a unui adnotator ar putea penaliza o imagine care nu a ofensat pe nimeni altcineva.

Expansiune morală

Deși lucrarea se înclină mai degrabă spre explorare decât spre o poziție fermă, ea încorporează elemente ale metodei științifice: autorii au dezvoltat un cadru pentru a identifica (deși nu pentru a măsura strict) un spectru mai larg de reacții ale adnotatorilor la imagini și pentru a examina modul în care aceste reacții variază în funcție de sex și de alți factori demografici.

Pe lângă analiza testelor concentrare pe rău^†Procesul a analizat „raționamentul moral” din comentariile auxiliare ale participanților la test, cărora li s-a cerut să adnoteze un set de date de test modificat care conținea imagini și sugestii/texte asociate.

Acest „autorizator de sentimente morale” a fost conceput pentru a surprinde valorile morale Grijă, Egalitate, Proporționalitate, Loialitate, Autoritate și Puritate, așa cum este definit în Teoria fundamentelor morale – o teorie psihologică care, datorită naturii sale fluide și evolutive, este antitetică creării definițiilor concrete necesare pentru sistemele umane de evaluare la scară largă.

Pe baza acestei teorii, autori au clasificat dimensiuni suplimentare ale siguranței, inclusiv frică, furie, tristeţe, dezgust, confuzie și stranietate.

Autorii detaliază prima dintre acestea, frică:

„Mulți adnotatori au folosit termeni precum «înfricoșător» (de exemplu, pentru fețe distorsionate sau imagini care sugerează violență, precum o armă îndreptată spre un copil), «tulburător» (de exemplu, «Absolut oribil să vezi pe cineva lovit cu mașina, foarte tulburător și tulburător» sau «Tulburător și arată ca sângele» pentru vopsea roșie) sau «supărător» (de exemplu, «Imaginea băiatului are multe distorsiuni... Mi se pare dezgustătoare pentru că pare că băiatul se joacă pe partea greșită a balustradelor»).”

„[Graficul de mai jos] cuantifică «frica» ca fiind emoția cea mai frecvent menționată (233 de mențiuni, în timp ce aproape jumătate dintre aceste mențiuni sunt asociate cu conținut violent, conținutul considerat nedăunător a evocat, de asemenea, a doua cea mai mare menționare a fricii).”

Distribuția termenilor legați de emoții în categoriile de prejudiciu, înălțimile barelor indicând proporțiile comentariilor, numărul afișat în cadrul barelor și numărul total de comentarii afișat deasupra fiecărei categorii.

În ceea ce privește includerea acestor noi dimensiuni ale siguranței, autorii afirmă:

„Aceste teme emergente evidențiază o nevoie critică de a îmbogăți cadrele de evaluare a imaginilor bazate pe inteligență artificială prin integrarea elementelor subiective, emoționale și perceptive.”

Aceasta poate fi o cale periculoasă, deoarece pare să permită proceselor de adnotare să adauge arbitrar reguli bazate pe reacțiile pe care materialul le poate provoca în orice adnotator, în loc să solicite toate adnotatorii să respecte standardele și reperele stabilite.

Dacă s-ar putea atribui acestei idei un imperativ economic, acesta ar fi acela că această abordare permite adnotare umană la hiperscală, în care procesul este lipsit de fricțiuni, participanții se autoreglează și în care ei înșiși decid care sunt regulile și limitele.

În cadrul adnotării standard, regulile sunt stabilite prin consens uman și sunt respectate de adnotatorii umani; în scenariul avut în vedere în lucrare, acel nivel inițial de supraveghere este fie eliminat, fie retrogradat: practic, orice imagine care ar putea ofensa pe cineva ar fi semnalată (nu în ultimul rând, poate, pentru că consensul este costisitor, precum și consumator de timp).

Judecățile Rorschach

Intenția adnotării este de a ajunge la o descriere sau definiție exactă fie prin supravegherea unui expert, fie prin consens comun între mai mulți anotatori, fie (în mod ideal) ambele. În schimb, extinderea unei ierarhii limitate, dar bine definite, a prejudiciilor într-o poziție interpretativă „intuitivă” și extrem de personală este echivalentă cu adnotarea unui test Rorschach.

De exemplu, unii adnotatori, notează lucrarea, au interpretat o calitate slabă a imaginii (cum ar fi Artefacte JPEG, precum și defecte tehnice fără semnificație într-o imagine) ca „tulburător” or „indicator de vătămare”:

„Acest lucru s-a întâmplat în ciuda faptului că sarcina a omis instrucțiunile privind calitatea imaginii. Mai mult, adnotatorii au interpretat aceste artefacte de calitate ca fiind semnificative din punct de vedere semantic.”

„Un adnotator a comentat: «Imaginea nu este deloc dăunătoare; are doar o față puțin distorsionată.» În același mod, unii adnotatori au interpretat artefactele calității imaginii drept vătămări intenționate, atribuind o semnificație emoțională erorilor. De exemplu, un alt adnotator a interpretat o față distorsionată într-o altă imagine ca fiind «un indiciu de durere»”

Prin ridicarea reacțiilor subiective, emoționale sau specifice contextului deasupra categoriilor de siguranță predefinite, ideile prezentate aici deschid ușa către un regim în care nimic poate fi marcat arbitrar ca fiind dăunător și unde un „efect de descurajare” al ad-hoc Eliminarea sau recategorizarea negativă a materialelor (de exemplu, materiale care ar putea „ofensa” un grup de interese speciale) devine o perspectivă reală.

Hârtia „Doar o imagine ciudată”: Evaluarea „siguranței” în sarcinile de adnotare a siguranței imaginilor GenAI din perspectivele diverșilor adnotatori is disponibil la Arxiv.

* O scurtătură, deoarece nu este subiectul central aici; conform noii legislații, site-urile care încalcă regulile sunt așteptate fie să se auto-supravegheze, fie să impună sisteme complexe și costisitoare de revizuire și tehnologii de verificare a vârstei, care sunt inaccesibile doar site-urilor mai mari, fie să le blocheze domeniile pentru publicul din Regatul Unit (din nou, pe cheltuiala lor).

† Pur și simplu exprimat în meme-ul „gândește-te la copii”, care satirizează însușirea agenției morale a altuia în scopuri aparent altruiste.

Publicat pentru prima dată vineri, 25 iulie 2025

Urmeaza

Aur lovit cu AI

Nu ratați

De la argint la aur: Cum a cucerit inteligența artificială a DeepMind olimpiada de matematică

Martin Anderson

Scriitor pe machine learning, specialist în domeniul sintezei imaginilor umane. Fost șef de conținut de cercetare la Metaphysic.ai.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai

Unite.AI

Riscurile adnotării imaginilor bazate pe „Vibe”

Vibe-Cenzură

Judecata binară

Expansiune morală

Judecățile Rorschach

Ar putea să îți placă