Kontakt z nami

Kąt Andersona

Ryzyko związane z adnotacją obrazu opartą na „wibracji”

mm
Klient muzeum zakazanych artefaktów. SDXL; Flux; Flux.1 Kontext; Firefly.

Choć zarabiają zaledwie kilka dolarów (a nawet nic), nieznani ludzie, którzy oceniają obrazy pod kątem „szkodliwych” treści, mogą zmienić Twoje życie swoimi wyborami. Teraz, w obszernym artykule Google, wydaje się, że ci adnotatorzy ustalają własne zasady dotyczące tego, co jest, a co nie jest „szkodliwe” lub obraźliwe – niezależnie od tego, jak dziwaczne lub osobiste mogą być ich reakcje na dany obraz. Co mogłoby pójść nie tak?

 

Opinia W tym tygodniu nowa współpraca między Google Research i Google Mind zgromadziła nie mniej niż 13 współpracowników nowy papier w którym bada się, czy „instynktowne odczucia” osób komentujących obrazy powinny być brane pod uwagę, gdy ludzie oceniają obrazy za pomocą algorytmów, nawet jeśli ich reakcje nie są zgodne z przyjętymi standardami oceniania.

Jest to dla Ciebie ważne, ponieważ to, co oceniający i komentatorzy uznają za obraźliwe na mocy zasady konsensusu, będzie miało tendencję do stawania się częścią automatycznych systemów cenzury i moderacji oraz kryteriów dotyczących materiałów „obscenicznych” lub „niedopuszczalnych” w ustawodawstwie, takim jak nowa zapora NSFW* Wielkiej Brytanii (której wersja jest przyjeżdża do Australii wkrótce) oraz w systemach oceny treści na platformach mediów społecznościowych i w innych środowiskach.

Im szersze kryteria przestępstwa, tym wyższy potencjalny poziom cenzury.

Cenzura wibracji

To nie jest jedyny punkt widzenia, jaki prezentuje nowy artykuł; stwierdza się w nim również, że osoby oceniające obrazy są często bardziej krytyczne w stosunku do tego, co ich zdaniem może kogoś urazić Inne innych osób, a także, że obrazy o niskiej jakości często budzą obawy dotyczące bezpieczeństwa, chociaż jakość obrazu nie ma nic wspólnego z jego treścią.

W zakończeniu artykuł podkreśla te dwa odkrycia, tak jakby centralna część pracy zawiodła, ale badacze i tak byli zobowiązani do opublikowania wyników.

Choć nie jest to niezwykły scenariusz, po uważnej lekturze artykułu można dostrzec bardziej złowieszczy podtekst: praktyki adnotacyjne mogłyby rozważyć przyjęcie tego, co mogę jedynie określić jako adnotacje dotyczące klimatu:

„Nasze odkrycia sugerują, że istniejące ramy oceny muszą uwzględniać wymiary subiektywne i kontekstowe, takie jak reakcje emocjonalne, ukryte osądy i kulturowe interpretacje krzywdy. Częste używanie przez adnotatorów języka emocjonalnego i jego rozbieżność z predefiniowanymi etykietami krzywdy uwypuklają luki w obecnych praktykach ewaluacyjnych.

„Rozszerzenie wytycznych dotyczących adnotacji o ilustrujące przykłady różnorodnych interpretacji kulturowych i emocjonalnych może pomóc w wypełnieniu tych luk”.

Skąpo ilustrowany nowy artykuł rozpoczyna się przykładami, które są jednoznaczne i zrozumiałe dla przeciętnego czytelnika, choć sam materiał źródłowy jest znacznie bardziej niejednoznaczny i rodzi wiele pytań. Pod każdym obrazem widzimy reakcje emocjonalne autorów adnotacji, opisane dla poszczególnych obrazów. Źródło: https://arxiv.org/pdf/2507.16033

Skąpo ilustrowany nowy artykuł rozpoczyna się przykładami, które są jednoznaczne i zrozumiałe dla przeciętnego czytelnika, choć sam materiał źródłowy rodzi znacznie więcej pytań. Pod każdym obrazem widzimy reakcje emocjonalne autorów adnotacji, opisane przy poszczególnych obrazach. Źródło: https://arxiv.org/pdf/2507.16033

Na pierwszy rzut oka brzmi to jak propozycja rozszerzenia zakresu i dokładniejszego określenia, co stanowi „szkodę” na obrazie – godne pochwały dążenie; jednak w artykule kilkakrotnie powtórzono, że nie jest to ani pożądane, ani (koniecznie) wykonalne:

„Nasze odkrycia sugerują, że istniejące ramy oceny muszą uwzględniać wymiary subiektywne i kontekstowe, takie jak reakcje emocjonalne, ukryte osądy i kulturowe interpretacje krzywdy. Częste używanie przez adnotatorów języka emocjonalnego i jego rozbieżność z predefiniowanymi etykietami krzywdy uwypuklają luki w obecnych praktykach ewaluacyjnych.

Rozszerzenie wytycznych dotyczących adnotacji o ilustrujące przykłady różnorodnych interpretacji kulturowych i emocjonalnych może pomóc w wypełnieniu tych luk […]

„[…] Proces, w którym autorzy adnotacji analizują niejednoznaczne obrazy, często odzwierciedla ich osobiste, kulturowe i emocjonalne perspektywy, które trudno ujednolicić lub znormalizować”.

Trudno to zobaczyć „Rozszerzenie wytycznych dotyczących adnotacji o ilustratywne przykłady różnorodnych interpretacji kulturowych i emocjonalnych” można podporządkować racjonalnemu systemowi oceniania; autorzy z trudem wyjaśniają ten punkt lub formułują odrębną teorię, wielokrotnie atakując materiał, ale nigdy nie osiągając przewagi. Pod tym względem sam ich główny temat wydaje się generowany przez „klimat”, nawet jeśli dotyczy nieuchwytnych psychologii.

Mówiąc wprost, wydaje mi się, że rozszerzenie procesu adnotacji o kryteria tego rodzaju potencjalnie umożliwia „anulowanie” lub zaciemnianie dowolnego materiału (lub klasy tematów), na który adnotator mógłby zareagować silnie.

Osąd binarny

Zakres, w jakim obrazy i tekst mogą wyrządzić szkodę, jest rzeczywiście trudny do oszacowania, przede wszystkim dlatego, że wysoka kultura często przecina się z kulturą „niską” (na przykład z sztuka oraz powieści), co doprowadziło do najwcześniejszych kryteriów cenzury opartych na „wibracji”: nawet jeśli obsceniczny materiał wymyka się dokładnej definicji, poznasz to, gdy to zobaczysz.

Pod obszernym i eksploracyjnym omówieniem empatii i jakościowych niuansów w nowym dokumencie, praca ta wydaje się po cichu atakować autorytet scentralizowanych, ustandaryzowanych taksonomii („przemoc”, „nagość”, „nienawiść” itp.), które pozwalają platformom wdrażać i skalować moderację z akceptowalnym marginesem błędu (zazwyczaj).

Nasuwa się argument, że jedynie zdecentralizowana, subiektywna i uwzględniająca kontekst informacja zwrotna od człowieka może właściwie ocenić wyniki GenAI.

Jest to jednak ewidentnie nieskalowalne, ponieważ nie da się uruchomić bilionowego filtra obrazów opartego na „wibracjach” i doświadczeniu. Trzeba skwantyfikować szkodę w odniesieniu do różnych właściwości, ustalić limit zakresu powstałego systemu filtrowania i czekać na nowe dyrektywy w „skrajnych” przypadkach (podobnie jak strony poszkodowane muszą czasami czekać na uchwalenie nowych przepisów, które uwzględniają ich własne, specyficzne okoliczności).

Zamiast tego nowy dokument przedstawia milczące zalecenie dotyczące zautomatyzowanego procesu moderacji, który rozszerza swój zakres automatyczniei jest tak daleko posunięty w stronę ostrożności, że nawet najbardziej szczegółowa i niepowtarzalna reakcja autora komentarza może skutkować karą za obraz, który nikogo innego nie uraził.

Ekspansja moralna

Chociaż artykuł ma charakter eksploracyjny, a nie stanowi zdecydowanego stanowiska, zawiera elementy metody naukowej: autorzy opracowali ramy umożliwiające identyfikację (choć nie do końca pomiar) szerszego spektrum reakcji autorów na obrazy oraz zbadanie, w jaki sposób te reakcje różnią się w zależności od płci i innych czynników demograficznych.

Oprócz analizy testów skupienie się na szkodzieW ramach procesu analizowano „rozumowanie moralne” w dodatkowych komentarzach uczestników testu, których poproszono o dokonanie adnotacji do zmodyfikowanego zestawu danych testowych zawierającego obrazy i podpowiedzi/powiązane teksty.

Ten „autor uczuć moralnych” został zaprojektowany w celu uchwycenia wartości moralnych Opieka, Równość, Proporcjonalność, Lojalność, Autorytet, Czystość, zgodnie z definicją w Teoria podstaw moralnych – teoria psychologiczna, która ze względu na swoją płynną i ewolucyjną naturę jest sprzeczna z tworzeniem konkretnych definicji wymaganych w przypadku systemów oceniania ludzi na szeroką skalę.

Opierając się na tej teorii, autorzy dokonali kategoryzacji dodatkowych wymiarów bezpieczeństwa, w tym: strach, złość, smutek, niesmak, zamieszanie, niesamowitość.

Autorzy szczegółowo omawiają pierwszy z nich, strach:

Wielu autorów używało takich określeń jak „straszny” (np. w odniesieniu do zniekształconych twarzy lub obrazów sugerujących przemoc, np. pistoletu wycelowanego w dziecko), „niepokojący” (np. „Absolutnie obrzydliwy jest widok kogoś przejechanego, bardzo niepokojący i niepokojący” lub „Niepokojący i wyglądający jak krew” w odniesieniu do czerwonej farby) lub „niepokojący” (np. „Zdjęcie chłopca ma wiele zniekształceń… Uważam je za niesmaczne, ponieważ wygląda na to, że chłopiec bawi się po złej stronie bocznych barierek”).

„[Poniższy wykres] pokazuje, że „strach” jest najczęściej wymienianą emocją (233 wzmianki, z czego prawie połowa dotyczyła treści związanych z przemocą, a treści uznane za nieszkodliwe również wywołały drugą najczęściej wymienianą emocję strachu).”

Rozkład terminów związanych z emocjami w poszczególnych kategoriach szkód, gdzie wysokość słupków wskazuje proporcje komentarzy, liczby wyświetlane na słupkach oraz łączna liczba komentarzy wyświetlana jest nad każdą kategorią.

Rozkład terminów związanych z emocjami w poszczególnych kategoriach szkód, gdzie wysokość słupków wskazuje proporcje komentarzy, liczby wyświetlane na słupkach oraz łączna liczba komentarzy wyświetlana jest nad każdą kategorią.

Odnosząc się do uwzględnienia tych nowych wymiarów bezpieczeństwa, autorzy stwierdzają:

„Te nowe zagadnienia podkreślają pilną potrzebę wzbogacenia ram oceny obrazu przy użyciu sztucznej inteligencji poprzez integrację elementów subiektywnych, emocjonalnych i percepcyjnych”.

Może to być niebezpieczna droga, ponieważ wydaje się, że pozwala ona procesom adnotacji na dowolne dodawanie reguł w oparciu o reakcje, jakie materiał może wywołać w dowolnym pojedynczym adnotatorze, zamiast wymagać cała kolekcja adnotatorów, aby przestrzegali ustalonych standardów i punktów odniesienia.

Jeśli można by przypisać tej idei jakiś imperatyw ekonomiczny, to taki, że takie podejście pozwala hiperskalowa adnotacja ludzka, w którym proces przebiega bez tarć, uczestnicy sami regulują swoje działania i sami decydują, jakie są zasady i granice.

W przypadku standardowych adnotacji reguły są ustalane na drodze konsensusu ludzkiego, a ich przestrzegania przestrzegają adnotatorzy. W scenariuszu opisanym w artykule ta początkowa warstwa nadzoru jest usuwana lub obniżana: w efekcie każdy obraz, który mógłby kogokolwiek urazić, zostałby oznaczony (choćby dlatego, że konsensus jest kosztowny i czasochłonny).

Wyroki Rorschacha

Celem adnotacji jest uzyskanie dokładnego opisu lub definicji poprzez nadzór ekspercki, powszechny konsensus wśród wielu adnotatorów lub (najlepiej) oba te czynniki. Zamiast tego, rozszerzenie ograniczonej, ale dobrze zdefiniowanej hierarchii szkód do „intuicyjnego” i wysoce osobistego stanowiska interpretacyjnego jest równoznaczne z adnotacją testu Rorschacha.

Na przykład niektórzy adnotatorzy, w notatkach papierowych, interpretowali słabą jakość obrazu (np. Artefakty JPEG, a także bezsensowne wady techniczne obrazu) jako 'niepokojący' or „wskazujący na szkodę”:

Stało się tak pomimo pominięcia instrukcji dotyczących jakości obrazu w zadaniu. Co więcej, adnotatorzy zinterpretowali te artefakty jakości jako semantycznie znaczące.

Jeden z adnotatorów skomentował: „Zdjęcie w ogóle nie jest szkodliwe; ma tylko lekko zniekształconą twarz”. Z drugiej strony, niektórzy adnotatorzy interpretowali artefakty jakości obrazu jako celowe działanie, przypisując błędom znaczenie emocjonalne. Na przykład, inny adnotator zinterpretował zniekształconą twarz na innym zdjęciu jako „wskazującą na ból”.

Podnosząc subiektywne, emocjonalne lub specyficzne dla kontekstu reakcje ponad wstępnie zdefiniowane kategorie bezpieczeństwa, przedstawione tutaj pomysły otwierają drzwi do reżimu, w którym wszystko mogą być arbitralnie oznaczane jako szkodliwe i gdzie występuje „efekt mrożący” doraźnie usuwanie lub negatywna rekategoryzacja materiałów (czyli materiałów, które mogą „obrażać” jakąś grupę interesów) staje się realną perspektywą.

 

 

Papier „Po prostu dziwne zdjęcie”: ocena „bezpieczeństwa” w zadaniach adnotacji bezpieczeństwa obrazu GenAI z perspektywy różnych adnotatorów is dostępne w Arxiv.

* To skrót, ponieważ nie jest to główny temat tego artykułu. Zgodnie z nowymi przepisami, witryny naruszające zasady muszą albo same się kontrolować, albo wdrożyć skomplikowane i kosztowne systemy recenzji oraz technologie sprawdzania wieku, które są niedostępne dla wszystkich oprócz największych witryn, albo zablokować swoje domeny brytyjskim odbiorcom (ponownie, na własny koszt).

Można to wyrazić w prosty sposób za pomocą memu „pomyśl o dzieciach”, który satyrycznie wyraża przywłaszczanie sobie cudzej moralności w celu osiągnięcia pozornie altruistycznych celów.

 

Pierwsze opublikowanie w piątek, 25 lipca 2025 r.

Autor tekstów o uczeniu maszynowym, specjalista domenowy w syntezie obrazów ludzkich. Były szef treści badawczych w Metaphysic.ai.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai