Kąt Andersona

Iluzja „Pobierz więcej etykiet!” w badaniach nad sztuczną inteligencją

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Powszechny pogląd w obecnych badaniach nad uczeniem maszynowym mówi, że samo uczenie maszynowe może być wykorzystane do poprawy jakości adnotacji zbiorów danych sztucznej inteligencji – w szczególności podpisów obrazów przeznaczonych do użycia w modelach języka i wizji (VLM). Taki sposób myślenia jest napędzany przez wysoki koszt adnotacji wykonanych przez ludzi oraz dodatkowe obciążenie nadzorowania wydajności adnotatorów.

Można argumentować, że jest to odpowiednik sztucznej inteligencji wczesnych lat 2000. memy „pobierz więcej pamięci RAM”, który satyryzował pogląd, że ograniczenia sprzętowe można rozwiązać za pomocą rozwiązania opartego na oprogramowaniu.

Jest to również pomijana kwestia; podczas gdy nowe modele sztucznej inteligencji przyciągają szerokie zainteresowanie w sferach publicznej i komercyjnej, adnotacja często wydaje się trywialnym szczegółem w potokach uczenia maszynowego, przyćmionym przez entuzjazm wokół szerszych ram.

W rzeczywistości zdolność systemów uczenia maszynowego do rozpoznawania i odtwarzania wzorców (kluczowy przypadek użycia niemal wszystkich systemów sztucznej inteligencji) zależy od jakości i spójności adnotacji z świata rzeczywistego – etykiet i fraz, które są tworzone lub zatwierdzane przez ludzi, często podejmujących subiektywne decyzje dotyczące poszczególnych punktów danych w nieoptymalnych okolicznościach.

Nieuchronnie, systemy, które starają się obserwować i odtwarzać wzorce w zachowaniu adnotatorów (i tym samym zastąpić adnotatorów ludzkich oraz ułatwić dokładne etykietowanie w dużym stopniu) nie mogą liczyć na dobre wyniki w danych nie zawartych w przykładach pobranych od obserwatorów ludzkich. Nic „podobnego” nie jest takie samo, a równoważność między domenami pozostaje problematicznym celem w komputerowym widzeniu.

„Górna część danych” musi się gdzieś zakończyć, a w tym przypadku kończy się dokładnie tam – z ludzkim móżdżkiem, który dokonuje pewnego rodzaju subiektywnego rozróżnienia w celu zakodowania danych dla sztucznego systemu.

Handel RAG

Aż do niedawna nieścisłości wynikające z niedostatecznie opracowanych adnotacji zbiorów danych były być może uważane za akceptowalne szkody uboczne w kontekście niedoskonałych, ale nadal rynkowych wyników uzyskanych z systemów sztucznej inteligencji generatywnej.

W rzeczywistości dopiero w tym roku badanie z Singapuru stwierdziło, że halucynacje – czyli sytuacje, w których systemy sztucznej inteligencji wymyślają rzeczy, które podważają nasze intencje – są nieuniknione i związane z konceptualną architekturą takich systemów.

W celu przeciwdziałania temu agenci oparci na RAG – którzy mogą „zweryfikować” fakty za pomocą wyszukiwań w Internecie – stają się popularni w badaniach i komercyjnych rozwiązaniach. Jednak dodają one do kosztu zasobów i opóźnień w zapytaniach; ponadto nowe informacje zastosowane w przeszkolonym modelu nie mogą konkurować z bardziej złożonymi i głęboko splecionymi połączeniami, które charakteryzują warstwy rodzime w przeszkolonym modelu.

Byłoby więc lepiej, gdyby dane adnotacji, które informują te modele, były znacznie mniej wadliwe od początku, nawet jeśli nie mogą być idealne (nie tylko dlatego, że ta aktywność wkroczyła w sferę subiektywności człowieka).

RePOPE

Nowy artykuł z Niemiec podkreśla problemy wynikające z polegania na starszych, powszechnie używanych zbiorach danych, koncentrując się szczególnie na dokładności i niezawodności ich podpisów obrazów. Odkrycia badaczy sugerują, że błędy etykiet w benchmarkach mogą maskować lub nieprawidłowo przedstawiać halucynacje w modelach języka i wizji.

Z nowego artykułu, niektóre przykłady, w których oryginalne podpisy nie poprawnie identyfikowały obiekty w zbiorze danych obrazów MSCOCO. Ręczna rewizja benchmarku POPE przez badaczy adresuje te niedociągnięcia, demonstrując koszt oszczędności na opracowaniu adnotacji. Źródło: https://arxiv.org/pdf/2504.15707

Wyobraź sobie model, który jest pokazywany scenę uliczną i proszony o to, czy w niej jest rower. Model odpowiada tak. Jeśli zbiór danych benchmarkowych mówi, że nie ma roweru, model jest oznaczony jako niewłaściwy. Ale jeśli rower jest wyraźnie widoczny na obrazie i został po prostu pominięty podczas adnotacji, wtedy odpowiedź modelu była poprawna, a benchmark nie powiódł się. Błędy takie mogą się kumulować w całym zbiorze danych, dając zniekształcony obraz tego, które modele są dokładne, a które są skłonne do halucynacji.

W ten sposób, gdy niepoprawne lub niejasne adnotacje są traktowane jako prawda, modele mogą się wydawać halucynujące, gdy są poprawne, lub wydawać się dokładne, gdy nie są, zniekształcając zarówno pomiar halucynacji, jak i ranking wydajności modelu, i utrudniając rozpoznanie lub rozwiązanie problemu z pewnością.

Nowy artykuł ponownie zajmuje się powszechnie używanym benchmarkiem zwanym Polling-based Object Probing Evaluation (POPE), który testuje, czy modele języka i wizji mogą poprawnie powiedzieć, co jest lub nie jest na obrazie.

POPE opiera się na etykietach z wpływowego Microsoft COCO: Common Objects in Context (MSCOCO) zbioru danych, kolekcji adnotowanych obrazów, które długo były traktowane jako oferujące dobny poziom dokładności adnotacji.

POPE ocenia halucynację obiektów w dużych modelach języka i wizji, reformułując problem jako binarny task klasyfikacji. Zamiast analizować wygenerowane podpisy, system stawia proste tak/nie pytania modelowi dotyczące tego, czy określone obiekty są obecne na obrazie, używając szablonów takich jak Czy jest <obiekt> na obrazie?.

Przykłady halucynacji obiektów w modelach języka i wizji. Pogrubione etykiety wskazują obiekty oznaczone jako obecne w oryginalnych adnotacjach, podczas gdy czerwone etykiety pokazują obiekty halucynowane przez modele. Lewy przykład odzwierciedla tradycyjną instrukcję opartą na ocenie, podczas gdy trzy przykłady po prawej stronie są pobrane z różnych wariantów benchmarku POPE. Źródło: https://aclanthology.org/2023.emnlp-main.20.pdf

Etykiety obiektów (odpowiedź: Tak) są sparowane z próbkowanymi nieistniejącymi obiektami (odpowiedź: Nie), wybranymi za pomocą losowych, częstych (popularnych) lub opartych na współwystępowaniu (adwersarialnych) strategii. Ten układ pozwala na bardziej stabilną, niezależną od podpowiedzi ocenę halucynacji bez polegania na złożonej, opartej na regułach analizie podpisów.

Autorzy nowego artykułu – zatytułowanego RePOPE: Wpływ błędów adnotacji na benchmark POPE – kwestionują założoną dokładność POPE, sprawdzając ponownie etykiety na obrazach benchmarku (tj. MSCOCO) – i stwierdzając, że zaskakująco wiele z nich jest błędnych lub niejasnych.

Przykłady z zestawu danych MSCOCO z 2014 roku. Źródło: https://arxiv.org/pdf/1405.0312

Te błędy zmieniają sposób, w jaki modele są oceniane, a niektóre, które początkowo osiągały dobre wyniki, spadają w rankingu, gdy są oceniane według poprawionych etykiet.

W testach autorzy oceniali szereg modeli języka i wizji o otwartych wagach na oryginalnym benchmarku POPE i ich wersji RePOPE.

Zgodnie z artykułem poprawione adnotacje doprowadziły do znaczących zmian w rankingu modeli, szczególnie w wynikach F1, przy czym kilka modeli o wysokich wynikach w POPE spadło w rankingu w RePOPE.

Autorzy twierdzą, że ten przesunięcie ilustruje stopień, w jakim błędy adnotacji mogą zaciemniać rzeczywiste zachowanie halucynacji modeli, i przedstawiają RePOPE jako bardziej niezawodne narzędzie do oceny podatności na halucynację.

W innym przykładzie z nowego artykułu widać, jak oryginalne podpisy POPE nie potrafią rozróżnić subtelnych obiektów, takich jak osoba siedząca obok kabiny tramwaju na prawym zdjęciu lub krzesło zasłonięte przez tenisistę na zdjęciu po lewej stronie.

Metoda i testy

Badacze ponownie oznaczyli wszystkie adnotacje w oryginalnym zbiorze danych MSCOCO, z dwoma ludzkimi adnotatorami przypisanymi do każdej instancji danych. Gdzie pojawiła się niejasność co do jakości oryginalnych etykiet (jak w poniższych przykładach), te wyniki zostały wyłączone z rundy testowej.

Przykłady niejasności, gdzie nieścisłości w etykietach POPE odzwierciedlają niejasne granice kategorii. Na przykład, pluszowy miś oznaczony jako niedźwiedź, motocykl jako rower lub pojazdy lotniskowe jako samochody. Te przypadki są wykluczone z RePOPE ze względu na subiektywny charakter takich klasyfikacji, a także nieścisłości w oryginalnych etykietach MSCOCO.

W artykule napisano:

‘Oryginalni adnotatorzy pomijali osoby na tle lub za szkłem, tenisista zasłania „krzesła” na tle, a surówka zawiera tylko wąską widoczną paskę marchewki.

‘Dla niektórych obiektów adnotacje COCO są wysoce niekonsekwentne, prawdopodobnie z powodu różnych definicji tych obiektów używanych przez oryginalnych adnotatorów. Klasyfikacja „pluszowego misia” jako „niedźwiedzia”, motocykla jako motorowego „roweru” lub pojazdu lotniskowego jako „samochodu” zależy od konkretnych definicji, co prowadzi do niekonsekwencji w adnotacjach POPE. Dlatego oznaczamy odpowiednie pary obraz-pytanie jako „niejasne”.’

Wyniki ponownej adnotacji: pytania pozytywne są współdzielone przez wszystkie trzy warianty POPE. Wśród tych oznaczonych jako „Tak” w POPE, 9,3 procent okazało się błędnych, a 13,8 procent zostało sklasyfikowanych jako niejasne. Dla pytań „Nie” 1,7 procent było błędnie oznaczonych, a 4,3 procent było niejasne.

Autorzy oceniali szereg modeli o otwartych wagach na POPE i RePOPE, w różnych architekturach i rozmiarach modeli. Wybrane modele obejmowały niektóre z wiodących architektur na liście rankingowej OpenVLM: InternVL2.5 (8B/26B/38B/78B i 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; i PaliGemma2 (3B/10B).

Początkowe wyniki: wysoki wskaźnik błędów w oryginalnych etykietach pozytywnych prowadzi do gwałtownego spadku prawdziwych pozytywów we wszystkich modelach. Fałszywe pozytywy różnią się w podzbiorach, niemal podwajając się w losowym podzbiorze, ale pozostając w zasadzie niezmienione w popularnym podzbiorze i pokazując niewielki spadek w podzbiorze adwersarialnym. Ponowna adnotacja ma znaczący wpływ na rankingi oparte na F1. Modele takie jak Ovis2-4B i Ovis2-8B, które osiągały dobre wyniki w popularnych i adwersarialnych podzbiorach w POPE, również awansują na szczyt w losowym podzbiorze w RePOPE. Proszę odnosić się do oryginalnego pliku PDF w celu uzyskania lepszej rozdzielczości.

Wyniki graficzne powyżej ilustrują, jak liczba prawdziwych pozytywów i fałszywych pozytywów zmienia się po poprawieniu etykiet w benchmarku.

Prawdziwe pozytywy spadły we wszystkich modelach, pokazując, że były one często kredytowane za poprawne odpowiedzi, gdy te odpowiedzi były poprawne tylko pod fałszywymi etykietami, podczas gdy fałszywe pozytywy podążały za bardziej zmiennym wzorcem.

Na „losowym” wariancie POPE fałszywe pozytywy niemal podwajały się dla wielu modeli, wskazując na to, że znaczna liczba obiektów oznaczonych jako halucynacje była tak naprawdę obecna na obrazach, ale została pominięta w oryginalnych adnotacjach. W tym przypadku wiele rzekomych błędów modelu były w rzeczywistości błędami adnotacji zbioru danych.

Dla „adwersarialnego” warianu POPE, gdzie pytania opierają się na obiektach, które często współwystępują, fałszywe pozytywy spadły. Prawdopodobnie odzwierciedla to wyższe prawdopodobieństwo, że rzekomo nieobecny obiekt naprawdę jest na obrazie, ale pozostał nieoznaczony.

Chociaż te przesunięcia wpłynęły na precyzję i wydajność, rankingi modeli pozostały relatywnie stabilne dla obu miar.

Wynik F1 – główna miara oceny POPE – był znacznie bardziej wrażliwy na poprawki etykiet. Na losowym podzbiorze modele, które zajmowały miejsce w pobliżu szczytu pod oryginalnymi etykietami, takie jak InternVL2.5-8B i -26B, spadły na dno, gdy oceniano je z użyciem RePOPE. Inne, takie jak Ovis2-4B i -8B, awansowały na szczyt.

Podobny wzorzec pojawił się w wynikach dokładności, chociaż autorzy zauważają, że mogą one być teraz tendencyjne, ponieważ poprawiony zbiór danych zawiera niejednolitą liczbę pozytywnych i negatywnych przykładów.

Autorzy twierdzą, że silny wpływ błędów adnotacji na wyniki benchmarku podkreśla potrzebę wysokiej jakości danych. W celu wspierania bardziej niezawodnej oceny halucynacji obiektów, udostępnili poprawione etykiety na GitHub.

Jednak zauważają, że to ponowne oznaczenie nie rozwiązuje w pełni problemu nasycenia benchmarku, ponieważ wiele modeli nadal osiąga wskaźniki prawdziwych pozytywów i prawdziwych negatywów powyżej 90%. Sugrują, że dodatkowe benchmarki, takie jak DASH-B, które wykorzystują bardziej wymagający zestaw przykładów negatywnych, powinny być używane obok RePOPE.

Wnioski

Ten konkretny eksperyment był możliwy dzięki bardzo małej skali zestawu danych. Udowodnienie tego samego założenia na zestawach danych o skali hiperskali wymagałoby pracy nad bardzo ograniczonymi fragmentami danych; w bardzo zróżnicowanych dużych zestawach danych mogłoby to okazać się niemal niemożliwe do izolowania statystycznie reprezentatywnych i semantycznie spójnych grup – potencjalnie zniekształcając wyniki.

Nawet gdyby było to możliwe, jaki byłby remedium w obecnym stanie sztuki? Argumentacja przechodzi nieuchronnie w kierunku potrzeby lepszych i bardziej obfitych adnotacji ludzkich.

W tym zakresie „lepsze” i „bardziej obfite” istnieją jako oddzielne problemy same w sobie, ponieważ można uzyskać większą ilość adnotacji za pomocą gospodarek opartych na zasadzie „wyścigu do dna”, takich jak Amazon Mechanical Turk (AMT). Oczywiście, taka potencjalnie wyzyskowa podgospodarka często prowadzi do gorszych wyników.

Alternatywnie, można by zlecić zadania adnotacji regionom ekonomicznym, w których ten sam wydatek przyniósłby większą ilość adnotacji. Jednak im dalej adnotator jest oddalony od zamierzonego przypadku użycia modelu, którego etykiety będą kształtować, tym mniej prawdopodobne jest, że wynikowy model będzie odpowiadał potrzebom lub oczekiwaniom docelowego obszaru.

To pozostaje jednym z najbardziej wytrwałych i nierozwiązanych wyzwań w ekonomice rozwoju uczenia maszynowego.

Pierwotnie opublikowane w środę, 23 kwietnia 2025