Andersonin kulma
‘Lataa Lisää Merkintöjä!’ -Illuusio Tekoälytutkimuksessa

Yleinen näkemys nykyisessä koneoppimisen tutkimuksessa on, että koneoppimista voidaan käyttää parantamaan tekoälydatasetin annotaatioiden laatua – erityisesti kuvakuvauksia, jotka on tarkoitettu visuaalisten kielen mallien (VLM) käyttöön. Tämä ajattelutapa johtuu korkeista kustannuksista ihmisen annotoinnissa ja annotoijien suorituskyvyn valvonnasta.
Väittäen, että tämä on tekoälyn vastaava asia kuin varhaisen 2000-luvun ‘lataa lisää muistia’ -meme, joka pilkkasi ajatusta, että laitteiston rajoitus voitiin ratkaista ohjelmistopohjaisella korjauksella.
Se on myös aliarvostettu ongelma; vaikka uudet tekoälymallit saavat laajaa huomiota sekä julkisissa että kaupallisissa piireissä, annotaatio näyttää usein olevan triviaali yksityiskohta koneoppimisputkissa, jota varjostaa jännitys laajempien kehysten ympärillä.
Totuus on, että koneoppimisjärjestelmien kyky tunnistaa ja toistaa kuvioita (lähes kaikkien tekoälyjärjestelmien keskeinen käyttötapausa) riippuu annotaatioiden laadusta ja johdonmukaisuudesta – merkinnöistä ja lauseista, jotka luodaan tai määrätään oikeasti ihmisillä, usein tehdessä subjektiivisia arvosteluita yksittäisistä datakohteista epäideaalisissa olosuhteissa.
Vääjämättä, järjestelmät, jotka pyrkivät havainnoimaan ja toistamaan annotaattorin käyttäytymisen kuvioita (ja siten korvaamaan ihmisen annotoijat ja mahdollistamaan tarkan merkinnän suuressa mittakaavassa) eivät voi toimia hyvin datalla, jota ei sisälly esimerkkeihin, jotka on otettu ihmisiltä. Mitään ‘samankaltaista’ ei ole aivan samaa, ja cross-domain -vastavuus on edelleen ongelmainen tavoite tietokonegrafiikassa.
‘Ylätuomarin vastuu’ on pakko loppua jonnekin, ja tässä tapauksessa se on juuri siellä, missä se loppuu – ihmisen aivokuoressa, joka tekee jonkinlaista subjektiivista eroa koodata dataa tekoälyjärjestelmälle.
RAG-kauppa
Kunnes viime aikoihin, annotaatiovirheiden aiheuttamat epätarkkuudet olivat ehkä hyväksyttyjä sivuvahinkoja generatiivisen tekoälyn tuloksissa, jotka olivat epävirallisia mutta silti markkinoitavissa.
Todellakin, vasta tänä vuonna Singaporen tutkimus totesi, että hallusinaatiot – eli tilanteet, joissa tekoälyjärjestelmät keksivät asioita, jotka horjuttavat aikomuksiamme – ovat välttämättömiä ja sidoksissa näiden järjestelmien käsitteelliseen arkkitehtuuriin.
Tätä vastaan RAG-pohjaiset agentit – jotka voivat ‘vahvistaa’ tosiasioita internet-haun kautta – ovat suosittuja tutkimuksessa ja sovelletuissa kaupallisissa ratkaisuissa. Ne kuitenkin lisäävät resurssikustannuksia ja viiveitä kyselyissä; lisäksi uudet tiedot, jotka sovelletaan koulutettuun malliin, eivät voi kilpailla koulutetun mallin alkuperäisten kerrosten monimutkaisempien ja syvemmän kytkettyjen yhteyksien kanssa.
Olisi siis parempi, jos annotaatiotiedot, jotka kertovat näistä malleista, olisivat huomattavasti vähemmän virheellisiä alusta alkaen, vaikka ne eivät voi olla täydellisiä (koska tämä toiminta ulottuu ihmisen subjektiivisuuden alueelle).
RePOPE
Saksasta oleva uusi tutkimus korostaa ongelmia, jotka johtuvat vanhempien, laajasti käytettyjen tietojoukkojen käytöstä, keskittyen erityisesti kuvakuvauksien tarkkuuteen ja luotettavuuteen. Tutkijoiden löydökset osoittavat, että merkintävirheet vertailuissa voivat peittää tai vääristää hallusinaation visuaalisten kielen malleissa.

Uudesta tutkimuksesta, joissakin esimerkeissä, joissa alkuperäiset kuvaukset eivät onnistuneet tunnistamaan oikein esineitä MSCOCO-kuvatietojoukossa. Tutkijoiden manuaalinen tarkistus POPE-benchmark-tietojoukkoa osoittaa nämä puutteet, osoittaen säästöjen kustannuksia annotaatiokuraattorin säästössä. Lähde: https://arxiv.org/pdf/2504.15707
Kuvitellaan malli, jolle näytetään kuvaa kadunkuvasta ja kysytään, onko siinä polkupyörä. Malli vastaa kyllä. Jos benchmark-tietojoukko sanoo, ettei siinä ole polkupyörää, malli on merkitty virheelliseksi. Mutta jos polkupyörä on selvästi näkyvissä kuvassa ja se oli yksinkertaisesti väärin merkitty annotoinnissa, mallin vastaus oli oikein, ja benchmark on epäonnistunut. Virheet kuten tämä voivat kertyä koko tietojoukossa, antaen vääristyneen kuvan siitä, mitkä mallit ovat tarkkoja ja mitkä ovat alttiita hallusinaatiolle.
Näin, kun virheelliset tai epäselvät annotaatiot käsitellään totuutena, mallit voivat näyttää hallusinoivista, kun ne ovat oikein, tai näyttää tarkoista, kun ne eivät ole, vääristäen sekä hallusinaation mittaamista että mallin suorituskyvyn arviointia, ja vaikeuttaen ongelman diagnosoinnin tai ratkaisun varmuuden.
Uusi tutkimus tarkastelee uudelleen laajasti käytettyä benchmarkia nimeltä Polling-pohjainen Object Probing Evaluation (POPE), joka testaa, voivatko visuaalisten kielen mallit oikein sanoa, mitä on tai ei ole kuvassa.
POPE perustuu Microsoft COCO: Common Objects in Context (MSCOCO) -tietojoukon merkintöihin, joka on kokoelma annotoituja kuvia, jotka on pitkään katsottu tarjoavan hyvän tason annotaatiotarkkuutta.
POPE arvioi visuaalisten kielen mallien objektiivisen hallusinaation reframing-ongelmana binäärisen luokittelutehtävänä. Sen sijaan, että parseerataan generoituja kuvauksia, järjestelmä esittää yksinkertaisia kyllä/ei -kysymyksiä mallille siitä, ovatko tiettyjä esineitä kuvassa, käyttäen esimallisia, kuten ‘Onko <object> kuvassa?’.

Esimerkkejä objektiivisesta hallusinaatiosta visuaalisten kielen malleissa. Lihavoitetut merkinnät osoittavat esineitä, jotka on merkitty läsnä alkuperäisissä annotaatioissa, kun taas punaiset merkinnät osoittavat esineitä, jotka mallit ovat hallusinoineet. Lähde: https://aclanthology.org/2023.emnlp-main.20.pdf
Totuudenmukaiset esineet (vastaus: Kyllä) on parittu näytteisiin olemattomiin esineisiin (vastaus: Ei), valittu satunnaisesti, usein (suositeltu) tai yhteisöllisyyden perusteella (kontra) strategioita. Tämä asettelu mahdollistaa vakaamman, kehysherkkyyden arvioinnin hallusinaatiosta ilman, että tarvitsee luottaa monimutkaiseen sääntöpohjaiseen kuvauksen analyysiin.
Uuden tutkimuksen tekijät – nimeltään RePOPE: Annotaatiavirheiden vaikutus POPE-benchmarkiin – haastavat POPE:n oletetun tarkkuuden tarkistamalla uudelleen benchmarkin kuvien merkinnät (ts. MSCOCO) – ja löytävät, että yllättävä määrä niistä on virheellisiä tai epäselviä.

Esimerkkejä vuoden 2014 MSCOCO-tietojoukosta. Lähde: https://arxiv.org/pdf/1405.0312
Nämä virheet muuttavat mallien sijoituksia, joillakin malleilla, jotka aluksi suorittivat hyvin, päätyvät taakse, kun ne arvioidaan oikeutettujen merkintöjen perusteella.
Kokeissa tutkijat arvioivat useita avoimen painon visuaalisten kielen malleja sekä alkuperäisellä POPE-benchmarkilla että heidän uudelleenmerkityllä RePOPE -versiollaan.
Tutkimuksen mukaan korjatut annotaatiot johtivat merkittäviin muutoksiin mallien sijoituksissa, erityisesti F1 -tuloksissa, joissa useat hyvin suorittaneet mallit putosivat asemastaan POPE:ssa RePOPE:ssa.
Tutkijat väittävät, että tämä siirtymä osoittaa, miten annotaatiavirheet voivat peittää mallien todellisen hallusinaatiokäyttäytymisen, ja he esittävät RePOPE:n luotettavampana työkaluna hallusinaation arvioinnissa.

Uudesta tutkimuksesta, nähdään, miten alkuperäiset POPE-kuvaukset eivät onnistuneet havainnoimaan hienovaraisia esineitä, kuten henkilöä istuvana raitiovaunun ohjaamossa oikeimmassa valokuvassa tai tuolia, joka on peitetty tennispelaajan toisessa valokuvassa vasemmasta reunasta.
Menetelmä ja Kokeet
Tutkijat uudelleenmerkivät kaikki alkuperäisen MSCOCO-tietojoukon annotaatiot, ja kaksi ihmisen annotoijaa määrättiin kullekin data-eksemplaarille. Jos epäselvyyttä alkuperäisten merkintöjen laadusta (kuten esimerkeissä alla) esiintyi, nämä tulokset asetettiin sivuun testikierroksesta.

Epäselvät tapaukset, joissa POPE:n merkintöjen epäjohdonmukaisuudet heijastavat epäselviä luokkarajoja. Esimerkiksi, nallemerkintä nalleksi, moottoripyöräksi polkupyöräksi tai lentokenttäajoneuvot autoiksi. Nämä tapaukset on poistettu RePOPE:sta niiden subjektiivisen luonteen vuoksi sekä MSCOCO:n alkuperäisten merkintöjen epäjohdonmukaisuuksien vuoksi.
Tutkimus toteaa:
‘Alkuperäiset annotoijat eivät havainneet henkilöitä taustalla tai lasin takana, tennispelaaja peittää ‘tuolit’ taustalla ja coleslaw sisältää vain pienen näkyvän juurikkaan viivan.
‘Joidenkin esineiden osalta COCO-merkinnät ovat hyvin epäjohdonmukaisia, luultavasti johtuen erilaisista määritelmistä, joita alkuperäiset annotoijat käyttivät. Nallen luokittelu ‘nalleksi’, moottoripyörän ‘moottoroiduksi polkupyöräksi’ tai lentokenttäajoneuvon ‘autoksi’ riippuu tiettyjen määritelmiä, jotka johtavat epäjohdonmukaisuuksiin POPE:n totuusarvo-merkinnöissä. Siksi me merkitsemme vastaavan kuvan ja kysymysparin ‘epäselväksi’.’

Uudelleenmerkinnän tulokset: positiiviset kysymykset ovat jaettu kaikille kolmelle POPE-variantille. Niistä, jotka on merkitty ‘Kyllä’ POPE:ssa, 9,3 prosenttia osoittautui virheelliseksi ja 13,8 prosenttia luokiteltiin epäselväksi. ‘Ei’-kysymyksissä 1,7 prosenttia oli väärin merkitty ja 4,3 prosenttia oli epäselvä.
Tutkijat arvioivat useita avoimen painon malleja POPE:lla ja RePOPE:lla, eri arkkitehtuureilla ja mallikokoilla. Valittuja malleja olivat joitakin johtavista arkkitehtuureista OpenVLM -listalla: InternVL2.5 (8B/26B/38B/78B ja 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; ja PaliGemma2 (3B/10B).

Alkutulokset: alkuperäisten positiivisten merkintöjen korkea virheellisyys johtaa terävään laskuun oikeista positiivisista tuloksista kaikissa malleissa. Väärät positiiviset vaihtelevat alajoukoissa, lähes kaksinkertaistuen satunnaisessa alajoukossa, mutta pysyen suhteellisen muuttumattomina suositussa alajoukossa ja näyttäen lievää laskua kontra-alajoukossa. Uudelleenmerkintä vaikuttaa merkittävästi F1-pohjaisiin sijoituksiin. Mallit, kuten Ovis2-4B ja Ovis2-8B, jotka suorittivat hyvin suositussa ja kontra-alajoukossa POPE:ssa, nousevat myös huipulle satunnaisessa alajoukossa RePOPE:ssa.. Lähde: https://arxiv.org/pdf/2504.15707
Tuloksien kaaviot osoittavat, miten oikeiden positiivisten ja väärien positiivisten määrä muuttuu annotaatioiden korjaamisen jälkeen benchmarkissa.
Oikeat positiiviset laskivat kaikissa malleissa, osoittaen, että ne olivat usein saaneet krediittiä oikeista vastauksista, kun ne olivat oikein vain virheellisten merkintöjen perusteella, kun taas väärät positiiviset seurasivat monimutkaisempaa kaavaa.
Satunnaisessa POPE-versiossa väärät positiiviset lähes kaksinkertaistuivat monissa malleissa, osoittaen, että merkittävä määrä esineitä, jotka oli merkitty hallusinaatioiksi, oli itse asiassa kuvissa, mutta oli jäänyt huomaamatta alkuperäisissä annotaatioissa. Tässä tapauksessa monet oletetut mallivirheet olivat itse asiassa tietojoukon merkintävirheitä.
Kontra-alajoukossa väärät positiiviset laskivat. Tämä johtunee siitä, että oli suurempi mahdollisuus, että puuttuva esine oli todella kuvassa mutta jäänyt merkittymättä.
Vaikka nämä siirtymät vaikuttivat tarkkuuteen ja kutsuun, mallien sijoitukset pysyivät suhteellisen vakaana molemmissa mitoissa.
F1-piste, joka on POPE:n pääarvio, oli paljon herkempi merkintöjen korjauksille. Satunnaisessa alajoukossa mallit, jotka olivat lähellä huipputasoa alkuperäisillä merkinnöillä, putosivat huipulta, kun ne arvioitiin RePOPE:lla. Toiset, kuten Ovis2-4B ja Ovis2-8B, nousivat huipulle.
Samansuuntainen kaava ilmestyi tarkkuustuloksissa, vaikka tutkijat huomauttavat, että ne voivat nyt olla vääristyneitä, koska korjattu tietojoukko sisältää epätasaisen määrän positiivisia ja negatiivisia esimerkkejä.
Tutkijat väittävät, että annotaatiavirheiden voimakas vaikutus benchmark-tuloksiin korostaa tarvetta laadukkaista datasta. Tukeakseen luotettavampaa objektiivisen hallusinaation arviointia he ovat julkaisseet korjatut merkinnät GitHubissa.
He kuitenkin huomauttavat, että tämä uudelleenmerkintä ei täysin ratkaise benchmarkin täyttymistä, koska monet mallit saavuttavat edelleen yli 90 prosentin oikeiden positiivisten ja oikeiden negatiivisten tuloksia. He ehdottavat, että muita benchmark-keinoja, kuten DASH-B:a, joka käyttää haastavampaa joukkoa negatiivisia esimerkkejä, tulisi käyttää RePOPE:n rinnalla.
Johtopäätös
Tämä kokeilu oli mahdollista vain sen vuoksi, että tietojoukko oli hyvin pieni. Saman hypoteesin todistaminen hyperskaalaisilla tietojoukoilla vaatisi työskentelyä hyvin rajoitettujen tietojoukon osien kanssa; erittäin monimuotoisissa suurissa tietojoukoissa se saattaa olla lähes mahdotonta erottaa tilastollisesti edustavia ja semanttisesti yhtenäisiä ryhmiä – mahdollisesti vääristäen tuloksia.
Vaikka se olisi mahdollista, mikä olisi ratkaisu nykyisessä tilassa? Argumentti siirtyy takaisin vääjämättä paremman ja runsaamman ihmisen annotaation tarpeeseen.
Tässä suhteessa ‘parempi’ ja ‘runsas’ ovat erillisiä ongelmia, koska voidaan hankkia suurempi määrä annotaatioita kustannusten alennuksen kautta, kuten Amazon Mechanical Turk (AMT). Ilmeisesti tämä mahdollisesti hyväksikäyttävä alitalous usein johtaa heikkoihin tuloksiin.
Vaihtoehtoisesti voisi ulkoistaa annotaatiotehtäviä taloudellisiin alueisiin, joissa sama kulutus tuottaisi suuremman määrän annotaatioita. Kuitenkin, mitä kauempana annotoija on tarkoitettusta käyttötarkoituksesta, jonka heidän merkintänsä muokkaavat, sitä vähemmän todennäköistä on, että lopullinen malli vastaa kohdealueen tarpeita tai odotuksia.
Tämä on yksi kestävimmistä ja ratkaisemattomista haasteista koneoppimisen kehityksen taloudessa.
Julkaistu ensimmäisen kerran keskiviikkona, 23. huhtikuuta 2025












