Kunstig intelligens

Adobe og Meta Decry misbruk av brukerstudier i datasynsforskning

oppdatert on Desember 9, 2022

Kilde: 'Evakuerte King's College London-studenter ved University of Bristol i 1940' - https://www.hmoob.press/nn/Bristol_University#wiki-2

Adobe og Meta har sammen med University of Washington publisert en omfattende kritikk angående det de hevder å være det økende misbruket og misbruket av brukerstudier innen datasyn (CV)-forskning.

Brukerstudier var en gang typisk begrenset til lokalbefolkningen eller studenter rundt campus ved en eller flere av de deltakende akademiske institusjonene, men har siden migrert nesten engros til online crowddsourcing-plattformer som Amazon Mekanisk Turk (AMT).

Blant et bredt spekter av klager, hevder det nye papiret at forskningsprosjekter blir presset til å produsere studier av papiranmeldere; formulerer ofte studiene dårlig; bestiller studier der logikken i prosjektet ikke støtter denne tilnærmingen; og blir ofte "gamet" av kyniske crowdworkers som "finner ut" de ønskede svarene i stedet for å virkelig tenke på problemet.

Den femten siden avhandling (tittelen Mot bedre brukerstudier i datagrafikk og syn) som utgjør den sentrale delen av det nye papiret fremsetter mange andre kritikker på måten crowdsourcede brukerstudier faktisk kan være hemmende fremskritt for undersektorer for datasyn, som bildegjenkjenning og bildesyntese.

Selv om papiret tar for seg en mye bredere del av spørsmål knyttet til brukerstudier, er dens sterkeste mothaker forbeholdt måten utgangsevaluering i brukerstudier (dvs. når crowdsourcede mennesker blir betalt i brukerstudier for å foreta verdivurderinger av – for eksempel – produksjonen av nye bildesyntesealgoritmer) kan påvirke hele sektoren negativt.

La oss ta en titt på et utvalg av noen av de sentrale punktene.

Sensasjonelle tolkninger

Blant avisens rekke forslag til de som publiserer innen datasynssektoren, er formaningen om å "tolke resultatene nøye". Avisen nevner ett eksempel fra 2021, da en nytt forskningsarbeid hevdet at "individer ikke er i stand til nøyaktig å identifisere AI-generert kunstverk" var mye spunnet i populærpressen.

En av de høyere profilerte medierapportene om 2021-artikkelen "The Role of AI Attribution Knowledge in the Evaluation of Artwork", av Harsha Gangadharbatla, sitert som et eksempel i den nye artikkelen. Her er The Daily Mails kilde The Times (betalingsmur). kilder: Daglig post (arkivlenke) / https://www.gwern.net/docs/ai/nn/gan/2021-gangadharbatla.pdf

Forfatterne oppgir*:

'[I en studere i et psykologitidsskrift ble bilder av tradisjonelle kunstverk og bilder laget av AI-teknologier samlet fra nettet, og crowdworkers ble bedt om å skille hvilke bilder som kom fra hvilke kilder. Fra resultatene ble det konkludert med at "individer ikke er i stand til nøyaktig å identifisere AI-generert kunstverk," en veldig bred konklusjon som ikke følger direkte av eksperimentene.

«Avisen rapporterer dessuten ikke detaljer om hvilke spesifikke bildesett som ble samlet inn eller brukt, noe som gjør påstandene vanskelige, om ikke umulige, å verifisere og reprodusere.

"Mer bekymringsfullt er at den populære pressen rapporterte disse resultatene med de misvisende påstandene om at AI-er uavhengig kan lage kunst så vel som mennesker."

Håndtere Crowdworkers som jukser

Crowdsourced arbeidere er vanligvis ikke betalt mye for deres innsats. Siden deres utsikter er minimal, og deres beste inntjeningspotensial er gjennom å fullføre et stort volum av oppgaver, mange av dem er, forskning tyder på, disponert for å ta en hvilken som helst "snarvei" som vil fremskynde den gjeldende oppgaven, slik at de kan gå videre til neste mindre "gig".

Artikkelen observerer at crowdsourcede arbeidere, omtrent som maskinlæringssystemer, vil lære repeterende mønstre i brukerstudiene som forskere formulerer, og ganske enkelt utlede det "riktige" eller "ønskede" svaret, i stedet for å produsere en ekte organisk respons på materialet.

For dette formål anbefaler papiret å foreta kontroller av arbeiderne som er hentet fra crowdsourcet, også kjent som "valideringsforsøk" eller "vaktposter" – effektivt falske deler av en test designet for å se om arbeideren legger merke til, klikker tilfeldig eller bare følger en mønster som de selv har utledet fra testene, i stedet for å tenke på valgene sine.

Forfatterne sier:

«For eksempel, i tilfelle av par stiliserte bilder, kan ett bilde av paret være et bevisst og objektivt resultat av dårlig kvalitet. Under analyse kan data fra deltakere som mislyktes i et forhåndsinnstilt antall av sjekkene, forkastes, antatt å være generert av deltakere som var uoppmerksomme eller inkonsekvente.

'Disse sjekkene bør settes inn tilfeldig i studien, og skal se ut på samme måte som andre forsøk; ellers kan deltakerne finne ut hvilke forsøk som er sjekkene.'

Håndtere forskere som jukser

Med eller uten intensjon kan forskere være medskyldige i denne typen "gaming"; det er mange måter for dem, kanskje til og med utilsiktet, å "signalisere" sine ønskede valg til crowdworkers.

For eksempel observerer avisen, ved å velge crowdworkers med profiler som kan bidra til å oppnå de 'ideelle' svarene i en studie, som nominelt beviser en hypotese som kan ha feilet på en mindre 'utvalgt' og mer vilkårlig gruppe.

Fraseologi er også en sentral bekymring:

Ordlyden bør gjenspeile målene på høyt nivå, for eksempel "hvilket bilde inneholder færre gjenstander?" i stedet for "hvilket bilde inneholder færre fargefeil i ansiktsområdet?" Motsatt overlater upresis oppgaveformulering for mye til tolkning, for eksempel "hvilket bilde er bedre?" kan forstås som "hvilken er mer estetisk tiltalende?" hvor intensjonen kan ha vært å vurdere "hvilken er mer realistisk?"

En annen måte å 'påvirke' deltakere på er å la dem vite, åpenlyst eller implisitt, hvilke av de mulige valgene foran dem som er forfatterens metode, snarere enn en tidligere metode eller tilfeldig utvalg.

Avisen sier*:

«[Deltakerne] kan svare med svarene de tror forskerne vil ha, bevisst eller ikke, som er kjent som "god motiveffekt". Ikke merk utganger med navn som "vår metode" eller "eksisterende metode". Deltakere kan være forutinntatte av maktdynamikk (dvs. at forskeren holder makten ved å kjøre forskningsøkten), forskere som bruker språket for å prime deltakere (f.eks. "hvor mye liker du dette verktøyet som jeg bygde i går?"), og forskere og deltakere ' forhold (f.eks. hvis begge jobber i samme laboratorium eller selskap).'

Formateringen av en oppgave i en brukerundersøkelse kan likeledes påvirke nøytraliteten til studien. Forfatterne bemerker at hvis, i en side-ved-side-presentasjon, grunnlinjen konsekvent er plassert til venstre (dvs. 'bilde A') og utdataene fra den nye algoritmen til høyre, kan studiedeltakerne antyde at B er ' beste valg, basert på deres økende antagelse om forskernes håp om utfall.

«Andre presentasjonsaspekter som størrelsen på bildene på skjermen, deres avstand til hverandre osv. kan påvirke deltakernes svar. Å pilotere studien med noen få forskjellige innstillinger kan bidra til å oppdage disse potensielle forvirringene tidlig.'

Feil mennesker for feil produkt

Forfatterne observerer på flere punkter i artikkelen at crowdsourcede arbeidere er en mer 'generisk' ressurs enn det som ville vært forventet i tidligere tiår, da forskere ble tvunget til å be om hjelp lokalt, ofte fra fakultetsstudenter som supplerte inntektene sine gjennom studiedeltakelse.

Kravet om aktiv deltakelse gir den innleide crowdworkeren lite rom for å bli "ikke overbevist" av et produkt de tester, og avisens forfattere anbefaler at forskere identifisere sine målbrukere før du utvikler og studerer testing av et potensielt produkt eller en tjeneste – ellers risikerer du å produsere noe veldig vanskelig å lage, men som ingen faktisk vil ha.

"Vi har faktisk ofte sett datagrafikk- eller synsforskere som har forsøkt å få forskningen deres adoptert av bransjeutøvere, bare for å finne ut at forskningen ikke dekker målbrukernes behov. Forskere som ikke utfører needfinding i begynnelsen, kan bli overrasket over å finne at brukere ikke har behov for eller interesse for verktøyet de har brukt måneder eller år på å utvikle.

"Slike verktøy kan gi dårlige resultater i evalueringsstudier, da brukere kan oppleve at teknologien gir unyttige, irrelevante eller uventede resultater."

Artikkelen observerer videre at brukere som faktisk sannsynligvis vil bruke et produkt, bør velges ut for studiene, selv om de ikke er enkle å finne (eller, antagelig, ganske så billige).

I stedet for å gå tilbake til å rekruttere på campus (noe som kanskje ville vært et ganske baklengs trekk), foreslår forfatterne at forskere "rekrutterer brukere i naturen", og engasjerer seg med relevante samfunn.

«For eksempel kan det være en relevant aktiv meldingstavle eller sosiale medier som kan utnyttes. Selv møte med ett medlem av fellesskapet kan føre til prøvetaking av snøball, der relevante brukere tilbyr forbindelser til lignende personer i nettverket deres.'

Be om tilbakemelding

Artikkelen anbefaler også å innhente kvalitative tilbakemeldinger fra de som har deltatt i brukerstudier, ikke minst fordi dette potensielt kan avdekke falske antagelser fra forskernes side.

"Disse kan hjelpe til med å feilsøke studien, men de kan også avsløre uventede fasetter av utdataene som påvirket brukernes vurderinger. Var deltakeren "veldig utilfreds" [sic] med utgangen fordi den var urealistisk, ikke estetisk, partisk eller av en annen grunn?

"Uten kvalitativ informasjon kan forskeren jobbe med å avgrense algoritmen til å være mer realistisk, i stedet for å adressere det underliggende brukerproblemet."

Som med mange av anbefalingene gjennom artikkelen, innebærer denne spesielle anbefalingen ytterligere bruk av tid og penger fra forskeres side, i en kultur som, ifølge arbeidet, misligholder raske og praktisk talt obligatoriske crowdsourced brukerstudier, som vanligvis er ganske billig, og som samsvarer med en fremvoksende studiedrevet kultur som avisen kritiserer gjennomgående.

Overstudert

Artikkelen antyder at brukerstudier er i ferd med å bli et slags "minimumskrav" i pre-print datasynssamfunnet, selv i tilfeller der en studie ikke kan formuleres på en rimelig måte (for eksempel med en idé så ny eller marginal at det ikke er noen " like-for-like'-analyse å utføre, og som kanskje ikke er mottakelig for noen rimelig beregning som kan gi meningsfulle resultater i en brukerundersøkelse).

Som et eksempel på "studiemobbing" (ikke forfatternes setning), nevner forskerne saken om en ICLR 2022-artikkel der fagfellevurderinger er tilgjengelig på nettet (arkivbilde tatt 24. juni 2022; lenke hentet direkte fra den nye avisen)^†:

«To anmeldere ga svært negative poengsum, delvis på grunn av mangel på brukerstudier. Oppgaven ble til slutt akseptert, ledsaget av et sammendrag som refset anmelderne for å bruke "brukerstudier" som en unnskyldning for dårlig gjennomgang, og anklage dem for portvakt. Hele diskusjonen er verdt å lese.

«Den endelige avgjørelsen bemerket at innsendingen beskrev et programvarebibliotek som hadde vært utplassert i årevis, med tusenvis av brukere (informasjon som ikke ble avslørt til anmelderne for anonym vurdering). Ville papiret – som beskriver et svært virkningsfullt system – blitt avvist hvis komiteen ikke hadde hatt denne informasjonen?

"Og hadde forfatterne gått gjennom den ekstra innsatsen med å konstruere og utføre en brukerundersøkelse, ville det vært meningsfullt, og ville det vært nok til å overbevise anmelderne?"

Forfatterne oppgir at de har sett anmeldere og redaktører stille "tyngende evalueringskrav" på innsendte artikler, til tross for om slike evalueringer virkelig ville ha noen mening eller verdi.

«Vi har også observert at forfattere og anmeldere bruker MTurk-evalueringer som en krykke for å unngå å ta vanskelige beslutninger. Anmelderkommentarer som "Jeg kan ikke si om bildene er bedre, kanskje en brukerundersøkelse ville hjelpe" er potensielt skadelige, og oppmuntrer forfattere til å utføre ekstraarbeid som ikke vil forbedre et glansløst papir.'

Forfatterne avslutter oppgaven med en sentral "oppfordring til handling", slik at datasyns- og datagrafikkmiljøene kan vurdere deres forespørsler om brukerstudier mer fullstendig, i stedet for å la en studiedrevet kultur utvikle seg som en utenatlig standard, til tross for "kanten" tilfeller der noe av det mest interessante arbeidet kanskje ikke passer til noen av de mest lønnsomme eller fruktbare forsknings- og innsendingsrørledningene.

Forfatterne konkluderer med:

«[Hvis] hovedmålet med å kjøre brukerstudier er å blidgjøre anmeldere i stedet for å generere ny læring, bør nytten og validiteten til slike brukerstudier settes i tvil av både forfattere og anmeldere. Å straffe arbeid som ikke inneholder brukerevaluering har den utilsiktede konsekvensen at man stimulerer raskt utført, dårlig utført brukerforskning.

"En maksime å huske på er at "dårlig brukerundersøkelse fører til dårlige resultater", og slik forskning vil fortsette hvis anmeldere fortsetter å be om det.

* Min konvertering av avisens innebygde sitater til relevante hyperkoblinger
^† My vekt, ikke forfatternes.

Først publisert 24. juni 2022.

Relaterte temaer:etikk bildesyntese forskning

Neste

AI revitaliserer datasentre

Ikke gå glipp av

Hvordan holde smarttelefoner kule når de kjører maskinlæringsmodeller

Martin Andersen

Forfatter om maskinlæring, kunstig intelligens og big data.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai

Unite.AI

Adobe og Meta Decry misbruk av brukerstudier i datasynsforskning

Kunstig intelligens