Etik
Forskere Finder Ud Af, At AI-Modeller Kan Påvirke Mennesker Til At Træffe Uetiske Beslutninger

Et hold af forskere har nylig undersøgt AI’s potentiale til at korrumperere mennesker og påvirke dem til at træffe uetiske beslutninger. Forskerne undersøgte, hvordan interaktioner med systemer baseret på OpenAI’s GPT-2-model kunne potentielt påvirke mennesker til at træffe uetiske beslutninger, selv når de var klar over, at kilden til rådet var et AI-system.
AI-systemer bliver mere almindelige hele tiden, og deres indflydelse bliver stadig bredere. AI-systemer påvirker menneskers beslutninger og bruges til alt fra at anbefale film til at anbefale romantiske partnere. Givet hvor meget indflydelse AI har på menneskers liv, er det vigtigt at overveje, hvordan AI kan påvirke mennesker til at træffe uetiske beslutninger og bryde med moralske retningslinjer. Dette er særligt sandt, da AI-modeller konstant bliver mere avancerede.
Samfundsvidenskabsmænd og datavidenskabsmænd er blevet stadig mere bekymrede over, at AI-modeller kan bruges til at sprede skadelig desinformation og misinformationskampagner. En nyeste artikel offentliggjort af forskere fra Middlebury Institute of International Studies’ Center on Terrorism, Extremism, and Counterterrorism (CTEC) fandt, at OpenAI’s GPT-3-model kunne bruges til at generere indflydelsesrig tekst, der kunne radikalisere mennesker og skubbe dem mod “voldelige højre-ekstremistiske ideologier og adfærd”.
En undersøgelse udført af et hold af forskere fra Max Planck Institute, University of Amsterdam, University of Cologne og Otto Beisheim School of Management satte sig for at bestemme, hvor meget indflydelse en AI kan have på menneskers beslutninger, når det kommer til uetiske valg. For at udforske, hvordan en AI kan “korrumperere” en person, brugte forskerne et system baseret på OpenAI’s GPT-2-model. Ifølge VentureBeat, trænede forfatterne af artiklen en GPT2-baseret model til at generere både “uhæderlighed-fremmende” og “ærlighed-fremmende” råd. Data blev trænet på bidrag fra 400 forskellige deltagere, og herefter rekrutterede forskningsholdet over 1500 mennesker til at engagere sig med råd-uddelende AI-modeller.
Studiedeltagerne blev bedt om at modtage råd fra modellen og derefter udføre en opgave designet til at fange enten uhæderlig eller ærlig adfærd. Studiedeltagerne blev grupperet med en partner, og i disse par af to spillede de et terningespil. Den første deltagers rullede en terning og rapporterede resultatet af terningkastet. Den anden deltagers fik resultatet af den første deltagers terningkast og rullede derefter en terning selv. Den anden deltagers rullede terningen i privat og var alene ansvarlig for at rapportere deres eget resultat, hvilket gav dem mulighed for at lyve om resultatet af terningkastet. Hvis terningerne, der blev rullet af begge deltagere, matchede, blev de to deltagere betalt. Deltagerne blev også betalt mere, hvis deres matchende ruller var højere. Hvis de rapporterede værdier ikke matchede, blev subjekterne ikke betalt.
Deltagerne i studiet blev tilfældigt tildelt til en af to forskellige grupper. Den ene gruppe fik mulighed for at læse ærlighed-fremmende råd, mens den anden gruppe læste uhæderlighed-fremmende råd. Råd-udsnittene blev skrevet af både mennesker og AI’er. Deltagerne blev også inddelt efter deres niveau af viden om kilden til rådet. Der var en 50-50 chance for, at en given deltagers ville blive informeret om kilden til rådet, så halvdelen af deltagerne i hver gruppe vidste, at kilden til rådet var enten en AI eller et menneske, mens den anden halvdel blev holdt i mørke. Den anden gruppe af mennesker havde dog mulighed for at tjene bonusbetaling for korrekt at gætte kilden til rådet.
Forskningen afslørede, at når AI-genererede råd støtter en persons præferencer, vil de følge rådet, selv når de ved, at rådet er genereret af en AI. Ifølge forskerne var der ofte diskrepanser mellem erklærede præferencer og faktisk adfærd, hvilket gjorde det vigtigt at overveje, hvordan algoritmer kan påvirke menneskers adfærd.
Forskningsholdet forklarede, at deres studie demonstrerer behovet for at teste, hvordan en AI kan påvirke en persons handlinger, når man overvejer, hvordan man skal implementere en AI-model på en etisk måde. Desuden advarer de om, at AI-etikere og forskere skal forberede sig på muligheden for, at AI kan blive brugt af dårlige aktører til at korrumperere andre. Som forskerholdet skrev:
“AI kan være en kraft for godt, hvis det formår at overbevise mennesker om at handle mere etisk. Dog viser vores resultater, at AI-råd ikke kan øge ærligheden. AI-rådgivere kan fungere som syndebukke, som man kan aflede (nogen af) den moralske skyld for uhæderlighed. Desuden … i sammenhængen med rådgivning, er gennemsigtighed om algorithmisk tilstedeværelse ikke nok til at lette dens potentielle skade.”


