Connect with us

Kunstig intelligens

Monetisering af forskning til AI-træning: Risici og bedste praksis

mm

Da efterspørgslen efter generativ AI vokser, vokser også behovet for højkvalitetsdata til at træne disse systemer. Videnskabelige udgivere er begyndt at monetisere deres forskningsindhold for at levere træningsdata til store sprogmodeller (LLM’er). Mens denne udvikling skaber en ny indtægtsstrøm for udgivere og giver generativ AI mulighed for videnskabelige opdagelser, rejser det kritiske spørgsmål om integriteten og pålideligheden af den forskning, der anvendes. Dette rejser et afgørende spørgsmål: Er de datasæt, der sælges, troværdige, og hvad har denne praksis af implikationer for det videnskabelige samfund og generative AI-modeller?

Stigningen i monetiserede forskningsaftaler

Majoriteten af akademiske udgivere, herunder Wiley, Taylor & Francis og andre, har rapporteret betydelige indtægter fra licensaftaler med teknologivirksomheder, der udvikler generative AI-modeller. For eksempel afslørede Wiley en indtægt på over 40 millioner dollars fra sådanne aftaler alene i dette år. Disse aftaler giver AI-virksomheder adgang til diverse og omfattende videnskabelige datasæt, som formodentlig forbedrer kvaliteten af deres AI-værktøjer.

Udgiverne fremfører et simpelt argument: Licensaftaler sikrer bedre AI-modeller, hvilket gavner samfundet og belønner forfattere med royalties. Denne forretningsmodel er til fordel for både teknologivirksomheder og udgivere. Imidlertid har den øgede tendens til at monetisere videnskabelig viden risici, især når tvivlsom forskning infiltrerer disse AI-træningsdatasæt.

Skammen over falsk forskning

Det videnskabelige samfund er ikke ukendt med problemer omkring svindelforskning. Studier tyder på, at mange offentliggjorte resultater er fejlbehæftede, forvrængede eller bare upålidelige. En undersøgelse fra 2020 viste, at næsten halvdelen af forskerne rapporterede problemer som selektiv datarapportering eller dårligt designede feltstudier. I 2023 blev mere end 10.000 artikler trukket tilbage på grund af falskede eller upålidelige resultater, et tal der fortsætter med at stige årligt. Eksperter mener, at dette tal kun er toppen af isbjerget, med utallige tvivlsomme studier i omløb i videnskabelige databaser.

Krisen er primært drevet af “paper mills“, skyggeorganisationer, der producerer fabrikerede studier, ofte som svar på akademisk pres i regioner som Kina, Indien og Østeuropa. Det estimeres, at cirka 2% af tidsskriftsindsendelser globalt kommer fra paper mills. Disse falske artikler kan ligne ægte forskning, men er fulde af fiktiv data og grundløse konklusioner. Foruroligende kan sådanne artikler slippe igennem peer review og ende i respekterede tidsskrifter, hvilket kompromitterer pålideligheden af videnskabelige indsigt. For eksempel under COVID-19-pandemien antydede fejlbehæftede studier om ivermectin falsk, at det var effektivt som behandling, hvilket førte til forvirring og forsinkede effektive offentlige sundhedsindsats. Dette eksempel understreger den potentielle skade ved at sprede upålidelig forskning, hvor fejlbehæftede resultater kan have en betydelig indvirkning.

Konsekvenser for AI-træning og tillid

Implikationerne er dybtgående, når LLM’er trænes på databaser, der indeholder svindel- eller lavkvalitetsforskning. AI-modeller bruger mønstre og relationer i deres træningsdata til at generere udgang. Hvis indgangsdataene er korrupte, kan udgangene muligvis fastholde uændreligheder eller endda forstærke dem. Denne risiko er særligt høj i fag som medicin, hvor forkerte AI-genererede indsigt kan have livstruende konsekvenser.
Desuden true denne sag den offentlige tillid til akademiet og AI. Mens udgivere fortsætter med at indgå aftaler, må de imødekomme bekymringer om kvaliteten af de data, der sælges. Hvis de ikke gør det, kan det skade rygtet for det videnskabelige samfund og undergrave AI’s potentielle samfundsmæssige fordele.

Sikring af troværdige data til AI

Reduktion af risikoen for, at fejlbehæftet forskning forstyrrer AI-træning, kræver en fælles indsats fra udgivere, AI-virksomheder, udviklere, forskere og det bredere samfund. Udgivere må forbedre deres peer-review-proces for at fange usikre studier, før de kommer ind i træningsdatasæt. Tilbud af bedre belønninger for anmeldere og fastsættelse af højere standarder kan hjælpe. En åben anmeldelsesproces er afgørende her. Den bringer mere gennemsigtighed og ansvarlighed, hvilket hjælper med at opbygge tillid til forskningen.
AI-virksomheder må være mere omhyggelige med, hvem de samarbejder med, når de søger forskning til AI-træning. Valg af udgivere og tidsskrifter med en stærk rygte for højkvalitets-, velgennemført forskning er afgørende. I denne sammenhæng er det værd at se nærmere på en udgivers track record – som hvor ofte de trækker artikler tilbage eller hvor åbne de er omkring deres anmeldelsesproces. At være selektiv forbedrer dataens pålidelighed og opbygger tillid på tværs af AI- og forskningssamfundene.

AI-udviklere må tage ansvar for de data, de bruger. Dette indebærer at arbejde med eksperter, omhyggeligt at kontrollere forskning og sammenligne resultater fra flere studier. AI-værktøjer selv kan også være designet til at identificere mistænkelige data og reducere risikoen for, at tvivlsom forskning spreder sig yderligere.

Gennemsigtighed er også en afgørende faktor. Udgivere og AI-virksomheder må åbent dele oplysninger om, hvordan forskning bruges, og hvor royalties går. Værktøjer som Generative AI Licensing Agreement Tracker viser lovende, men kræver bredere accept. Forskere må også have et ord at sige i, hvordan deres arbejde bruges. Opt-in-politikker, som dem fra Cambridge University Press, giver forfattere kontrol over deres bidrag. Dette opbygger tillid, sikrer retfærdighed og gør forfattere aktivt deltagende i denne proces.

Desuden bør der opmuntres til åben adgang til højkvalitetsforskning for at sikre inklusivitet og retfærdighed i AI-udvikling. Regeringer, non-profit-organisationer og branchespillere kan finansiere åben adgangsinitiativer, hvilket reducerer afhængigheden af kommercielle udgivere for kritiske træningsdatasæt. Oven i det har AI-industrien brug for klare regler for etisk datasourcing. Ved at fokusere på pålidelig, velgennemført forskning kan vi bygge bedre AI-værktøjer, beskytte videnskabelig integritet og opretholde den offentlige tillid til videnskab og teknologi.

Bottom Line

Monetisering af forskning til AI-træning præsenterer både muligheder og udfordringer. Mens licensaftaler for akademisk indhold giver mulighed for udvikling af mere kraftfulde AI-modeller, rejser det også bekymringer om integriteten og pålideligheden af de data, der anvendes. Fejlbehæftet forskning, herunder den fra “paper mills”, kan korrumperere AI-træningsdatasæt, hvilket kan føre til uændreligheder, der kan undergrave offentlig tillid og de potentielle fordele ved AI. For at sikre, at AI-modellerne bygges på troværdige data, må udgivere, AI-virksomheder og udviklere arbejde sammen for at forbedre peer-review-processer, øge gennemsigtighed og prioritere højkvalitets-, velgennemført forskning. Ved at gøre det kan vi sikre fremtiden for AI og opretholde integriteten i det videnskabelige samfund.

Dr. Tehseen Zia er en fastansat lektor ved COMSATS University Islamabad, med en ph.d. i AI fra Vienna University of Technology, Østrig. Specialiseret i kunstig intelligens, maskinlæring, datavidenskab og computer vision, har han gjort betydelige bidrag med publikationer i anerkendte videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som hovedundersøger og fungeret som AI-rådgiver.