Følg os

Kunstig intelligens

Indtægtsgenerering af forskning til AI-træning: risici og bedste praksis

mm

Efterhånden som efterspørgslen efter generativ kunstig intelligens vokser, vokser også sulten efter data af høj kvalitet til at træne disse systemer. Forskere er begyndt at tjene penge på deres forskningsindhold for at levere træningsdata til store sprogmodeller (LLM'er). Selvom denne udvikling skaber en ny indtægtsstrøm for udgivere og styrker generativ AI til videnskabelige opdagelser, rejser den kritiske spørgsmål om integriteten og pålideligheden af ​​den anvendte forskning. Dette rejser et afgørende spørgsmål: Er datasættene, der sælges troværdige, og hvilke implikationer har denne praksis for det videnskabelige samfund og generative AI-modeller?

Fremkomsten af ​​indtægtsgenererede forskningsaftaler

Store akademiske forlag, herunder Wiley, Taylor & Francis og andre, har rapporteret betydelige indtægter fra at licensere deres indhold til teknologivirksomheder, der udvikler generative AI-modeller. For eksempel afslørede Wiley over $40 millioner i indtjening fra sådanne aftaler alene i år. Disse aftaler giver AI-virksomheder adgang til forskellige og ekspansive videnskabelige datasæt, hvilket formentlig forbedrer kvaliteten af ​​deres AI-værktøjer.

Pitchet fra udgivere er ligetil: licensering sikrer bedre AI-modeller, til gavn for samfundet, mens forfattere belønnes med royalties. Denne forretningsmodel gavner både teknologivirksomheder og udgivere. Den stigende tendens til at tjene penge på videnskabelig viden har imidlertid risici, hovedsageligt når tvivlsom forskning infiltrerer disse AI-træningsdatasæt.

Skyggen af ​​falsk forskning

Det videnskabelige samfund er ikke fremmed for spørgsmål om svigagtig forskning. Undersøgelser tyder på, at mange offentliggjorte resultater er fejlbehæftede, partiske eller bare upålidelige. En undersøgelse fra 2020 viste, at næsten halvdelen af ​​forskerne rapporterede problemer som selektiv datarapportering eller dårligt designede feltstudier. I 2023 var mere end Xnumx papirer blev trukket tilbage på grund af forfalskede eller upålidelige resultater, et antal der fortsætter med at stige årligt. Eksperter mener, at dette tal repræsenterer toppen af ​​et isbjerg med utallige tvivlsomme undersøgelser, der cirkulerer i videnskabelige databaser.

Krisen har primært været drevet af "papirmøller,” skyggeorganisationer, der producerer opdigtede undersøgelser, ofte som reaktion på akademisk pres i regioner som Kina, Indien og Østeuropa. Det anslås det omkring 2% af journalindsendelser globalt kommer fra papirfabrikker. Disse falske papirer kan ligne legitim forskning, men er fyldt med fiktive data og grundløse konklusioner. Foruroligende nok glider sådanne artikler gennem peer review og ender i respekterede tidsskrifter, hvilket kompromitterer pålideligheden af ​​videnskabelig indsigt. For eksempel under COVID-19-pandemien, mangelfulde undersøgelser på ivermectin antydede fejlagtigt dets effektivitet som behandling, så forvirring og forsinkede effektive folkesundhedsreaktioner. Dette eksempel fremhæver den potentielle skade ved at formidle upålidelig forskning, hvor mangelfulde resultater kan have en betydelig indvirkning.

Konsekvenser for AI-træning og tillid

Konsekvenserne er dybe, når LLM'er træner på databaser, der indeholder svigagtig forskning eller forskning af lav kvalitet. AI-modeller bruger mønstre og relationer i deres træningsdata til at generere output. Hvis inputdataene er beskadiget, kan udgangene opretholde unøjagtigheder eller endda forstærke dem. Denne risiko er især høj inden for områder som medicin, hvor forkert AI-genereret indsigt kan have livstruende konsekvenser.
Derudover truer problemet offentlighedens tillid til den akademiske verden og kunstig intelligens. Efterhånden som udgivere fortsætter med at indgå aftaler, skal de tage hånd om bekymringer om kvaliteten af ​​de data, der sælges. Undladelse af at gøre dette kan skade det videnskabelige samfunds omdømme og underminere kunstig intelligens' potentielle samfundsmæssige fordele.

Sikring af pålidelige data til AI

At reducere risikoen for, at mangelfuld forskning forstyrrer AI-træning kræver en fælles indsats fra udgivere, AI-virksomheder, udviklere, forskere og det bredere samfund. Udgivere skal forbedre deres peer-review-proces for at fange upålidelige undersøgelser, før de gør det til træningsdatasæt. At tilbyde bedre belønninger til anmeldere og sætte højere standarder kan hjælpe. En åben anmeldelsesproces er kritisk her. Det giver mere gennemsigtighed og ansvarlighed og hjælper med at opbygge tillid til forskningen.
AI-virksomheder skal være mere forsigtige med, hvem de arbejder med, når de køber forskning til AI-træning. At vælge forlag og tidsskrifter med et stærkt ry for højkvalitets, velanmeldt forskning er nøglen. I denne sammenhæng er det værd at se nærmere på en udgivers track record – som hvor ofte de trækker papirer tilbage, eller hvor åbne de er omkring deres anmeldelsesproces. At være selektiv forbedrer dataens pålidelighed og opbygger tillid på tværs af AI og forskningsmiljøer.

AI-udviklere skal tage ansvar for de data, de bruger. Det betyder at arbejde med eksperter, omhyggeligt kontrollere forskning og sammenligne resultater fra flere undersøgelser. AI-værktøjer selv kan også designes til at identificere mistænkelige data og reducere risikoen for, at tvivlsom forskning spredes yderligere.

Gennemsigtighed er også en væsentlig faktor. Udgivere og AI-virksomheder bør åbent dele detaljer om, hvordan forskning bruges, og hvor royalties går. Værktøjer som Generativ AI Licensing Agreement Tracker vise løfter, men har brug for en bredere adoption. Forskere bør også have indflydelse på, hvordan deres arbejde bruges. Tilvalgspolitikker, som dem fra Cambridge University Press, tilbyder forfattere kontrol over deres bidrag. Dette opbygger tillid, sikrer retfærdighed og får forfattere til at deltage aktivt i denne proces.

Desuden bør åben adgang til forskning af høj kvalitet fremmes for at sikre inklusivitet og retfærdighed i AI-udvikling. Regeringer, non-profitorganisationer og industriaktører kan finansiere initiativer med åben adgang, hvilket reducerer afhængigheden af ​​kommercielle udgivere til kritiske træningsdatasæt. Oven i købet har AI-industrien brug for klare regler for etisk sourcing af data. Ved at fokusere på pålidelig, velanmeldt forskning kan vi bygge bedre AI-værktøjer, beskytte videnskabelig integritet og bevare offentlighedens tillid til videnskab og teknologi.

The Bottom Line

At tjene penge på forskning til AI-træning giver både muligheder og udfordringer. Mens licensering af akademisk indhold giver mulighed for udvikling af mere kraftfulde AI-modeller, rejser det også bekymringer om integriteten og pålideligheden af ​​de anvendte data. Fejlagtig forskning, herunder forskning fra "papirfabrikker", kan ødelægge AI-træningsdatasæt, hvilket kan føre til unøjagtigheder, der kan underminere offentlighedens tillid og de potentielle fordele ved AI. For at sikre, at AI-modeller er bygget på pålidelige data, skal udgivere, AI-virksomheder og udviklere arbejde sammen om at forbedre peer review-processer, øge gennemsigtigheden og prioritere højkvalitets, velovervejet forskning. Ved at gøre det kan vi sikre fremtiden for kunstig intelligens og opretholde integriteten af ​​det videnskabelige samfund.

Dr. Tehseen Zia er fast lektor ved COMSATS University Islamabad og har en ph.d. i kunstig intelligens fra Wiens teknologiske universitet, Østrig. Med speciale i kunstig intelligens, maskinlæring, datavidenskab og computersyn har han ydet betydelige bidrag med publikationer i velrenommerede videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som Principal Investigator og fungeret som AI-konsulent.