Artificiell intelligens
TjÀna pengar pÄ forskning för AI-utbildning: Riskerna och bÀsta praxis

I takt med att efterfrĂ„gan pĂ„ generativ AI ökar, ökar ocksĂ„ hungern efter högkvalitativ data för att trĂ€na dessa system. Vetenskapliga förlag har börjat tjĂ€na pengar pĂ„ sitt forskningsinnehĂ„ll för att tillhandahĂ„lla utbildningsdata för stora sprĂ„kmodeller (LLM). Ăven om denna utveckling skapar en ny intĂ€ktsström för publicister och ger generativ AI för vetenskapliga upptĂ€ckter, vĂ€cker den kritiska frĂ„gor om integriteten och tillförlitligheten hos den forskning som anvĂ€nds. Detta vĂ€cker en avgörande frĂ„ga: Ăr datauppsĂ€ttningarna som sĂ€ljs tillförlitliga, och vilka konsekvenser har denna praxis för det vetenskapliga samfundet och generativa AI-modeller?
Ăkningen av intĂ€ktsgenererade forskningserbjudanden
Stora akademiska förlag, inklusive Wiley, Taylor & Francis, och andra, har rapporterade betydande intÀkter frÄn att licensiera deras innehÄll till teknikföretag som utvecklar generativa AI-modeller. Till exempel avslöjade Wiley över 40 miljoner dollar i intÀkter frÄn sÄdana affÀrer bara i Är. Dessa avtal ger AI-företag tillgÄng till olika och expansiva vetenskapliga datauppsÀttningar, vilket förmodligen förbÀttrar kvaliteten pÄ deras AI-verktyg.
Pitch frÄn förlag Àr okomplicerad: licensiering sÀkerstÀller bÀttre AI-modeller, gynnar samhÀllet samtidigt som författare belönas med royalties. Denna affÀrsmodell gynnar bÄde teknikföretag och förlag. Den ökande trenden att tjÀna pengar pÄ vetenskaplig kunskap har dock risker, frÀmst nÀr tvivelaktig forskning infiltrerar dessa AI-trÀningsdatauppsÀttningar.
Skuggan av falsk forskning
Den vetenskapliga gemenskapen Àr inte frÀmmande för frÄgor om bedrÀglig forskning. Studier tyder pÄ att mÄnga publicerade resultat Àr felaktiga, partiska eller bara opÄlitliga. En undersökning frÄn 2020 visade att nÀstan hÀlften av forskarna rapporterade frÄgor som selektiv datarapportering eller dÄligt utformade fÀltstudier. à r 2023 var mer Àn 10,000-papper drogs tillbaka pÄ grund av förfalskade eller opÄlitliga resultat, ett antal som fortsÀtter att stiga Ärligen. Experter tror att denna siffra representerar toppen av ett isberg, med otaliga tvivelaktiga studier som cirkulerar i vetenskapliga databaser.
Krisen har frĂ€mst drivits av "pappersbrukâ, skuggorganisationer som producerar pĂ„hittade studier, ofta som svar pĂ„ akademiskt tryck i regioner som Kina, Indien och Ăsteuropa. Det uppskattas det runt 2% av tidskrifter globalt kommer frĂ„n pappersbruk. Dessa skenpapper kan likna legitim forskning men Ă€r fulla av fiktiva data och grundlösa slutsatser. OrovĂ€ckande nog glider sĂ„dana artiklar genom peer review och hamnar i respekterade tidskrifter, vilket Ă€ventyrar tillförlitligheten hos vetenskapliga insikter. Till exempel, under covid-19-pandemin, bristfĂ€lliga studier pĂ„ ivermektin föreslog felaktigt dess effektivitet som behandling, sĂ„dde förvirring och försenade effektiva folkhĂ€lsosvar. Detta exempel belyser den potentiella skadan av att sprida opĂ„litlig forskning, dĂ€r felaktiga resultat kan ha en betydande inverkan.
Konsekvenser för AI-trÀning och tillit
Konsekvenserna Àr djupgÄende nÀr LLM:er trÀnar pÄ databaser som innehÄller bedrÀglig forskning eller forskning av lÄg kvalitet. AI-modeller anvÀnder mönster och relationer i sina trÀningsdata för att generera utdata. Om indata Àr korrupta kan utgÄngarna vidmakthÄlla felaktigheter eller till och med förstÀrka dem. Denna risk Àr sÀrskilt hög inom omrÄden som medicin, dÀr felaktiga AI-genererade insikter kan fÄ livshotande konsekvenser.
Dessutom hotar frÄgan allmÀnhetens förtroende för akademin och AI. Eftersom utgivare fortsÀtter att göra avtal mÄste de ta itu med farhÄgor om kvaliteten pÄ den data som sÀljs. Om det inte görs kan det skada forskarsamhÀllets rykte och undergrÀva AI:s potentiella samhÀllsfördelar.
SÀkerstÀlla tillförlitlig data för AI
Att minska riskerna för att bristfÀllig forskning stör AI-utbildningen krÀver en gemensam insats frÄn förlag, AI-företag, utvecklare, forskare och samhÀllet i stort. Utgivare mÄste förbÀttra sin peer-review-process för att fÄnga opÄlitliga studier innan de gör det till utbildningsdatauppsÀttningar. Att erbjuda bÀttre belöningar för recensenter och sÀtta högre standarder kan hjÀlpa. En öppen granskningsprocess Àr avgörande hÀr. Det ger mer transparens och ansvarsskyldighet, vilket hjÀlper till att bygga upp förtroende för forskningen.
AI-företag mĂ„ste vara mer försiktiga med vem de arbetar med nĂ€r de skaffar forskning för AI-utbildning. Att vĂ€lja förlag och tidskrifter med ett starkt rykte för högkvalitativ, vĂ€lrecensat forskning Ă€r nyckeln. I det hĂ€r sammanhanget Ă€r det vĂ€rt att titta nĂ€rmare pĂ„ en förlĂ€ggares meritlista â som hur ofta de drar tillbaka papper eller hur öppna de Ă€r om sin granskningsprocess. Att vara selektiv förbĂ€ttrar datas tillförlitlighet och bygger förtroende inom AI och forskningsgrupper.
AI-utvecklare mÄste ta ansvar för den data de anvÀnder. Detta innebÀr att arbeta med experter, noggrant kontrollera forskning och jÀmföra resultat frÄn flera studier. AI-verktyg i sig kan ocksÄ utformas för att identifiera misstÀnkta data och minska riskerna för att tvivelaktig forskning sprids ytterligare.
Transparens Àr ocksÄ en viktig faktor. Publishers och AI-företag bör öppet dela detaljer om hur forskning anvÀnds och var royalties gÄr. Verktyg som Generativ spÄrning av AI-licensavtal visa löfte men behöver bredare antagande. Forskare bör ocksÄ ha inflytande över hur deras arbete anvÀnds. Opt-in policyer, som de frÄn Cambridge University Press, erbjuder författare kontroll över sina bidrag. Detta bygger förtroende, sÀkerstÀller rÀttvisa och gör att författare deltar aktivt i denna process.
Dessutom bör öppen tillgÄng till forskning av hög kvalitet uppmuntras för att sÀkerstÀlla inklusivitet och rÀttvisa inom AI-utveckling. Regeringar, ideella organisationer och branschaktörer kan finansiera initiativ med öppen tillgÄng, vilket minskar beroendet av kommersiella utgivare för viktiga utbildningsdatauppsÀttningar. Utöver det behöver AI-branschen tydliga regler för att anskaffa data etiskt. Genom att fokusera pÄ pÄlitlig, vÀl granskad forskning kan vi bygga bÀttre AI-verktyg, skydda vetenskaplig integritet och upprÀtthÄlla allmÀnhetens förtroende för vetenskap och teknik.
The Bottom Line
Att tjĂ€na pengar pĂ„ forskning för AI-utbildning innebĂ€r bĂ„de möjligheter och utmaningar. Ăven om licensiering av akademiskt innehĂ„ll möjliggör utveckling av mer kraftfulla AI-modeller, vĂ€cker det ocksĂ„ farhĂ„gor om integriteten och tillförlitligheten hos de data som anvĂ€nds. Felaktig forskning, inklusive den frĂ„n "pappersbruk", kan korrumpera AI-utbildningsdatauppsĂ€ttningar, vilket kan leda till felaktigheter som kan undergrĂ€va allmĂ€nhetens förtroende och de potentiella fördelarna med AI. För att sĂ€kerstĂ€lla att AI-modeller bygger pĂ„ tillförlitlig data mĂ„ste utgivare, AI-företag och utvecklare samarbeta för att förbĂ€ttra processer för peer review, öka transparensen och prioritera högkvalitativ, vĂ€l beprövad forskning. Genom att göra det kan vi vĂ€rna om AIs framtid och upprĂ€tthĂ„lla integriteten hos det vetenskapliga samfundet.