Inteligența artificială
Monetizarea cercetării pentru formarea AI: riscurile și cele mai bune practici

Pe măsură ce cererea de IA generativă crește, la fel crește și foamea de date de înaltă calitate pentru a antrena aceste sisteme. Editorii academici au început să-și monetizeze conținutul de cercetare pentru a oferi date de instruire pentru modele lingvistice mari (LLM). În timp ce această dezvoltare creează un nou flux de venituri pentru editori și dă putere AI generativă pentru descoperiri științifice, ea ridică întrebări critice cu privire la integritatea și fiabilitatea cercetării utilizate. Acest lucru ridică o întrebare crucială: sunt seturile de date vândute demne de încredere și ce implicații are această practică pentru comunitatea științifică și modelele AI generative?
Creșterea ofertelor de cercetare monetizate
Marii edituri academice, inclusiv Wiley, Taylor & Francis și alții, au raportate venituri substanțiale din acordarea de licențe pentru conținutul acestora către companiile de tehnologie care dezvoltă modele AI generative. De exemplu, Wiley a dezvăluit venituri de peste 40 de milioane de dolari din astfel de tranzacții numai în acest an. Aceste acorduri permit companiilor AI să acceseze seturi de date științifice diverse și expansive, probabil îmbunătățind calitatea instrumentelor lor AI.
Prezentarea editorilor este simplă: acordarea de licențe asigură modele de inteligență artificială mai bune, beneficiind societatea în timp ce răsplătește autorii cu drepturi de autor. Acest model de afaceri avantajează atât companiile de tehnologie, cât și editorii. Cu toate acestea, tendința din ce în ce mai mare de a monetiza cunoștințele științifice are riscuri, în principal atunci când cercetările discutabile se infiltrează în aceste seturi de date de instruire AI.
Umbra cercetărilor false
Comunitatea savantă nu este străină de problemele cercetării frauduloase. Studiile sugerează că multe constatări publicate sunt eronate, părtinitoare sau pur și simplu nesigure. Un sondaj din 2020 a constatat că aproape jumătate dintre cercetători au raportat probleme precum raportarea selectivă a datelor sau studiile de teren prost concepute. În 2023, mai mult decât 10,000 lucrări au fost retractate din cauza unor rezultate falsificate sau nesigure, un număr care continuă să crească anual. Experții cred că această cifră reprezintă vârful unui aisberg, cu nenumărate studii dubioase care circulă în bazele de date științifice.
Criza a fost determinată în primul rând de „fabrici de hârtie”, organizații din umbră care produc studii fabricate, adesea ca răspuns la presiunile academice din regiuni precum China, India și Europa de Est. Se estimează că în jurul valorii de 2% din trimiterile de reviste la nivel global provin de la fabricile de hârtie. Aceste lucrări false pot semăna cu cercetările legitime, dar sunt pline de date fictive și concluzii fără temei. În mod îngrijorător, astfel de lucrări trec prin evaluarea inter pares și ajung în reviste respectate, compromițând fiabilitatea cunoștințelor științifice. De exemplu, în timpul pandemiei de COVID-19, studii greșite pe ivermectina a sugerat în mod fals eficacitatea sa ca tratament, semănând confuzie și amânând răspunsurile eficiente de sănătate publică. Acest exemplu evidențiază potențialul prejudiciu al diseminării cercetării nesigure, unde rezultatele greșite pot avea un impact semnificativ.
Consecințe pentru instruirea și încrederea în IA
Implicațiile sunt profunde atunci când LLM se antrenează pe baze de date care conțin cercetări frauduloase sau de calitate scăzută. Modelele AI folosesc modele și relații în datele lor de antrenament pentru a genera rezultate. Dacă datele de intrare sunt corupte, ieșirile pot perpetua inexactitățile sau chiar le pot amplifica. Acest risc este deosebit de mare în domenii precum medicina, unde informații incorecte generate de AI ar putea avea consecințe care pun viața în pericol.
Mai mult, problema amenință încrederea publicului în mediul academic și în inteligența artificială. Pe măsură ce editorii continuă să încheie acorduri, aceștia trebuie să abordeze preocupările legate de calitatea datelor vândute. Nerespectarea acestei prevederi ar putea dăuna reputației comunității științifice și ar putea submina potențialele beneficii societale ale inteligenței artificiale.
Asigurarea datelor de încredere pentru AI
Reducerea riscurilor ca cercetarea defectuoasă să perturbe formarea AI necesită un efort comun din partea editorilor, companiilor AI, dezvoltatorilor, cercetătorilor și comunității mai largi. Editorii trebuie să-și îmbunătățească procesul de evaluare inter pares pentru a surprinde studii nesigure înainte de a ajunge în seturi de date de instruire. Oferirea de recompense mai bune pentru recenzenți și stabilirea unor standarde mai înalte poate ajuta. Un proces de revizuire deschis este esențial aici. Aduce mai multă transparență și responsabilitate, ajutând la construirea încrederii în cercetare.
Companiile de AI trebuie să fie mai atente cu cine lucrează atunci când aprovizionează cercetare pentru instruirea AI. Alegerea editorilor și a revistelor cu o reputație puternică pentru cercetări de înaltă calitate, bine revizuite este esențială. În acest context, merită să privim îndeaproape istoricul unui editor, cum ar fi cât de des își retrag lucrările sau cât de deschisi sunt cu privire la procesul de revizuire. A fi selectiv îmbunătățește fiabilitatea datelor și creează încredere în comunitățile AI și de cercetare.
Dezvoltatorii AI trebuie să își asume responsabilitatea pentru datele pe care le folosesc. Aceasta înseamnă să lucrezi cu experți, să verifici cu atenție cercetările și să compari rezultatele din mai multe studii. Instrumentele AI în sine pot fi proiectate, de asemenea, pentru a identifica datele suspecte și pentru a reduce riscurile de extindere a cercetărilor îndoielnice.
Transparența este, de asemenea, un factor esențial. Editorii și companiile de inteligență artificială ar trebui să împărtășească în mod deschis detalii despre modul în care este utilizată cercetarea și unde ajung redevențele. Instrumente precum Instrumentul de urmărire a acordului de licență generativ AI arată promițători, dar au nevoie de o adoptare mai largă. Cercetătorii ar trebui, de asemenea, să aibă un cuvânt de spus în modul în care sunt utilizate munca lor. Politici de înscriere, ca cei de la Presa universitară din Cambridge, oferă autorilor controlul asupra contribuțiilor lor. Acest lucru creează încredere, asigură corectitudinea și îi face pe autori să participe activ la acest proces.
În plus, ar trebui încurajat accesul deschis la cercetare de înaltă calitate inclusivitate și corectitudine în dezvoltarea IA. Guvernele, organizațiile non-profit și actorii din industrie pot finanța inițiative de acces deschis, reducând dependența de editorii comerciali pentru seturile de date critice de instruire. În plus, industria AI are nevoie de reguli clare pentru aprovizionarea datelor din punct de vedere etic. Concentrându-ne pe cercetări de încredere și bine revizuite, putem construi instrumente AI mai bune, putem proteja integritatea științifică și putem menține încrederea publicului în știință și tehnologie.
Linia de jos
Monetizarea cercetării pentru formarea AI prezintă atât oportunități, cât și provocări. În timp ce acordarea de licențe a conținutului academic permite dezvoltarea unor modele AI mai puternice, ea ridică și îngrijorări cu privire la integritatea și fiabilitatea datelor utilizate. Cercetarea greșită, inclusiv cea de la „fabricile de hârtie”, poate corupa seturile de date de instruire AI, ceea ce duce la inexactități care pot submina încrederea publicului și potenţialele beneficii ale AI. Pentru a se asigura că modelele de inteligență artificială sunt construite pe date de încredere, editorii, companiile de inteligență artificială și dezvoltatorii trebuie să lucreze împreună pentru a îmbunătăți procesele de evaluare inter pares, pentru a crește transparența și pentru a acorda prioritate cercetării de înaltă calitate, bine verificate. Procedând astfel, putem proteja viitorul AI și putem susține integritatea comunității științifice.