Intelligence Artificielle
Monétiser la recherche pour la formation en IA : les risques et les meilleures pratiques

La demande d’IA générative augmente, tout comme la demande de données de haute qualité pour former ces systèmes. Les éditeurs universitaires ont commencé à monétiser leur contenu de recherche pour fournir des données de formation pour les grands modèles linguistiques (LLM). Si cette évolution crée une nouvelle source de revenus pour les éditeurs et permet à l’IA générative de servir aux découvertes scientifiques, elle soulève des questions cruciales sur l’intégrité et la fiabilité des recherches utilisées. Cela soulève une question cruciale : les ensembles de données vendus sont-ils dignes de confiance et quelles sont les implications de cette pratique pour la communauté scientifique et les modèles d’IA générative ?
L'essor des contrats de recherche monétisés
Les principaux éditeurs universitaires, dont Wiley, Taylor & Francis et d’autres, ont rapporté Les entreprises technologiques qui développent des modèles d’IA génératifs peuvent tirer des revenus substantiels de la concession de licences sur leur contenu. Par exemple, Wiley a révélé plus de 40 millions de dollars de revenus provenant de ces accords rien que cette année. Ces accords permettent aux entreprises d’IA d’accéder à des ensembles de données scientifiques divers et étendus, améliorant vraisemblablement la qualité de leurs outils d’IA.
Le discours des éditeurs est clair : les licences garantissent de meilleurs modèles d’IA, bénéfiques pour la société, tout en récompensant les auteurs par des redevances. Ce modèle économique profite à la fois aux entreprises technologiques et aux éditeurs. Cependant, la tendance croissante à monétiser les connaissances scientifiques comporte des risques, notamment lorsque des recherches douteuses s’infiltrent dans ces ensembles de données d’entraînement de l’IA.
L'ombre des fausses recherches
La communauté scientifique n’est pas étrangère aux problèmes de recherche frauduleuse. Des études suggèrent que de nombreux résultats publiés sont erronés, biaisés ou tout simplement peu fiables. Une enquête de 2020 a révélé que près de la moitié des chercheurs ont signalé des problèmes tels que la communication sélective de données ou des études de terrain mal conçues. En 2023, plus de Papiers 10,000 ont été rétractées en raison de résultats falsifiés ou peu fiables, un chiffre qui continue d'augmenter chaque année. Les experts estiment que ce chiffre ne représente que la pointe d'un iceberg, avec d'innombrables études douteuses circulant dans les bases de données scientifiques.
La crise a été principalement provoquée par «usines à papier”, des organisations fantômes qui produisent des études fabriquées, souvent en réponse à des pressions académiques dans des régions comme la Chine, l'Inde et l'Europe de l'Est. On estime que autour 2% des soumissions de revues dans le monde proviennent d'usines à papier. Ces faux articles peuvent ressembler à des recherches légitimes, mais sont truffés de données fictives et de conclusions sans fondement. Il est inquiétant de constater que ces articles échappent à l'examen des pairs et finissent par être publiés dans des revues respectées, compromettant ainsi la fiabilité des informations scientifiques. Par exemple, pendant la pandémie de COVID-19, études erronées Des études sur l’ivermectine ont suggéré à tort son efficacité en tant que traitement, semant la confusion et retardant la mise en place de mesures de santé publique efficaces. Cet exemple met en évidence les risques potentiels liés à la diffusion de recherches non fiables, dont les résultats erronés peuvent avoir un impact significatif.
Conséquences pour la formation et la confiance en l’IA
Les implications sont profondes lorsque les LLM s’entraînent sur des bases de données contenant des recherches frauduleuses ou de mauvaise qualité. Les modèles d’IA utilisent des modèles et des relations au sein de leurs données d’entraînement pour générer des résultats. Si les données d’entrée sont corrompues, les résultats peuvent perpétuer les inexactitudes, voire les amplifier. Ce risque est particulièrement élevé dans des domaines comme la médecine, où des informations erronées générées par l’IA peuvent avoir des conséquences mortelles.
De plus, ce problème menace la confiance du public dans le monde universitaire et l'IA. Alors que les éditeurs continuent de conclure des accords, ils doivent répondre aux préoccupations concernant la qualité des données vendues. Ne pas le faire pourrait nuire à la réputation de la communauté scientifique et compromettre les potentiels bénéfices sociétaux de l'IA.
Assurer la fiabilité des données pour l'IA
Pour réduire les risques de voir des recherches erronées perturber la formation de l’IA, il faut un effort conjoint des éditeurs, des entreprises d’IA, des développeurs, des chercheurs et de la communauté au sens large. Les éditeurs doivent améliorer leur processus d’évaluation par les pairs pour détecter les études peu fiables avant qu’elles ne soient intégrées aux ensembles de données de formation. Offrir de meilleures récompenses aux évaluateurs et fixer des normes plus élevées peut aider. Un processus d’évaluation ouvert est essentiel ici. Il apporte plus de transparence et de responsabilité, contribuant ainsi à renforcer la confiance dans la recherche.
Les entreprises d’IA doivent faire preuve de plus de prudence dans le choix de leurs partenaires lorsqu’elles s’approvisionnent en recherches pour la formation de l’IA. Il est essentiel de choisir des éditeurs et des revues ayant une solide réputation en matière de recherche de qualité et bien évaluée. Dans ce contexte, il est utile d’examiner de près les antécédents d’un éditeur, comme la fréquence à laquelle il retire des articles ou son degré de transparence concernant son processus d’évaluation. Être sélectif améliore la fiabilité des données et renforce la confiance au sein des communautés de l’IA et de la recherche.
Les développeurs d’IA doivent assumer la responsabilité des données qu’ils utilisent. Cela implique de travailler avec des experts, de vérifier soigneusement les recherches et de comparer les résultats de plusieurs études. Les outils d’IA eux-mêmes peuvent également être conçus pour identifier les données suspectes et réduire les risques de propagation de recherches douteuses.
La transparence est également un facteur essentiel. Les éditeurs et les entreprises d'IA devraient partager ouvertement les détails sur la manière dont la recherche est utilisée et sur la destination des redevances. Des outils comme Suivi des accords de licence d'IA générative Les résultats de ces recherches sont prometteurs, mais doivent être adoptés à plus grande échelle. Les chercheurs devraient également avoir leur mot à dire sur la manière dont leurs travaux sont utilisés. Politiques d'adhésion, comme ceux de la presse de l'Universite de Cambridge, offrent aux auteurs le contrôle de leurs contributions. Cela renforce la confiance, garantit l'équité et incite les auteurs à participer activement à ce processus.
En outre, l’accès libre à la recherche de haute qualité devrait être encouragé pour garantir inclusion et équité dans le développement de l'IA. Les gouvernements, les organismes à but non lucratif et les acteurs de l'industrie peuvent financer des initiatives en libre accès, réduisant ainsi la dépendance aux éditeurs commerciaux pour les ensembles de données de formation essentiels. En outre, le secteur de l'IA a besoin de règles claires pour s'approvisionner en données de manière éthique. En nous concentrant sur des recherches fiables et bien évaluées, nous pouvons créer de meilleurs outils d'IA, protéger l'intégrité scientifique et maintenir la confiance du public dans la science et la technologie.
En résumé
La monétisation de la recherche pour la formation en IA présente à la fois des opportunités et des défis. Si l’octroi de licences pour le contenu universitaire permet de développer des modèles d’IA plus puissants, il soulève également des inquiétudes quant à l’intégrité et à la fiabilité des données utilisées. Des recherches erronées, notamment celles issues de « fabriques de papier », peuvent corrompre les ensembles de données de formation en IA, entraînant des inexactitudes susceptibles de saper la confiance du public et les avantages potentiels de l’IA. Pour garantir que les modèles d’IA reposent sur des données fiables, les éditeurs, les entreprises d’IA et les développeurs doivent travailler ensemble pour améliorer les processus d’évaluation par les pairs, accroître la transparence et donner la priorité à des recherches de haute qualité et bien contrôlées. Ce faisant, nous pouvons préserver l’avenir de l’IA et préserver l’intégrité de la communauté scientifique.