Intelligence artificielle
Monétiser la recherche pour la formation de l’IA : les risques et les meilleures pratiques
Alors que la demande d’IA générative augmente, la faim de données de haute qualité pour former ces systèmes ne cesse de croître. Les éditeurs universitaires ont commencé à monétiser leur contenu de recherche pour fournir des données de formation pour les grands modèles de langage (LLM). Bien que ce développement crée un nouveau flux de revenus pour les éditeurs et permette à l’IA générative de faire des découvertes scientifiques, il soulève des questions critiques sur l’intégrité et la fiabilité de la recherche utilisée. Cela soulève une question cruciale : les jeux de données vendus sont-ils fiables, et quelles sont les implications de cette pratique pour la communauté scientifique et les modèles d’IA générative ?
L’essor des accords de recherche monétisés
Les principaux éditeurs universitaires, notamment Wiley, Taylor & Francis, et d’autres, ont rapporté des revenus substantiels provenant de la licence de leur contenu à des entreprises de technologie qui développent des modèles d’IA générative. Par exemple, Wiley a révélé plus de 40 millions de dollars de gains provenant de tels accords cette année seule. Ces accords permettent aux entreprises d’IA d’accéder à des jeux de données scientifiques divers et étendus, améliorant ainsi la qualité de leurs outils d’IA.
Le pitch des éditeurs est simple : la licence garantit de meilleurs modèles d’IA, profitant à la société tout en récompensant les auteurs avec des redevances. Ce modèle commercial profite aux entreprises de technologie et aux éditeurs. Cependant, la tendance croissante à monétiser les connaissances scientifiques comporte des risques, notamment lorsque des recherches douteuses infiltrent ces jeux de données de formation d’IA.
L’ombre de la recherche bidon
La communauté universitaire n’est pas étrangère aux problèmes de recherche frauduleuse. Les études suggèrent que de nombreuses découvertes publiées sont erronées, biaisées ou tout simplement peu fiables. Une enquête de 2020 a révélé que près de la moitié des chercheurs ont signalé des problèmes tels que la sélection de données de reporting ou des études de terrain mal conçues. En 2023, plus de 10 000 articles ont été rétractés en raison de résultats falsifiés ou peu fiables, un nombre qui ne cesse de croître chaque année. Les experts estiment que ce chiffre représente la partie émergée de l’iceberg, avec d’innombrables études douteuses circulant dans les bases de données scientifiques.
La crise a été principalement causée par les “paper mills“, des organisations fantômes qui produisent des études fabriquées, souvent en réponse aux pressions universitaires dans des régions comme la Chine, l’Inde et l’Europe de l’Est. On estime que environ 2% des soumissions de revues dans le monde proviennent de paper mills. Ces articles bidon peuvent ressembler à des recherches légitimes mais sont truffés de données fictives et de conclusions sans fondement. De manière inquiétante, de tels articles passent à travers la revue par les pairs et se retrouvent dans des revues respectables, compromettant la fiabilité des connaissances scientifiques. Par exemple, pendant la pandémie de COVID-19, des études erronées sur l’ivermectine ont faussement suggéré son efficacité comme traitement, semant la confusion et retardant les réponses de santé publique efficaces. Cet exemple met en évidence le préjudice potentiel de la diffusion de recherches peu fiables, où les résultats erronés peuvent avoir un impact significatif.
Conséquences pour la formation de l’IA et la confiance
Les implications sont profondes lorsque les LLM s’entraînent sur des bases de données contenant des recherches frauduleuses ou de mauvaise qualité. Les modèles d’IA utilisent les modèles et les relations à l’intérieur de leurs données de formation pour générer des sorties. Si les données d’entrée sont corrompues, les sorties peuvent perpétuer les inexactitudes ou même les amplifier. Ce risque est particulièrement élevé dans des domaines comme la médecine, où les connaissances générées par l’IA peuvent avoir des conséquences graves.
De plus, la question menace la confiance du public dans l’université et l’IA. Alors que les éditeurs continuent à conclure des accords, ils doivent aborder les préoccupations concernant la qualité des données vendues. Le défaut de le faire pourrait nuire à la réputation de la communauté scientifique et miner les avantages potentiels de l’IA.
Assurer des données fiables pour l’IA
Réduire les risques de recherches erronées perturbant la formation de l’IA nécessite un effort conjoint des éditeurs, des entreprises d’IA, des développeurs, des chercheurs et de la communauté dans son ensemble. Les éditeurs doivent améliorer leur processus de revue par les pairs pour détecter les études peu fiables avant qu’elles n’entrent dans les jeux de données de formation. Offrir de meilleures récompenses aux relecteurs et établir des normes plus élevées peut aider. Un processus de revue ouvert est crucial ici. Il apporte plus de transparence et de responsabilité, aidant à établir la confiance dans la recherche.
Les entreprises d’IA doivent être plus prudentes lorsqu’elles travaillent avec des éditeurs pour la recherche de formation d’IA. Choisir des éditeurs et des revues avec une solide réputation pour la recherche de haute qualité et bien revue est clé. Dans ce contexte, il est utile de regarder de près le bilan d’un éditeur — comme la fréquence à laquelle ils retirent des articles ou leur ouverture sur leur processus de revue. Être sélectif améliore la fiabilité des données et établit la confiance au sein des communautés d’IA et de recherche.
Les développeurs d’IA doivent prendre la responsabilité des données qu’ils utilisent. Cela signifie travailler avec des experts, vérifier soigneusement la recherche et comparer les résultats de plusieurs études. Les outils d’IA eux-mêmes peuvent également être conçus pour identifier les données suspectes et réduire les risques de recherche douteuse se propageant plus loin.
La transparence est également un facteur essentiel. Les éditeurs et les entreprises d’IA devraient partager ouvertement des détails sur la manière dont la recherche est utilisée et où les redevances vont. Des outils comme le Generative AI Licensing Agreement Tracker montrent des promesses mais nécessitent une adoption plus large. Les chercheurs devraient également avoir leur mot à dire sur la manière dont leur travail est utilisé. Les politiques d’opt-in, comme celles de Cambridge University Press, offrent aux auteurs le contrôle de leurs contributions. Cela établit la confiance, assure l’équité et fait participer activement les auteurs à ce processus.
De plus, l’accès ouvert à la recherche de haute qualité devrait être encouragé pour assurer l’inclusivité et l’équité dans le développement de l’IA. Les gouvernements, les organisations à but non lucratif et les acteurs de l’indrie peuvent financer des initiatives d’accès ouvert, réduisant ainsi la dépendance à l’égard des éditeurs commerciaux pour les jeux de données de formation critiques. En outre, l’industrie de l’IA a besoin de règles claires pour la source de données éthique. En nous concentrant sur la recherche fiable et bien vérifiée, nous pouvons construire de meilleurs outils d’IA, protéger l’intégrité scientifique et maintenir la confiance du public en science et technologie.
Le fond de l’affaire
La monétisation de la recherche pour la formation de l’IA présente à la fois des opportunités et des défis. Alors que la licence de contenu universitaire permet le développement de modèles d’IA plus puissants, elle soulève également des inquiétudes sur l’intégrité et la fiabilité des données utilisées. La recherche erronée, y compris celle provenant de “paper mills”, peut corrompre les jeux de données de formation d’IA, conduisant à des inexactitudes qui peuvent miner la confiance du public et les avantages potentiels de l’IA. Pour garantir que les modèles d’IA sont construits sur des données fiables, les éditeurs, les entreprises d’IA et les développeurs doivent travailler ensemble pour améliorer les processus de revue par les pairs, augmenter la transparence et donner la priorité à la recherche de haute qualité et bien vérifiée. En agissant ainsi, nous pouvons sauvegarder l’avenir de l’IA et préserver l’intégrité de la communauté scientifique.












