Angle d’Anderson
Près de 80% des jeux de données de formation peuvent constituer un risque juridique pour l’IA d’entreprise

Un récent article de recherche de LG AI Research suggère que les jeux de données « ouverts » utilisés pour la formation des modèles d’IA peuvent offrir une fausse sécurité – constatant que près de quatre jeux de données d’IA sur cinq étiquetés comme « utilisables commercialement » contiennent en réalité des risques juridiques cachés.
Ces risques vont de l’inclusion de matériel protégé par le droit d’auteur non divulgué à des conditions de licence restrictives enfouies dans les dépendances d’un jeu de données. Si les conclusions de l’article sont exactes, les entreprises qui s’appuient sur des jeux de données publics peuvent devoir reconsidérer leurs pipelines d’IA actuels, ou risquer une exposition juridique en aval.
Les chercheurs proposent une solution radicale et potentiellement controversée : des agents de conformité basés sur l’IA capables d’analyser et d’auditer l’historique des jeux de données plus rapidement et avec plus de précision que les avocats humains.
L’article indique :
‘Cet article préconise que le risque juridique des jeux de données de formation d’IA ne peut être déterminé uniquement en examinant les conditions de licence de surface ; une analyse approfondie et exhaustive de la redistribution des jeux de données est essentielle pour assurer la conformité.
‘Puisque une telle analyse est au-delà des capacités humaines en raison de sa complexité et de son ampleur, les agents d’IA peuvent combler ce fossé en la réalisant avec plus de rapidité et de précision. Sans automation, les risques juridiques critiques restent en grande partie non examinés, mettant en péril le développement éthique de l’IA et la conformité réglementaire. ‘
‘Nous exhortons la communauté de recherche en IA à reconnaître l’analyse juridique de bout en bout comme une exigence fondamentale et à adopter les approches basées sur l’IA comme la voie viable pour une conformité des jeux de données évolutive.’
En examinant 2 852 jeux de données populaires qui semblaient utilisables commercialement sur la base de leurs licences individuelles, le système automatisé des chercheurs a constaté que seuls 605 (environ 21 %) étaient réellement sûrs sur le plan juridique pour la commercialisation une fois que tous leurs composants et dépendances avaient été tracés.
Le nouvel article est intitulé Ne faites pas confiance aux licences que vous voyez — La conformité des jeux de données nécessite un traçage du cycle de vie à grande échelle alimenté par l’IA, et provient de huit chercheurs de LG AI Research.
Droits et torts
Les auteurs mettent en évidence les défis auxquels sont confrontées les entreprises qui font progresser le développement de l’IA dans un paysage juridique de plus en plus incertain – à mesure que l’esprit universitaire « d’utilisation équitable » autour de la formation des jeux de données cède la place à un environnement fragmenté où les protections juridiques sont floues et où le havre de sûreté n’est plus garanti.
Comme le souligne une publication récemment, les entreprises deviennent de plus en plus défensives quant aux sources de leurs données de formation. L’auteur Adam Buick commente* :
‘[Alors que] OpenAI a divulgué les principales sources de données pour GPT-3, l’article présentant GPT-4 a révélé seulement que les données sur lesquelles le modèle avait été formé étaient un mélange de ‘données disponibles publiquement (telles que les données Internet) et de données sous licence de fournisseurs tiers’.
‘Les motivations derrière ce déplacement loin de la transparence n’ont pas été articulées dans des détails particuliers par les développeurs d’IA, qui dans de nombreux cas n’ont fourni aucune explication du tout. ‘
‘Pour sa part, OpenAI a justifié sa décision de ne pas publier davantage de détails concernant GPT-4 sur la base de préoccupations concernant ‘le paysage concurrentiel et les implications de sécurité des modèles à grande échelle’, sans fournir d’autre explication dans le rapport.’
La transparence peut être un terme trompeur – ou simplement erroné ; par exemple, le modèle génératif phare d’Adobe, Firefly, formé à partir de données stock que Adobe avait le droit d’exploiter, offrait supposément aux clients des garanties quant à la légalité de l’utilisation du système. Plus tard, certaines preuves sont apparues selon lesquelles le pot de données Firefly s’était « enrichi » de données potentiellement protégées par le droit d’auteur provenant d’autres plateformes.
Comme nous l’avons discuté plus tôt cette semaine, il existe des initiatives croissantes visant à assurer la conformité des licences dans les jeux de données, notamment une initiative qui ne scrappe que des vidéos YouTube avec des licences Creative Commons flexibles.
Le problème est que les licences en elles-mêmes peuvent être erronées, ou accordées par erreur, comme le semble indiquer la nouvelle recherche.
Examen des jeux de données open source
Il est difficile de développer un système d’évaluation tel que celui des auteurs lorsque le contexte est en constante évolution. Par conséquent, l’article indique que le système de conformité des données NEXUS est basé sur « divers précédents et fondements juridiques à ce stade ».
NEXUS utilise un agent basé sur l’IA appelé AutoCompliance pour la conformité des données automatisée. AutoCompliance est composé de trois modules clés : un module de navigation pour l’exploration Web ; un module de questions-réponses (QA) pour l’extraction d’informations ; et un module de notation pour l’évaluation des risques juridiques.

AutoCompliance commence avec une page Web fournie par l’utilisateur. L’IA extrait les détails clés, recherche des ressources liées, identifie les conditions de licence et les dépendances, et attribue un score de risque juridique. Source : https://arxiv.org/pdf/2503.02784
Ces modules sont alimentés par des modèles d’IA affinés, notamment le modèle EXAONE-3.5-32B-Instruct, formé sur des données synthétiques et étiquetées par des humains. AutoCompliance utilise également une base de données pour mettre en cache les résultats et améliorer l’efficacité.
AutoCompliance commence avec une URL de jeu de données fournie par l’utilisateur et la traite comme l’entité racine, en recherchant ses conditions de licence et ses dépendances, et en traçant de manière récursive les jeux de données liés pour construire un graphique de dépendance de licence. Une fois que toutes les connexions sont cartographiées, il calcule les scores de conformité et attribue des classifications de risque.
Le cadre de conformité des données décrit dans le nouvel article identifie divers types d’entités† impliquées dans le cycle de vie des données, notamment les jeux de données, qui forment l’entrée principale pour la formation de l’IA ; les logiciels de traitement de données et les modèles d’IA, qui sont utilisés pour transformer et utiliser les données ; et les fournisseurs de services de plateforme, qui facilitent la manipulation des données.
Le système évalue de manière holistique les risques juridiques en considérant ces diverses entités et leurs interdépendances, allant au-delà de l’évaluation des licences des jeux de données pour inclure un écosystème plus large des composants impliqués dans le développement de l’IA.

La conformité des données évalue le risque juridique sur l’ensemble du cycle de vie des données. Elle attribue des scores en fonction des détails des jeux de données et de 14 critères, en classifiant les entités individuelles et en agrégeant le risque sur les dépendances.
Formation et métriques
Les auteurs ont extrait les URL des 1 000 jeux de données les plus téléchargés sur Hugging Face, en échantillonnant aléatoirement 216 éléments pour constituer un ensemble de test.
Le modèle EXAONE a été affiné sur le jeu de données personnalisé des auteurs, le module de navigation et le module de questions-réponses utilisant des données synthétiques, et le module de notation utilisant des données étiquetées par des humains.
Les étiquettes de vérité ont été créées par cinq experts juridiques formés pendant au moins 31 heures à des tâches similaires. Ces experts humains ont identifié manuellement les dépendances et les conditions de licence pour 216 cas de test, puis ont agrégé et affiné leurs résultats par le biais de discussions.
Avec le système AutoCompliance formé et calibré par des humains testé contre ChatGPT-4o et Perplexity Pro, des dépendances nettement plus nombreuses ont été découvertes dans les conditions de licence :

Précision dans l’identification des dépendances et des conditions de licence pour 216 jeux de données d’évaluation.
L’article indique :
‘AutoCompliance surpasse de manière significative tous les autres agents et les experts humains, atteignant une précision de 81,04 % et 95,83 % pour chaque tâche. En revanche, ChatGPT-4o et Perplexity Pro montrent une précision relativement faible pour les tâches Source et Licence, respectivement. ‘
‘Ces résultats mettent en évidence les performances supérieures d’AutoCompliance, démontrant son efficacité pour traiter les deux tâches avec une remarquable précision, tout en indiquant un écart de performance important entre les modèles basés sur l’IA et les experts humains dans ces domaines.’
En termes d’efficacité, l’approche AutoCompliance a pris seulement 53,1 secondes pour s’exécuter, par rapport à 2 418 secondes pour l’évaluation humaine équivalente sur les mêmes tâches.
De plus, le coût de l’évaluation s’est élevé à 0,29 USD, par rapport à 207 USD pour les experts humains. Il convient de noter, cependant, que cela repose sur la location d’un nœud GCP a2-megagpu-16gpu mensuel à un taux de 14 225 USD par mois – ce qui signifie que cette efficacité coûts est liée principalement à une exploitation à grande échelle.
Enquête sur les jeux de données
Pour l’analyse, les chercheurs ont sélectionné 3 612 jeux de données en combinant les 3 000 jeux de données les plus téléchargés sur Hugging Face avec 612 jeux de données de l’initiative Data Provenance de 2023.
L’article indique :
‘En partant des 3 612 entités cibles, nous avons identifié un total de 17 429 entités uniques, dont 13 817 entités apparaissant comme des dépendances directes ou indirectes des entités cibles.
‘Pour notre analyse empirique, nous considérons qu’une entité et son graphique de dépendance de licence ont une structure à une couche si l’entité n’a pas de dépendances et une structure à plusieurs couches si elle a une ou plusieurs dépendances.’
‘Sur les 3 612 jeux de données cibles, 2 086 (57,8 %) avaient des structures à plusieurs couches, tandis que les 1 526 autres (42,2 %) avaient des structures à une couche sans dépendances.’
Les jeux de données protégés par le droit d’auteur ne peuvent être redistribués qu’avec une autorisation légale, qui peut provenir d’une licence, d’exceptions au droit d’auteur ou de conditions contractuelles. La redistribution non autorisée peut entraîner des conséquences juridiques, notamment la violation du droit d’auteur ou la violation d’un contrat. Par conséquent, l’identification claire de la non-conformité est essentielle.

Violations de distribution trouvées sous le critère 4.4 de la conformité des données mentionné dans l’article.
L’étude a constaté 9 905 cas de redistribution non conforme de jeux de données, répartis en deux catégories : 83,5 % étaient explicitement interdits par les conditions de licence, ce qui rend la redistribution une violation juridique claire ; et 16,5 % concernaient des jeux de données avec des conditions de licence contradictoires, où la redistribution était autorisée en théorie mais qui ne répondaient pas aux conditions requises, créant un risque juridique en aval.
Les auteurs reconnaissent que les critères de risque proposés dans NEXUS ne sont pas universels et peuvent varier en fonction de la juridiction et de l’application de l’IA, et que les améliorations futures devraient se concentrer sur l’adaptation aux réglementations mondiales changeantes tout en affinant l’examen juridique basé sur l’IA.
Conclusion
Ceci est un article prolixe et largement inhospitalier, mais qui aborde peut-être le plus grand facteur de retard dans l’adoption actuelle de l’IA par l’industrie – la possibilité que des données « ouvertes » apparemment sécurisées soient plus tard revendiquées par diverses entités, personnes et organisations.
Sous la DMCA, les violations peuvent légalement entraîner des amendes massives au cas par cas. Lorsque les violations peuvent s’élever à des millions, comme dans les cas découverts par les chercheurs, la responsabilité juridique potentielle est vraiment significative.
En outre, les entreprises qui peuvent être prouvées avoir bénéficié de données en amont ne peuvent pas (comme d’habitude) invoquer l’ignorance comme excuse, du moins sur le marché influent des États-Unis. Elles n’ont actuellement aucun outil réaliste pour pénétrer les implications labyrinthiques enfouies dans les accords de licence de jeux de données open source.
Le problème pour formuler un système tel que NEXUS est qu’il serait déjà suffisamment difficile de le calibrer au niveau de chaque État aux États-Unis, ou au niveau de chaque nation au sein de l’UE ; la perspective de créer un cadre véritablement mondial (une sorte d’« Interpol pour la provenance des jeux de données ») est compromise non seulement par les motivations contradictoires des gouvernements divers impliqués, mais également par le fait que ces gouvernements et l’état de leurs lois actuelles à ce sujet sont constamment en évolution.
* Mon substitution de liens hypertexte pour les citations des auteurs.
† Six types sont prescrits dans l’article, mais les deux derniers ne sont pas définis.
Publié pour la première fois vendredi 7 mars 2025












