Angle d’Anderson

Les pratiques actuelles de l’IA pourraient permettre l’émergence d’une nouvelle génération de trolls de droits d’auteur

Publié le 5 novembre 2021

Mis à jour le 24 mai 2026

Par

Martin Anderson

Une nouvelle collaboration de recherche entre Huawei et le monde universitaire suggère qu’une grande partie des recherches les plus importantes actuelles en intelligence artificielle et en apprentissage automatique pourrait être exposée à des poursuites judiciaires dès qu’elle deviendra commercialement importante, car les jeux de données qui rendent possibles les avancées sont distribués avec des licences invalides qui ne respectent pas les conditions d’origine des domaines publics à partir desquels les données ont été obtenues.

En effet, cela a deux conséquences presque inévitables : que les algorithmes d’IA très réussis et commercialisés qui sont connus pour avoir utilisé de tels jeux de données deviendront les cibles futures de trolls de brevets opportunistes dont les droits d’auteur n’ont pas été respectés lorsque leurs données ont été extraites ; et que les organisations et les individus pourront utiliser ces mêmes vulnérabilités juridiques pour protester contre le déploiement ou la diffusion de technologies d’apprentissage automatique qu’ils trouvent objectionables.

Le document est intitulé Puis-je utiliser ce jeu de données publiquement disponible pour construire un logiciel d’IA commercial ? Il est peu probable que ce soit le cas, et est une collaboration entre Huawei Canada et Huawei Chine, ainsi que l’Université York au Royaume-Uni et l’Université de Victoria au Canada.

Cinq des six jeux de données open source les plus populaires ne sont pas légalement utilisables

Pour la recherche, les auteurs ont demandé aux départements de Huawei de sélectionner les jeux de données open source les plus souhaitables qu’ils aimeraient exploiter dans des projets commerciaux, et ont sélectionné les six jeux de données les plus demandés à partir des réponses : CIFAR-10 (un sous-ensemble du jeu de données 80 millions de petites images, depuis retiré pour des ‘termes dérogatoires’ et des ‘images offensantes’, bien que ses dérivés se multiplient) ; ImageNet ; Cityscapes (qui contient exclusivement du matériel original) ; FFHQ ; VGGFace2, et MSCOCO.

Pour analyser si les jeux de données sélectionnés étaient adaptés à une utilisation légale dans des projets commerciaux, les auteurs ont développé un pipeline novateur pour retracer la chaîne de licences aussi loin que possible pour chaque ensemble, bien qu’ils aient souvent dû recourir à des captures d’archives Web pour localiser les licences à partir de domaines maintenant expirés, et dans certains cas, ont dû ‘deviner’ le statut de la licence à partir des informations les plus proches disponibles.

Architecture pour le système de traçage de la provenance développé par les auteurs. Source: https://arxiv.org/pdf/2111.02374.pdf

Les auteurs ont constaté que les licences pour cinq des six jeux de données ‘contiennent des risques associés à au moins un contexte d’utilisation commercial’ :

‘[Nous] observons que, à l’exception de MS COCO, aucune des licences étudiées n’autorise les praticiens à commercialiser un modèle d’IA formé sur les données ou même la sortie du modèle d’IA formé. Un tel résultat empêche également les praticiens d’utiliser des modèles pré-formés formés sur ces jeux de données. Les jeux de données et les modèles d’IA pré-formés sur ceux-ci sont largement utilisés commercialement.’ *

Les auteurs notent en outre que trois des six jeux de données étudiés pourraient également entraîner une violation de licence dans des produits commerciaux si le jeu de données est modifié, car seul MS-COCO permet cela. Pourtant, la mise à jour des données et les sous-ensembles et les sur-ensembles de jeux de données influents sont une pratique courante.

Dans le cas de CIFAR-10, les compilateurs originaux n’ont pas créé de forme conventionnelle de licence, mais ont seulement exigé que les projets utilisant le jeu de données incluent une citation de l’article original qui accompagnait la publication du jeu de données, présentant un obstacle supplémentaire pour établir le statut juridique des données.

De plus, seul le jeu de données CityScapes contient du matériel qui est exclusivement généré par les créateurs du jeu de données, plutôt que d’être ‘curé’ (extrait) de sources de réseau, avec CIFAR-10 et ImageNet utilisant plusieurs sources, chacune devant être étudiée et traçée pour établir un mécanisme de droits d’auteur (ou même une déclaration significative).

Pas d’issue

Il existe trois facteurs sur lesquels les entreprises d’IA commerciales semblent s’appuyer pour se protéger contre les poursuites judiciaires liées à des produits qui ont utilisé du contenu protégé par le droit d’auteur à partir de jeux de données sans permission, pour former des algorithmes d’IA. Aucun de ces facteurs n’offre une protection fiable à long terme :

1: Laissez-faire des lois nationales
Bien que les gouvernements du monde entier soient contraints de relâcher les lois sur l’extraction de données pour ne pas reculer dans la course vers une IA performante (qui repose sur de grands volumes de données du monde réel pour lesquels la conformité régulière au droit d’auteur et la licence seraient irréalistes), seuls les États-Unis offrent une immunité complète à cet égard, en vertu de la doctrine de l’utilisation équitable – une politique qui a été ratifiée en 2015 avec la conclusion de Authors Guild c. Google, Inc., qui a affirmé que le géant de la recherche pouvait librement ingérer du matériel protégé par le droit d’auteur pour son projet Google Books sans être accusé d’infraction.

Si la politique de la doctrine de l’utilisation équitable change un jour (c’est-à-dire en réponse à un autre cas emblématique impliquant des organisations ou des sociétés très puissantes), elle serait probablement considérée comme un état a priori en termes d’exploitation de bases de données actuellement en infraction au droit d’auteur ; mais pas l’utilisation en cours et le développement de systèmes qui ont été rendus possibles par du matériel protégé par le droit d’auteur sans accord.

Ceci met la protection actuelle de la doctrine de l’utilisation équitable sur une base très provisoire, et pourrait potentiellement, dans ce scénario, exiger que des algorithmes d’IA commerciaux établis et commercialisés cessent leur fonctionnement dans les cas où leurs origines ont été rendues possibles par du matériel protégé par le droit d’auteur – même dans les cas où les poids du modèle traitent maintenant exclusivement du contenu autorisé, mais ont été formés sur (et rendus utiles par) du contenu copié illégalement.

Hors des États-Unis, comme le notent les auteurs dans le nouveau document, les politiques sont généralement moins clémentes. Le Royaume-Uni et le Canada ne couvrent l’utilisation de données protégées par le droit d’auteur que pour des fins non commerciales, tandis que la loi de l’UE sur l’extraction de texte et de données (qui n’a pas été entièrement remplacée par les propositions récentes pour une réglementation plus formelle de l’IA) exclut également l’exploitation commerciale pour les systèmes d’IA qui ne sont pas conformes aux exigences de droit d’auteur des données d’origine.

Ces dispositions signifient qu’une organisation peut réaliser de grandes choses avec les données des autres, jusqu’au – mais pas y compris – le point de réaliser un bénéfice. À ce stade, le produit serait soit exposé sur le plan juridique, soit des arrangements devraient être pris avec des millions de détenteurs de droits d’auteur, dont beaucoup sont maintenant introuvables en raison de la nature changeante d’Internet – une perspective impossible et non rentable.

2: Caveat Emptor
Dans les cas où les organisations contrevenantes espèrent différer la faute, le nouveau document observe également que de nombreuses licences pour les jeux de données open source les plus populaires s’auto-indemnisent contre toute réclamation de violation du droit d’auteur :

‘Par exemple, la licence d’ImageNet exige explicitement que les praticiens indemnisent l’équipe d’ImageNet contre toute réclamation découlant de l’utilisation du jeu de données. Les jeux de données FFHQ, VGGFace2 et MS COCO exigent que le jeu de données, s’il est distribué ou modifié, soit présenté sous la même licence.’

Cela force effectivement ceux qui utilisent les jeux de données open source à absorber la culpabilité pour l’utilisation de contenu protégé par le droit d’auteur, face à des poursuites judiciaires éventuelles (bien que cela ne protège pas nécessairement les compilateurs d’origine dans un cas où le climat actuel de ‘havre sûr’ est compromis).

3: Indemnité par l’obscurité
La nature collaborative de la communauté de l’apprentissage automatique rend difficile l’utilisation de l’occultisme d’entreprise pour dissimuler la présence d’algorithmes qui ont bénéficié de jeux de données en infraction au droit d’auteur. Les projets commerciaux à long terme commencent souvent dans des environnements open source où l’utilisation de jeux de données est une question d’enregistrement, sur GitHub et d’autres forums accessibles publiquement, ou où les origines du projet ont été publiées dans des documents préliminaires ou des articles examinés par des pairs.

Même lorsque ce n’est pas le cas, l’inversion de modèle est de plus en plus capable de révéler les caractéristiques typiques des jeux de données (ou même explicitement sortir une partie du matériel source), soit en fournissant une preuve en soi, soit suffisamment de soupçon d’infraction pour permettre l’accès ordonné par un tribunal à l’historique du développement de l’algorithme et aux détails des jeux de données utilisés dans ce développement.

Conclusion

Le document décrit une utilisation chaotique et ad hoc de contenu protégé par le droit d’auteur obtenu sans permission, et d’une série de chaînes de licences qui, suivies logiquement jusqu’à l’origine des données, nécessiteraient des négociations avec des milliers de détenteurs de droits d’auteur dont le travail a été présenté sous les auspices de sites avec une grande variété de conditions de licence, dont beaucoup interdisent les œuvres dérivées commerciales.

Les auteurs concluent :

‘Les jeux de données publiquement disponibles sont largement utilisés pour construire des logiciels d’IA commerciaux. On peut le faire si [et] seulement si la licence associée au jeu de données publiquement disponible donne le droit de le faire. Cependant, il n’est pas facile de vérifier les droits et les obligations prévus dans la licence associée aux jeux de données publiquement disponibles. Parce que, parfois, la licence est soit peu claire, soit potentiellement invalide.’

Un autre nouveau travail, intitulé Construire des jeux de données juridiques, publié le 2 novembre par le Centre de droit computationnel de l’Université de gestion de Singapour, met également l’accent sur la nécessité pour les scientifiques des données de reconnaître que l’ère de la collecte de données ad hoc est en train de se terminer, et reflète les recommandations du document Huawei pour adopter des habitudes et des méthodologies plus strictes afin de garantir que l’utilisation des jeux de données n’expose pas un projet à des conséquences juridiques à mesure que la culture change et que l’activité académique mondiale dans le secteur de l’apprentissage automatique cherche un retour commercial sur des années d’investissement. L’auteur observe* :

‘[Le] corpus de la législation affectant les jeux de données d’IA est sur le point de croître, au milieu des préoccupations selon lesquelles les lois actuelles offrent des garanties insuffisantes pour la protection. Le projet de loi sur l’IA [l’Acte européen sur l’intelligence artificielle], s’il est adopté, modifiera considérablement le paysage de la gouvernance de l’IA et des données ; d’autres juridictions pourraient suivre avec leurs propres lois. ‘

* Ma conversion des citations en ligne en hyperliens

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Les pratiques actuelles de l’IA pourraient permettre l’émergence d’une nouvelle génération de trolls de droits d’auteur

Cinq des six jeux de données open source les plus populaires ne sont pas légalement utilisables

Pas d’issue

Conclusion

Découvrir plus