Éthique
Les pratiques actuelles de l’IA pourraient permettre l’émergence d’une nouvelle génération de trolls de droit d’auteur

Une nouvelle collaboration de recherche entre Huawei et le monde universitaire suggère qu’une grande partie des recherches les plus importantes actuelles en intelligence artificielle et en apprentissage automatique pourrait être exposée à des poursuites judiciaires dès qu’elle deviendra commercialement importante, car les jeux de données qui rendent possibles les avancées sont distribués avec des licences invalides qui ne respectent pas les conditions d’origine des domaines publics à partir desquels les données ont été obtenues.
En effet, cela a deux conséquences presque inévitables : que les algorithmes d’IA très réussis et commercialisés qui sont connus pour avoir utilisé de tels jeux de données deviendront les cibles futures de trolls de brevets opportunistes dont les droits d’auteur n’ont pas été respectés lors de la collecte de leurs données ; et que les organisations et les individus pourront utiliser ces mêmes vulnérabilités juridiques pour protester contre le déploiement ou la diffusion de technologies d’apprentissage automatique qu’ils trouvent objectionables.
Le document est intitulé Puis-je utiliser ce jeu de données publiquement disponible pour construire un logiciel d’IA commercial ? Il est peu probable que ce soit le cas, et est une collaboration entre Huawei Canada et Huawei Chine, ainsi que l’Université York au Royaume-Uni et l’Université de Victoria au Canada.
Cinq des six jeux de données open source les plus populaires ne sont pas utilisables légalement
Pour la recherche, les auteurs ont demandé aux départements de Huawei de sélectionner les jeux de données open source les plus souhaitables qu’ils aimeraient exploiter dans des projets commerciaux, et ont sélectionné les six jeux de données les plus demandés à partir des réponses : CIFAR-10 (un sous-ensemble du jeu de données 80 millions d’images minuscules, depuis retiré pour des ‘termes dérogatoires’ et des ‘images offensantes’, bien que ses dérivés se multiplient) ; ImageNet ; Cityscapes (qui contient exclusivement du matériel original) ; FFHQ ; VGGFace2, et MSCOCO.
Pour analyser si les jeux de données sélectionnés étaient adaptés à une utilisation légale dans des projets commerciaux, les auteurs ont développé un pipeline novateur pour retracer la chaîne de licences aussi loin que possible pour chaque ensemble, bien qu’ils aient souvent dû recourir à des captures d’archives Web pour localiser les licences à partir de domaines maintenant expirés, et dans certains cas, ont dû ‘deviner’ le statut de la licence à partir des informations les plus proches disponibles.

Architecture pour le système de traçage de la provenance développé par les auteurs. Source : https://arxiv.org/pdf/2111.02374.pdf
Les auteurs ont constaté que les licences pour cinq des six jeux de données ‘contenaient des risques associés à au moins un contexte d’utilisation commerciale’ :
‘[Nous] observons que, à l’exception de MS COCO, aucune des licences étudiées n’autorise les praticiens à commercialiser un modèle d’IA formé sur les données ou même la sortie du modèle formé. Un tel résultat empêche également efficacement les praticiens d’utiliser des modèles pré-entraînés formés sur ces jeux de données. Les jeux de données et les modèles d’IA pré-entraînés sur eux sont largement utilisés commercialement.’ *
Les auteurs notent en outre que trois des six jeux de données étudiés pourraient également entraîner une violation de licence dans des produits commerciaux si le jeu de données est modifié, car seul MS-COCO permet cela. Pourtant, l’augmentation des données et les sous-ensembles et les sur-ensembles de jeux de données influents sont une pratique courante.
Dans le cas de CIFAR-10, les compilateurs originaux n’ont pas créé de forme conventionnelle de licence, ne demandant qu’une citation du document original qui a accompagné la publication du jeu de données, présentant un obstacle supplémentaire pour établir le statut juridique des données.
En outre, seul le jeu de données CityScapes contient du matériel qui est exclusivement généré par les créateurs du jeu de données, plutôt que d’être ‘curé’ (collecté) à partir de sources de réseau, avec CIFAR-10 et ImageNet utilisant plusieurs sources, chacune desquelles devrait être investiguée et traçée pour établir tout mécanisme de droit d’auteur (ou même une déclaration significative).
Pas d’issue
Il existe trois facteurs sur lesquels les sociétés d’IA commerciales semblent s’appuyer pour se protéger des poursuites judiciaires autour de produits qui ont utilisé du contenu protégé par le droit d’auteur à partir de jeux de données librement et sans autorisation, pour former des algorithmes d’IA. Aucun de ces facteurs n’offre une protection fiable à long terme :
1 : Lois nationales laxistes
Bien que les gouvernements du monde entier soient contraints de relâcher les lois sur la collecte de données pour ne pas reculer dans la course vers une IA performante (qui repose sur de grandes quantités de données du monde réel pour lesquelles une conformité régulière au droit d’auteur et une licence seraient irréalistes), seuls les États-Unis offrent une immunité complète à cet égard, en vertu de la doctrine de l’utilisation équitable – une politique qui a été ratifiée en 2015 avec la conclusion de Authors Guild c. Google, Inc., qui a affirmé que le géant de la recherche pouvait librement ingérer du matériel protégé par le droit d’auteur pour son projet Google Books sans être accusé de contrefaçon.
Si la politique de la doctrine de l’utilisation équitable change un jour (c’est-à-dire en réponse à un autre cas emblématique impliquant des organisations ou des sociétés suffisamment puissantes), il serait probablement considéré comme un état a priori en termes d’exploitation des bases de données actuelles qui enfreignent le droit d’auteur ; mais pas l’utilisation continue et le développement de systèmes qui ont été rendus possibles grâce à du matériel protégé par le droit d’auteur sans accord.
Cela met la protection actuelle de la doctrine de l’utilisation équitable sur une base très provisoire, et pourrait potentiellement, dans ce scénario, exiger que des algorithmes d’apprentissage automatique commercialisés et établis cessent leur fonctionnement dans les cas où leurs origines ont été rendues possibles par du matériel protégé par le droit d’auteur sans autorisation – même dans les cas où les poids du modèle traitent maintenant exclusivement du contenu autorisé, mais ont été formés sur (et rendus utiles par) du contenu copié illégalement.
En dehors des États-Unis, comme le notent les auteurs dans le nouveau document, les politiques sont généralement moins clémentes. Le Royaume-Uni et le Canada ne protègent l’utilisation de données protégées par le droit d’auteur que pour des fins non commerciales, tandis que la loi de l’UE sur l’extraction de texte et de données (qui n’a pas été entièrement remplacée par les propositions récentes pour une réglementation plus formelle de l’IA) exclut également l’exploitation commerciale pour les systèmes d’IA qui ne sont pas conformes aux exigences de droit d’auteur des données d’origine.
Ces dernières dispositions signifient qu’une organisation peut réaliser de grandes choses avec les données des autres, jusqu’au – mais non y compris – le point de faire de l’argent avec. À ce stade, le produit serait soit exposé sur le plan juridique, soit des arrangements devraient être conclus avec des milliers de détenteurs de droits d’auteur, dont beaucoup sont maintenant introuvables en raison de la nature changeante d’Internet – une perspective impossible et coûteuse.
2 : Avertissement au consommateur
Dans les cas où les organisations contrefactrices espèrent différer la faute, le nouveau document observe également que de nombreuses licences pour les jeux de données open source les plus populaires s’auto-indemnisent contre toute réclamation d’abus de droit d’auteur :
‘Par exemple, la licence d’ImageNet exige explicitement que les praticiens indemnisent l’équipe d’ImageNet contre toute réclamation découlant de l’utilisation du jeu de données. Les jeux de données FFHQ, VGGFace2 et MS COCO exigent que le jeu de données, s’il est distribué ou modifié, soit présenté sous la même licence.’
En effet, cela force ceux qui utilisent les jeux de données open source à absorber la culpabilité pour l’utilisation de matériel protégé par le droit d’auteur, face à des poursuites judiciaires éventuelles (bien qu’il ne protège pas nécessairement les compilateurs d’origine dans un cas où le climat actuel de ‘havre sûr’ est compromis).
3 : Indemnité par obscurité
La nature collaborative de la communauté de l’apprentissage automatique rend difficile l’utilisation de l’occultisme d’entreprise pour obscurcir la présence d’algorithmes qui ont bénéficié de jeux de données qui enfreignent le droit d’auteur. Les projets commerciaux à long terme commencent souvent dans des environnements open source où l’utilisation de jeux de données est une question d’enregistrement, sur GitHub et d’autres forums accessibles publiquement, ou où les origines du projet ont été publiées dans des documents préliminaires ou des articles examinés par des pairs.
Même lorsque ce n’est pas le cas, l’inversion de modèle est de plus en plus capable de révéler les caractéristiques typiques des jeux de données (ou même sortie explicite de certaines des sources), soit en fournissant une preuve en soi, soit suffisamment de soupçon d’infraction pour permettre l’accès ordonné par un tribunal à l’historique du développement de l’algorithme, et aux détails des jeux de données utilisés dans ce développement.
Conclusion
Le document décrit une utilisation chaotique et ad hoc de matériel protégé par le droit d’auteur obtenu sans autorisation, et d’une série de chaînes de licences qui, suivies logiquement aussi loin que l’origine des données, nécessiteraient des négociations avec des milliers de détenteurs de droits d’auteur dont le travail a été présenté sous la bannière de sites avec une grande variété de conditions de licence, dont beaucoup interdisent les œuvres dérivées commerciales.
Les auteurs concluent :
‘Les jeux de données publiquement disponibles sont largement utilisés pour construire des logiciels d’IA commerciaux. On peut le faire si [et] seulement si la licence associée au jeu de données publiquement disponible donne le droit de le faire. Cependant, il n’est pas facile de vérifier les droits et les obligations prévus dans la licence associée aux jeux de données publiquement disponibles. Parce que, parfois, la licence est soit peu claire, soit potentiellement invalide.’
Un autre nouveau travail, intitulé Construire des jeux de données juridiques, publié le 2 novembre par le Centre pour le droit computationnel de l’Université de gestion de Singapour, met également l’accent sur la nécessité pour les scientifiques des données de reconnaître que l’ère de la collecte de données ad hoc est en train de se terminer, et reflète les recommandations du document de Huawei pour adopter des habitudes et des méthodologies plus strictes afin de garantir que l’utilisation des jeux de données n’expose pas un projet à des conséquences juridiques à mesure que la culture change avec le temps, et que l’activité académique actuelle dans le secteur de l’apprentissage automatique recherche un retour commercial sur des années d’investissement. L’auteur observe* :
‘[Le] corpus de la législation affectant les jeux de données d’IA est sur le point de croître, au milieu des inquiétudes selon lesquelles les lois actuelles offrent des garanties insuffisantes safeguards. Le projet de loi AIA [projet de loi de l’UE sur l’intelligence artificielle], s’il est adopté, altérera considérablement le paysage de l’IA et de la gouvernance des données ; d’autres juridictions pourraient suivre avec leurs propres lois. ‘
* Ma conversion de références internes en hyperliens












