Angle d'Anderson

Méthodes de blanchiment d'IP dans l'IA

Publié 16 mars

Martin Anderson

Image de la Justice générée par une IA et entourée de données « blanchies ». GPT-1.5.

Si une action en justice doit être engagée concernant l'utilisation de la propriété intellectuelle dans l'entraînement des IA, il existe également plusieurs méthodes pour dissimuler une telle utilisation.

Opinion La révolution actuelle, qui progresse rapidement, dans le domaine de l'IA générative se déroule dans un contexte juridique extrêmement précaire, le plus instable qu'ait connu tout autre développement technologique transformateur. depuis le XIXe siècle.

Jusqu'à il y a 3 ou 4 ans, la communauté de recherche en apprentissage automatique bénéficiait d'un mandat tacite (souvent explicite) pour exploiter le matériel protégé par la propriété intellectuelle dans le cadre du développement de nouveaux systèmes ; comme ces systèmes n'étaient pas encore couronnés de succès, en termes de maturité ou de viabilité commerciale, les résultats étaient, à tous égards, académiques.

Durant cette période, le succès soudain d'une nouvelle génération de grands modèles de langage basés sur la diffusion (LLM, tels que ChatGPT et Claude) et les modèles vision-langage (VLM tels que Sora) a indiqué que ces axes de recherche abstraits et jusqu'alors « inoffensifs » étaient devenus commercialement viables et qu'ils avaient dépassé leur « laissez-passer », en ce qui concernait l'exploitation de la propriété intellectuelle d'autrui.

Désormais, les titulaires de droits chercheraient à obtenir une part des bénéfices des systèmes d'IA entraînés en grande partie ou en partie sur leurs données protégées par le droit d'auteur ou autrement protégées, ce qui conduirait à une avalanche continue de procès cela requiert un certain effort même pour s'y retrouver.

Limitée aux affaires portées devant les tribunaux américains, cette étude se poursuit. De nouvelles affaires apparaissent à un rythme effréné aux États-Unis et ailleurs. Source : https://copyrightalliance.org/artificial-intelligence-copyright/court-cases/

Ces données se limitent ici aux cas importés aux États-Unis, mais de nouveaux cas apparaissent à un rythme effréné aux États-Unis et ailleurs. Source

Imposer un « déjeuner gratuit »

L'engagement financier actuellement en cours en ce qui concerne l'infrastructure de service à l'IA, avancé par certaines voix comme une tentative d'ancrer si profondément l'IA « à risque en matière de droits d'auteur » dans la société économique qu'elle devienne non seulement « trop grosse pour faire faillite », mais aussi « trop puissante pour être poursuivie en justice » – ou du moins trop puissante pour que des poursuites judiciaires fructueuses puissent renverser la révolution.

Face à ce sentiment général, le président actuel des États-Unis est s'engager dans une politique son point de vue qui « On ne peut pas s'attendre à ce que vous ayez un programme d'IA performant si chaque article, livre ou autre ressource que vous avez lue ou étudiée est payant. ».

Vraiment ? Rien de semblable ni de comparable ne s’est produit dans l’ère industrielle occidentale, et cela représente un mouvement qui heurte profondément la culture américaine traditionnelle du contentieux et de la réparation ; la mesure la plus proche serait peut-être l’expiration obligatoire des brevets médicaux après 20 ans (en soi). fréquemment sous attaque), et le limitation sur les attentes en matière de vie privée dans les lieux publics.

Cependant, les temps changent ; en l'absence de toute garantie que la tendance actuelle à l'« expropriation pour cause d'utilité publique » au détriment de la protection de la propriété intellectuelle ne faiblira pas, ou ne sera pas inversée ultérieurement, plusieurs approches secondaires deviennent la norme dans le développement des systèmes d'IA et dans le traitement des données d'entraînement, très controversées, qui les alimentent.

Ensembles de données par proxy

L'une de ces approches est remarquablement similaire à la défense (pas toujours couronnée de succès) des sites de listes de torrents selon laquelle ils n'hébergent en réalité aucun contenu litigieux – ni aucun contenu tout court.

Outre le fait d'éviter le stockage et la diffusion de grandes quantités de données d'images ou de vidéos peu compressibles, les collections de ce type permettent une mise à jour rapide – comme la suppression de contenu à la demande des titulaires de droits d'auteur – et le versionnage.

De même que les torrents ne sont que des indicateurs de l'emplacement de contenus protégés par IP, un certain nombre d'ensembles de données très influents ne sont en eux-mêmes que des listes « de pointeurs » de données existantes ; si l'utilisateur final souhaite utiliser ces listes comme liste de téléchargement pour son propre ensemble de données, c'est à ses risques et périls, en ce qui concerne la responsabilité des conservateurs.

Parmi celles-ci figure celle de Google Research Conceptuel 12M ensemble de données, qui fournit des légendes pour les images, mais ne fait que pointer vers emplacements sur le web là où ces images existent (ou existaient au moment de leur sélection) :

Deux exemples tirés de la base de données Conceptual 12M de Google Research. Source : https://github.com/google-research-datasets/conceptual-12m/blob/main/images/cc12m_1.jpg

Deux exemples tirés de la curation conceptuelle 12M de Google Research. Source

Un autre exemple marquant, et qui jouit désormais d'une place de choix dans l'histoire de l'IA, est celui de… Ensemble de données LAION qui a facilité l'avènement du système génératif à diffusion stable en 2022. – le premier framework de ce type à proposer des images génératives open source performantes aux utilisateurs finaux, alors même que les systèmes propriétaires semblaient destinés à faire de tels services un domaine purement commercial et cloisonné :

L'une des nombreuses variantes du projet LAION, présentant des œuvres d'art modernes et protégées par le droit d'auteur. Source : https://huggingface.co/datasets/laion/relaion-pop/viewer/default/train

L'une des nombreuses variantes du projet LAION, présentant des œuvres d'art modernes protégées par le droit d'auteur. Source

Dans de nombreux cas, la taille importante des fichiers de certaines de ces collections de « pointeurs » indique la présence de contenu image dans un fichier téléchargeable et hébergé ; cependant, la taille non négligeable des téléchargements est souvent due au volume important de contenu textuel, et parfois à l’inclusion d’éléments intégrés extraits ou Caractéristiques – résumés ou nœuds dérivés de contenu autrement applicable extrait des données sources au cours du processus d'entraînement.

La vidéo premium

Les ensembles de données vidéo constituent un argument encore plus convaincant en faveur de l'approche « ensemble de données par proxy » ou par pointeur, car le volume élevé de données de stockage requis pour agréger un nombre significatif et utile de vidéos dans une seule collection téléchargeable est prohibitif, et une méthode « distribuée » est souhaitable.

Cependant, dans les deux cas – mais particulièrement pour la vidéo – les URL sources téléchargeables représentent des données qui nécessiteront un traitement approfondi avant d'être utilisées dans les processus de formation. Les images et les vidéos devront être redimensionnées, sinon… décisions de culture fabriqués, afin de créer des échantillons qui s'adapteront à espace GPU disponibleMême les vidéos fortement sous-échantillonnées devront être coupées à des longueurs très courtes, généralement de 3 à 5 secondes.

Parmi les ensembles de données vidéo notables qui utilisent des références à des vidéos en ligne (plutôt que la curation et le conditionnement direct de vidéos), on peut citer ceux de Google. Ensemble de données vidéo Kinetics Human Actionet le géant de la recherche Collection YouTube-8M, Qui utilise annotation de segment pour indiquer comment traiter chaque vidéo une fois téléchargée – mais qui, une fois de plus, laisse à l'utilisateur final le soin d'obtenir les vidéos à partir des URL fournies.

Fermer et ouvrir

Enfin, dans cette catégorie, des données VFX « ouvertes » peuvent être générées par des plateformes fermées qui publient et mettent ensuite à disposition l'ensemble de données résultant. Il est légitime de s'interroger sur les raisons de ce phénomène et de se demander si l'entreprise d'origine souhaite contourner un modèle amont peu respectueux de la propriété intellectuelle pour son propre usage, ou si un ensemble de données « nettoyé » a été demandé à un fournisseur externe.

Un exemple de « lavage générationnel » est sans doute le Ensemble de données Omni-VFX, qui intègre de nombreux points de données provenant de Ensemble de données Open-VFX (ce qui fait référence à de nombreuses plateformes fermées et semi-fermées, telles que Pika et PixVerse).

Honnêtement, Omni-VFX ne fait même pas vraiment d'efforts :

Dans le jeu de données open source Omni-VFX, un visage familier. Source

Responsabilité ancestrale

La deuxième approche majeure du blanchiment de propriété intellectuelle consiste à utiliser du matériel protégé par le droit d'auteur, à un ou plusieurs niveaux. L'une des méthodes de cette catégorie est l'utilisation de données synthétiques qui a été entraîné, à un moment donné en amont, sur des données protégées par le droit d'auteur. Dans de tels cas, et plus particulièrement lorsque des données synthétiques permettent d'obtenir des résultats d'apparence authentique, les œuvres protégées par le droit d'auteur fournissent des transformations qu'il serait impossible de deviner ou d'approximer raisonnablement par des modèles généraux ou des modèles non spécialisés.

C’est précisément le cas lorsque les systèmes vidéo génératifs sont nécessaires pour générer des événements « impossibles », et des événements qui relèveraient généralement de la catégorie des « effets visuels » (VFX).

En fait, ce sujet m'est venu à l'esprit grâce au dernier d'une série d'articles de recherche offrant la possibilité d'« abstraire » divers types d'effets visuels, comme la production de faisceaux laser à partir de parties improbables du corps, soit en ayant été formé sur des clips VFX commandés sur mesure, soit sur des clips VFX « open source » (plutôt que sur la source la plus évidente, comme les plans VFX très coûteux que l'on trouve dans la production de l'univers cinématographique Marvel) :

Exemples tirés du site web EffectMaker, où l'« action » du clip source (à l'extrême gauche) est appliquée à une image source (au centre). Source

Les exemples ci-dessus proviennent de page du projet pour EffectMaker EffectMaker n'est même pas la première solution de cette année à extraire la dynamique des effets visuels d'un clip vidéo et à la transposer dans un nouveau clip, et cela devient en fait une sous-tâche distincte dans la recherche sur les effets visuels par IA*.

Conscientes que les géants des médias tels que Marvel ont plus de chances que la moyenne de gagner des procès en matière de propriété intellectuelle (même dans le contexte susmentionné de « tolérance imposée »), les sociétés d'effets visuels et les start-ups déploient actuellement des efforts considérables pour s'assurer que leurs frameworks d'effets visuels génératifs sont exempts de propriété intellectuelle d'autres entreprises.

Le plus important d'entre eux est Meta, qui a été signalé sur le subreddit r/vfx L'entreprise a lancé une campagne d'embauche hivernale très bien rémunérée jusqu'en 2026, proposant aux artistes VFX de travailler à l'entraînement de modèles d'IA pour produire des effets visuels de qualité hollywoodienne. Bien que la rémunération ne soit pas précisée pour les différents postes, un il l'a décrit comme « de l'argent pour la retraite ».

Suivez l'argent

Cependant, on peut se demander combien d'argent même des entreprises comme Meta sont prêtes à payer pour une véritable diversité et une abondance de ad hoc Les plans à effets spéciaux, étant donné que le plan à effets spéciaux moyen d'un film à succès environ 42 000 dollars américains – et beaucoup obtiennent des scores bien supérieurs.

De plus, il est logique de penser que des modèles d'IA sur mesure générant des effets visuels répondront à la demande populaire, notamment pour divers effets spéciaux classiques issus des catégories de films les plus populaires et les plus coûteuses.

Hormis le fait que les professionnels des effets visuels « restants » pourraient finir par recréer des plans sur lesquels ils ont travaillé pour un catalogue de films existant, il y a aussi le risque de devoir les recréer.^† – ce qui, en soi, situe le travail sur l’ensemble de données « personnalisé » dans le contexte de l’imitation – il n’y a en tout cas aucune garantie que ces nouveaux échantillons coûteux seront finalement entraînés « à partir de zéro » dans une toute nouvelle architecture.

En effet, si de telles activités récréatives sont détournées vers des modules complémentaires comme LoRA, qui reposent sur un modèle de base, alors le processus n'est défendable que dans la mesure où le modèle de base est « exempt de problèmes de propriété intellectuelle » – et rares sont ceux qui le sont.

De même, si le « nouveau » procédé utilise d’autres techniques « hybrides » telles que réglage fin, où la valeur de l'effet visuel repose sur des modèles, antérieurs, ou des intégrations provenant de collections plus anciennes ou de modèles d'intégrité non prouvée, l'originalité de l'œuvre est sans doute cosmétique et sujette à contestation.

Missions impossibles

Le domaine des effets visuels constitue une étude de cas particulièrement intéressante concernant le blanchiment potentiel de propriété intellectuelle dans les ensembles de données d'IA, car les plans à effets visuels représentent souvent des choses « impossibles » pour lesquelles il y aura… Aucune alternative open source disponible.

Par exemple, si la démolition d'un bâtiment peut être intégrée à un modèle génératif à partir de divers clips du domaine public ou d'images libres de droits abordables, si vous voulez entraîner un modèle à produire des faisceaux laser humains, vous devrez l'entraîner sur des clips d'effets visuels, volés ou commandés ; ce genre de choses n'arrive nulle part ailleurs.

Même dans le cas d'autres types de catastrophes naturelles, comme les inondations dramatiques, il est peu probable que les sources documentaires disponibles dans le monde réel puissent reproduire des points de vue saisissants sur des événements calamiteux, car (à quelques exceptions prèsLes gens ne diffusent généralement pas de vidéos en direct depuis des lieux de catastrophes. Par conséquent, les « vues spectaculaires » de catastrophes sont rares dans les ensembles de données réelles, et tout modèle d'IA capable d'en générer a probablement obtenu ses informations ailleurs.

La plupart des flux de tâches d'IA souhaitables ne présentent pas ce niveau de spécificité révélateur, et dans de tels cas, l'obscurcissement des avantages des données protégées par la propriété intellectuelle pourrait ne pas nécessiter autant d'efforts.

Conclusion : Un réseau complexe

Seuls ceux qui ont utilisé l'IA générative de manière intensive et prolongée comprendront instinctivement que de tels systèmes peinent à combiner plusieurs concepts lorsqu'aucun exemple comparable n'existe dans leurs données d'entraînement.

Cette limitation est connue sous le nom de enchevêtrement, dans lequel les différentes facettes des concepts appris ont tendance à se regrouper avec des éléments connexes, plutôt que de se décomposer en briques de construction pratiques, de type Lego, qui peuvent être agencées selon n'importe quelle nouvelle configuration que l'utilisateur pourrait souhaiter.

L'intrication est un piège architectural dont il est quasiment impossible de se défaire, du moins pour les approches basées sur la diffusion qui caractérisent tous les principaux frameworks d'IA générale actuels. Cependant, il est possible que de nouvelles approches émergent dans les prochaines années, capables de mieux discrétiser les concepts appris afin de les assembler plus habilement et de fournir moins d'indications quant à leur origine.

* Je ne porte aucune accusation contre EffectMaker, mais je commente ici la généralité d'une pratique émergente dans la recherche vidéo en IA.

^†Car ces plans, dans ce type de films, ont généré et continuent de générer de l'argent.

Première publication le lundi 16 mars 2026

Martin Anderson

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai