Intelligence artificielle

Les jeux de données hyperscale AI sous-curés sont-ils pires que l’Internet lui-même ?

Published October 6, 2021

Updated April 28, 2026

Martin Anderson

Les chercheurs d’Irlande, du Royaume-Uni et des États-Unis ont averti que la croissance des jeux de données d’entraînement d’IA hyperscale menace de propager les pires aspects de leurs sources Internet, contestant qu’un jeu de données universitaire récemment publié comporte des « images et des paires de texte explicites et troubles de viol, de pornographie, de stéréotypes malignes, de jurons racistes et ethniques, ainsi que d’autres contenus extrêmement problématiques ».

Les chercheurs estiment qu’une nouvelle vague de jeux de données multimodaux massifs sous-curés ou mal filtrés sont potentiellement plus nocifs dans leur capacité à renforcer les effets de tels contenus négatifs, dans la mesure où les jeux de données préservent des images et d’autres contenus qui peuvent avoir été supprimés des plateformes en ligne par plainte des utilisateurs, modération locale ou algorithmes.

Ils observent en outre qu’il peut falloir des années – dans le cas du puissant jeu de données ImageNet, une décennie entière – pour que les plaintes persistantes concernant le contenu du jeu de données soient abordées, et que ces révisions ultérieures ne sont pas toujours reflétées, même dans les nouveaux jeux de données dérivés.

Le document, intitulé Jeux de données multimodaux : misogynie, pornographie et stéréotypes malignes, provient de chercheurs de l’University College Dublin & Lero, de l’Université d’Édimbourg, et du chef scientifique de la plateforme d’authentification UnifyID.

Bien que le travail se concentre sur la publication récente du jeu de données CLIP-filtré LAION-400M, les auteurs plaident contre la tendance générale de jeter de plus en plus de données à des cadres d’apprentissage automatique tels que le modèle de langage neuronal GPT-3, et soutiennent que la poussée axée sur les résultats vers une meilleure inférence (et même vers l’intelligence artificielle générale [IAG]), aboutit à l’utilisation ad hoc de sources de données nuisibles avec une négligence de la surveillance des droits d’auteur ; le potentiel de causer et de promouvoir des préjudices ; et la capacité non seulement de perpétuer des données illégales qui auraient pu disparaître autrement du domaine public, mais d’intégrer réellement ces modèles moraux dans les implémentations d’IA en aval.

LAION-400M

Le mois dernier, le jeu de données LAION-400M a été publié, ajoutant au nombre croissant de jeux de données linguistiques multimodaux qui s’appuient sur le référentiel Common Crawl, qui scrape l’Internet de manière indiscriminée et passe la responsabilité du filtrage et de la curation aux projets qui l’utilisent. Le jeu de données dérivé contient 400 millions de paires texte/image.

LAION-400M est une variante open source du jeu de données fermé WIT (WebImageText) de Google AI publié en mars 2021, et comporte des paires texte-image, où une image dans la base de données a été associée à du texte explicite ou des métadonnées (par exemple, le texte alt d’une image dans une galerie Web). Cela permet aux utilisateurs d’effectuer une recherche d’images basée sur du texte, révélant les associations que l’IA sous-jacente a formées sur ces domaines (par exemple, ‘animal’, ‘vélo’, ‘personne’, ‘homme’, ‘femme’).

Cette relation entre image et texte, et la similarité cosinus qui peut intégrer des préjugés dans les résultats de requête, sont au cœur de l’appel du document à des méthodologies améliorées, dans la mesure où des requêtes très simples à la base de données LAION-400M peuvent révéler des préjugés.

Par exemple, l’image de l’astronaute féminine pionnière Eileen Collins dans la bibliothèque d’images scitkit récupère deux légendes associées dans LAION-400M : ‘Ceci est un portrait d’un astronaute avec le drapeau américain’ et ‘Ceci est une photographie d’une femme au foyer souriante dans un costume orange avec le drapeau américain’.

L’astronaute américaine Eileen Collins reçoit deux regards très différents sur ses réalisations en tant que première femme dans l’espace sous LAION-400M. Source : https://arxiv.org/pdf/2110.01963.pdf

Les similarités cosinus rapportées qui rendent chaque légende susceptible d’être applicable sont très proches les unes des autres, et les auteurs soutiennent qu’une telle proximité rendrait les systèmes d’IA qui utilisent LAION-400M relativement susceptibles de présenter l’un ou l’autre comme une légende appropriée.

La pornographie refait surface

LAION-400M a mis une interface de recherche disponible, où la désactivation du bouton de « recherche sécurisée » révèle l’étendue à laquelle les images et les associations textuelles pornographiques dominent les étiquettes et les classes. Par exemple, rechercher ‘nonne’ (NSFW si vous désactivez ensuite le mode sécurisé) dans la base de données renvoie des résultats principalement liés à l’horreur, au cosplay et aux costumes, avec très peu de vraies nonnes disponibles.

La désactivation du mode sécurisé pour la même recherche révèle un flot d’images pornographiques liées au terme, qui repoussent les images non pornographiques vers le bas de la page de résultats, révélant l’étendue à laquelle LAION-400M a attribué un poids plus important aux images pornographiques, car elles sont prévalentes pour le terme « nonne » dans les sources en ligne.

L’activation par défaut du mode sécurisé est trompeuse dans l’interface de recherche en ligne, car il s’agit d’une particularité de l’interface utilisateur, d’un filtre qui ne sera pas nécessairement activé dans les systèmes d’IA dérivés, mais qui a été généralisé dans le domaine « nonne » d’une manière qui n’est pas si facilement filtrée ou distinguée des résultats (relativement) SFW en termes d’utilisation algorithmique.

Le document comporte des exemples floutés à travers différents termes de recherche dans les matériaux supplémentaires à la fin. Ils ne peuvent pas être présentés ici, en raison du langage dans le texte qui accompagne les photos floues, mais les chercheurs notent l’impact que l’examen et le floutage des images ont eu sur eux, et reconnaissent le défi de la curation d’un tel matériel pour la surveillance humaine de grandes bases de données :

‘Nous (ainsi que nos collègues qui nous ont aidés) avons ressenti différents niveaux de malaise, de nausée et de maux de tête pendant le processus de sonde du jeu de données. De plus, ce type de travail rencontre de manière disproportionnée une critique négative importante dans la sphère universitaire de l’IA, ce qui non seulement ajoute une charge émotionnelle supplémentaire à la tâche déjà lourde d’étudier et d’analyser de tels jeux de données, mais décourage également des travaux similaires à l’avenir, au grand détriment du domaine de l’IA et de la société en général.’

Les chercheurs soutiennent que, même si la curation humaine dans la boucle est coûteuse et a des coûts personnels associés, les systèmes de filtrage automatisés conçus pour supprimer ou traiter un tel matériel ne sont clairement pas à la hauteur de la tâche, car les systèmes NLP ont du mal à isoler ou à discountancer le matériel offensant qui peut dominer un jeu de données scrapé, et être ensuite perçu comme significatif en raison de son volume.

Enregistrer le contenu interdit et supprimer les protections de droit d’auteur

Le document soutient que les jeux de données sous-curés de cette nature sont « très susceptibles » de perpétuer l’exploitation d’individus minoritaires, et abordent la question de savoir si des projets de données open source similaires ont le droit, légalement ou moralement, de décharger la responsabilité du matériel sur l’utilisateur final :

‘Les individus peuvent supprimer leurs données d’un site Web et supposer qu’elles sont définitivement disparues, alors qu’elles peuvent toujours exister sur les serveurs de plusieurs chercheurs et organisations. Il y a une question quant à qui est responsable de la suppression de ces données de l’utilisation du jeu de données ? Pour LAION-400M, les créateurs ont délégué cette tâche à l’utilisateur du jeu de données. Étant donné que ces processus sont intentionnellement complexes et que l’utilisateur moyen manque de connaissances techniques pour supprimer ses données, est-ce une approche raisonnable ?’

Ils soutiennent en outre que LAION-400M peut ne pas être adapté pour une publication sous son modèle de licence Creative Common CC-BY 4.0, malgré les avantages potentiels pour la démocratisation de grands jeux de données, qui étaient auparavant le domaine exclusif de sociétés bien financées comme Google et OpenAI.

Le domaine LAION-400M affirme que les images du jeu de données ‘sont sous leur propre droit d’auteur’ – un mécanisme de ‘pass-through’ largement rendu possible par les décisions de justice et les lignes directrices gouvernementales de ces dernières années qui approuvent largement le scraping Web à des fins de recherche. Source : https://rom1504.github.io/clip-retrieval/

Les auteurs suggèrent que des bénévoles (c’est-à-dire des volontaires issus du crowd-sourcing) pourraient résoudre certains problèmes du jeu de données, et que les chercheurs pourraient développer des techniques de filtrage améliorées.

‘Néanmoins, les droits du sujet de données restent non abordés ici. Il est imprudent et dangereux de minimiser les préjudices inhérents à de tels grands jeux de données et d’encourager leur utilisation dans des contextes industriels et commerciaux. La responsabilité du régime de licence sous lequel le jeu de données est fourni repose uniquement sur le créateur du jeu de données’.

Les problèmes de la démocratisation des données hyperscale

Le document soutient que les jeux de données visio-linguistiques aussi grands que LAION-400M n’étaient auparavant disponibles qu’en dehors des grandes sociétés de technologie, et du nombre limité d’institutions de recherche qui disposent des ressources pour les compiler, les curer et les traiter. Ils saluent l’esprit de la nouvelle publication, tout en critiquant son exécution.

Les auteurs soutiennent que la définition acceptée de « démocratisation », dans la mesure où elle s’applique aux jeux de données hyperscale open source, est trop limitée, et ‘ne tient pas compte des droits, du bien-être et des intérêts des individus et des communautés vulnérables, qui sont susceptibles de souffrir le plus des impacts en aval de ce jeu de données et des modèles formés à partir de celui-ci’.

Étant donné que le développement de modèles open source de grande échelle tels que GPT-3 est conçu pour être diffusé à des millions (et par procuration, potentiellement à des milliards) d’utilisateurs dans le monde, et que les projets de recherche peuvent adopter des jeux de données avant qu’ils ne soient modifiés ou même supprimés, en perpétuant les problèmes qui étaient censés être résolus dans les modifications, les auteurs soutiennent que les publications imprudentes de jeux de données sous-curés ne devraient pas devenir une caractéristique habituelle de l’apprentissage automatique open source.

Mettre le génie back dans la bouteille

Certains jeux de données qui ont été supprimés longtemps après que leur contenu ait été transmis, peut-être de manière inextricable, dans des projets d’IA à long terme, ont inclus le jeu de données Duke MTMC (Multi-Target, Multi-Camera), qui a finalement été retiré en raison de préoccupations répétées de la part d’organisations de défense des droits de l’homme concernant son utilisation par les autorités répressives en Chine ; Microsoft Celeb (MS-Celeb-1M), un jeu de données de 10 millions d’images de « célébrités » qui s’est avéré inclure des journalistes, des militants, des responsables politiques et des écrivains, dont l’exposition de données biométriques dans la publication a été vivement critiquée ; et le jeu de données Tiny Images, retiré en 2020 pour des « préjugés, des images offensantes et des termes préjudiciables ».

En ce qui concerne les jeux de données qui ont été modifiés plutôt que supprimés après des critiques, des exemples incluent le jeu de données très populaire ImageNet, qui, selon les chercheurs, a mis dix ans (2009-2019) pour répondre aux critiques répétées concernant la vie privée et les classes non-imageables.

Le document observe que LAION-400M remet effectivement ces améliorations en arrière, en « ignorant largement » les révisions mentionnées dans la représentation d’ImageNet dans la nouvelle publication, et soupçonne une tendance plus large à cet égard* :

‘Ceci est mis en évidence par l’émergence de jeux de données plus importants tels que le jeu de données d’images ML de Tencent en février 2020 qui englobe la plupart de ces classes non-imageables, la disponibilité continue de modèles formés sur le jeu de données ImageNet-21k complet dans des référentiels tels que TF-hub, l’utilisation continue du jeu de données ImageNet-21k non filtré dans les derniers modèles SotA (tels que les modèles EfficientNetV2 et CoAtNet de Google) et les annonces explicites autorisant l’utilisation du pré-entraînement ImageNet-21k non filtré dans des concours réputés tels que le défi LVIS 2021.

‘Nous soulignons cette observation cruciale : une équipe de la stature d’ImageNet gérant moins de 15 millions d’images a lutté et échoué dans ces tentatives de désintoxication jusqu’à présent.

‘L’échelle des efforts soigneux requis pour détoxifier soigneusement ce vaste jeu de données multimodal et les modèles en aval formés sur ce jeu de données, qui couvrent potentiellement des milliards de paires d’images et de légendes, sera indéniablement astronomique.’

Related Topics:AI bias Bias data analysis research