Connect with us

L’essor des données synthétiques, et pourquoi elles vont compléter plutôt que remplacer les données réelles

Leaders d’opinion

L’essor des données synthétiques, et pourquoi elles vont compléter plutôt que remplacer les données réelles

mm

Elon Musk a récemment proclamé que nous avons épuisé les données humaines disponibles pour la formation de modèles d’IA. Son avertissement est le dernier commentaire sur la nécessité de nouvelles sources de données si l’IA doit continuer à progresser rapidement. Dans des secteurs comme la santé et la finance, les réglementations strictes en matière de confidentialité aggravent encore la pénurie de données.

Alors que les données synthétiques – une solution possible à cette pénurie – ne sont pas nouvelles, leur importance continue de croître, comme en témoignent les récentes vagues de fusions et d’investissements dans ce domaine. Cependant, il existe certaines incertitudes profondes quant à l’utilisation de données synthétiques, notamment le risque d’effondrement du modèle, où la qualité de la sortie d’un modèle de langage à grande échelle (LLM) se dégrade sans données du monde réel pour la formation. Que ce problème se révèle insurmontable ou solvable peut avoir un impact significatif sur l’avenir de l’IA générative (Gen AI).

Qu’est-ce que les données synthétiques et comment sont-elles créées ?

Les données synthétiques sont créées artificiellement plutôt que collectées à partir d’événements réels. Les données synthétiques générées par l’IA sont maintenant la forme la plus répandue, qui consiste à former des modèles sur des données du monde réel pour détecter des modèles et des corrélations, puis à générer de nouvelles données qui imitent ces propriétés statistiques.

Les LLM sont utilisés pour générer une variété de types de données synthétiques, notamment des données structurées, telles que des données tabulaires, et des données non structurées, comme des textes libres, des vidéos et des images. Une gamme de méthodes sont utilisées, en fonction du type de données produites.

Par exemple, deux méthodes couramment utilisées pour générer des données d’image synthétiques sont les GAN et les modèles de diffusion. Les GAN utilisent deux réseaux de neurones : un générateur crée des versions artificielles de données réelles, tandis qu’un discriminant identifie lesquelles sont réelles par rapport aux générées. En travaillant ensemble en continu, le générateur tente de “tromper” le discriminant, améliorant continuellement le réalisme et la diversité des données artificielles. Les modèles de diffusion adoptent une approche différente, en apprenant à déformer des données réelles, puis en inversant ce processus pour les “déniser”. Une fois formés de manière efficace, ils peuvent produire des données audio et visuelles synthétiques de haute qualité.

L’importance croissante des données synthétiques

Il y a eu un intérêt de longue date pour les données synthétiques. Cependant, au cours des 5 dernières années, le développement rapide des LLM a à la fois augmenté la demande de données synthétiques et créé un moyen de plus en plus efficace de les générer à grande échelle. En conséquence, l’utilisation de données synthétiques a explosé.

Gartner prévoit que les données synthétiques représenteront 60% de toutes les données utilisées pour la formation de LLM d’ici 2024, contre seulement 1% en 2021. Il y a toutes les raisons de croire que cette estimation est globalement exacte. Par exemple, le modèle Phi-4 de Microsoft, qui surpasse les autres LLM malgré sa taille plus petite, a été formé avec succès sur des données synthétiques pour la plupart. Pendant ce temps, les ingénieurs d’Amazon Alexa explorent l’utilisation d’un modèle “enseignant/étudiant” où le modèle “enseignant” génère des données synthétiques qui sont ensuite utilisées pour affiner un modèle “étudiant” plus petit.

Cette adoption généralisée est reflétée par les grands mouvements sur le marché. Le secteur des données synthétiques a connu un boom d’investissements en 2021-22. Gretel AI et Tonic.ai ont obtenu des tours de financement de série B de 50 millions et 35 millions de dollars respectivement. Ceux-ci ont été suivis par MOSTLY AI clôturant un tour de financement de série B de 25 millions de dollars et Synthesis AI obtenant 17 millions de dollars lors d’un financement de série A.

Plus récemment, la tendance a été vers des acquisitions à grande échelle. L’acquisition de Gretel par NVIDIA ce printemps soutiendra les propres travaux du géant de la technologie dans ce domaine. De même, la société de solutions d’IA SAS a acquis la startup de données synthétiques Hazy en novembre 2024.

La société d’analyse Cognilytica a estimé que le marché de la génération de données synthétiques s’élevait à environ 110 millions de dollars en 2021. La société s’attend à ce qu’il atteigne 1,15 milliard de dollars d’ici 2027. D’autres prévisions anticipent un taux de croissance annuel composé (CAGR) de 31% pour le secteur, qui devrait atteindre 2,33 milliards de dollars de valeur d’ici 2030.

Effondrement du modèle

Cependant, le potentiel excitant des données synthétiques est accompagné d’un inconvénient important : l’effondrement du modèle. Il s’agit d’un phénomène où les LLM formés uniquement sur des données synthétiques commencent à produire des sorties moins précises ou moins diversifiées.

Alors que les données du monde réel tendent à être complexes, les données synthétiques sont souvent simplifiées et condensées par les modèles. Par exemple, des chercheurs ont constaté que la précision d’un modèle formé pour détecter les taches de rousseur cancéreuses sur des photographies était inversement liée à la quantité de données synthétiques de formation. Une étude récente menée par des universitaires d’Oxford, de Cambridge, d’Imperial College et de l’Université de Toronto a constaté que l’utilisation de données générées par le modèle de manière indiscriminée a conduit à des “défauts irréversibles dans le modèle résultant”.

Même pire, la plupart des LLM sont des “boîtes noires”, ce qui rend difficile la compréhension de la manière dont ils réagiront aux données synthétiques. Des chercheurs de l’Université Rice et de Stanford ont conclu que sans quelques données du monde réel fraîches, “les modèles génératifs futurs sont condamnés à voir leur qualité (précision) ou leur diversité (rappel) diminuer progressivement”.

Le besoin constant de données du monde réel

Il est évident que, même avec la montée en puissance de la demande de données synthétiques, le besoin de données du monde réel reste. En fait, la demande de données du monde réel de haute qualité peut même augmenter. La raison en est double. Premièrement, les données du monde réel seront toujours nécessaires pour former les modèles d’IA qui génèrent ensuite les données synthétiques. Et deuxièmement, pour éviter l’effondrement du modèle, il est nécessaire de synchroniser continuellement les données synthétiques avec les données du monde réel.

Données réelles pour la formation de modèles d’IA produisant des données synthétiques

Comme mentionné précédemment, la majorité des données synthétiques aujourd’hui sont créées à l’aide de l’IA générative. Et ces modèles d’IA générative doivent être formés sur des données du monde réel pour créer des données synthétiques utilisables. C’est parce qu’ils ne peuvent créer des données synthétiques qu’en répliquant les modèles et les propriétés statistiques d’un ensemble de données du monde réel.

Considérez l’exemple récent d’une société d’assurance qui a pu utiliser des données synthétiques pour tester différents fournisseurs sans compromettre ses données sensibles sur les clients. Pour générer cet ensemble de données synthétiques, qui imite fidèlement la réalité, il a dû utiliser ses propres données du monde réel pour former le modèle d’IA qui a ensuite généré les données synthétiques.

Données réelles pour atténuer l’effondrement du modèle

Il existe plusieurs stratégies pour atténuer le risque d’effondrement du modèle. Celles-ci incluent la validation et la révision régulière des ensembles de données synthétiques, ainsi que la vérification de la qualité des données synthétiques avant de les utiliser dans les modèles génératifs. Cependant, l’approche la plus courante consiste à diversifier les données utilisées en combinant des données synthétiques avec des données humaines. L’enquête de Gartner a constaté que 63% des répondants préfèrent utiliser un ensemble de données partiellement synthétique, et seulement 13% déclarent utiliser des données entièrement synthétiques.

Même l’ajout de petites quantités de données du monde réel peut améliorer considérablement les performances d’un modèle. Des chercheurs de l’Université de Californie du Sud ont constaté que les entreprises peuvent remplacer jusqu’à 90% de leurs données réelles par des données synthétiques sans voir une baisse significative des performances. Cependant, remplacer ces 10% de données humaines finals entraîne une baisse significative.

La qualité compte également, comme le montre le cas du succès de Microsoft avec Phi-4. Ce LLM a été formé sur des données synthétiques produites principalement par GPT-4o. Cependant, une grande partie des données de préformation – un ensemble de données générales utilisé pour la première étape de la formation avant que le modèle ne soit affiné – était des données du monde réel de haute qualité soigneusement sélectionnées, notamment des livres et des articles de recherche.

Avantages potentiels des données synthétiques

Lorsque les données synthétiques sont utilisées de manière intelligente et combinées efficacement avec des données du monde réel, elles ont le potentiel de résoudre six problèmes spécifiques en matière de données de formation pour l’IA : la rareté, l’accessibilité, l’homogénéité, les préjugés, les problèmes de confidentialité et le coût.

Rareté des données

Alors que les sociétés d’IA se disputent des parts de marché et réalisent de nouvelles prouesses, la demande insatiable de données pour former leurs LLM augmente. Les données synthétiques ont le potentiel de combler ce fossé, selon les recherches de Gartner. Cependant, il convient de noter que l’utilisation de grandes quantités de données réelles dans les ensembles de données de préformation et pour la synchronisation pour éviter l’effondrement du modèle sera toujours nécessaire.

Accessibilité des données

De plus en plus, les grandes entreprises technologiques agissent comme des gardiens de données, créant une barrière à l’entrée pour les plus petits acteurs. Les données synthétiques ont le potentiel de démocratiser l’IA générative en rendant de grandes quantités de données de formation abordables et accessibles. Cependant, cela ne supprimera pas la responsabilité des grandes entreprises technologiques d’améliorer l’accès aux données du monde réel, car celles-ci sont toujours nécessaires pour former les modèles qui produisent des données synthétiques.

Homogénéité des données

Dans certains cas d’utilisation de niche, comme la formation d’IA pour la conduite autonome, les ensembles de données du monde réel sont trop homogènes. Dans le cas de la conduite, les développeurs peuvent générer des données synthétiques pour combler les lacunes dans les données pour des situations inhabituelles. Cela permet aux modèles de se former pour des événements rares sur la route.

Préjugés

Certains ensembles de données du monde réel contiennent des préjugés inhérents, les données synthétiques peuvent donc être générées pour garantir que les modèles d’IA reçoivent une image plus équilibrée. Par exemple, dans le secteur financier, l’Autorité de régulation financière du Royaume-Uni (FCA) a fait valoir que les données synthétiques ont le potentiel de contrer les préjugés potentiels causés par le fait que certains groupes sont sous-représentés dans les ensembles de données humaines.

Confidentialité

Dans des secteurs comme la santé et la finance, les exigences de confidentialité rendent les pénuries de données plus aiguës. Avec les données synthétiques, les entreprises peuvent construire des ensembles de données de formation pour leurs modèles contenant des données de niche sans compromettre la confidentialité des clients. Cependant, comme un rapport commandé par la Royal Society du Royaume-Uni l’a souligné à propos des données synthétiques dans la recherche médicale, il y a une hypothèse selon laquelle les données synthétiques sont “intrinsicquement privées”. Il s’agit d’un “malentendu”. Comme les chercheurs le font remarquer, les données synthétiques peuvent laisser fuiter des informations sur les données dont elles sont dérivées.

Plus précisément, les modèles formés sur des données sensibles sont vulnérables aux attaques d’inversion de modèle, où les pirates peuvent reconstruire des parties d’un ensemble de données d’origine.

Coût

En général, les données synthétiques sont générées à un coût inférieur à celui des données du monde réel. Elles sont également étiquetées, ce qui économise du temps et des coûts. Dans certains projets de formation d’IA, jusqu’à 80% du projet sont consacrés à la préparation des données, y compris l’étiquetage. C’est pourquoi des sociétés spécialisées sont apparues spécifiquement pour fournir une main-d’œuvre à faible coût pour répondre aux besoins de traitement des données des géants de la Silicon Valley.

Compléter plutôt que remplacer les données réelles

Ces avantages des données synthétiques peuvent être exploités, à condition qu’elles ne soient pas traitées comme un remplacement des données réelles. Au lieu de cela, leur rôle devrait être de compléter les ensembles de données réels, en fournissant des moyens d’augmenter l’échelle des points de données disponibles.

Pour mettre cela en perspective, le prochain LLM de Meta, LLAMA Behemoth, est formé sur 30 billions de points de données. Il est clair que trouver des données du monde réel à cette échelle est difficile, voire impossible. Cependant, comme cela a été noté, l’utilisation de données du monde réel est toujours nécessaire, que ce soit pour former les modèles qui produisent des données synthétiques ou pour les synchroniser avec des données synthétiques pour garantir la précision et éviter l’effondrement du modèle. À l’échelle à laquelle les LLM fonctionnent maintenant, même si les données synthétiques constituent une proportion importante des données de formation utilisées, il y aura toujours une demande importante pour les données du monde réel. Et cela signifie qu’il y aura toujours des problèmes complexes à résoudre autour de la garde, de l’accès, des préjugés, du coût et du temps.

Depuis plus de 13 ans, Gediminas Rickevicius est une force de croissance dans les entreprises de pointe en IT, en publicité et en logistique à travers le monde. Il a changé l'approche traditionnelle du développement commercial et des ventes en intégrant les grandes données dans la prise de décision stratégique. En tant que Senior VP des partenariats mondiaux chez Oxylabs, Gediminas continue sa mission d'équiper les entreprises avec des solutions de collecte de données publiques sur le web de pointe.