Suivez nous sur

L'essor des données synthétiques et pourquoi elles vont enrichir les données réelles plutôt que de les remplacer

Des leaders d'opinion

L'essor des données synthétiques et pourquoi elles vont enrichir les données réelles plutôt que de les remplacer

mm

Elon Musk a récemment proclamé Nous avons épuisé les données humaines disponibles pour entraîner les modèles d'IA. Cet avertissement est le dernier en date sur la nécessité de nouvelles sources de données si l'IA veut poursuivre sa progression rapide. Dans des secteurs comme la santé et la finance, les réglementations strictes en matière de confidentialité aggravent encore la pénurie de données.

Si les données synthétiques – une solution possible à cette pénurie – ne sont pas nouvelles, leur importance ne cesse de croître, comme en témoignent les récentes vagues de fusions et d'investissements dans ce domaine. Cependant, de profondes incertitudes entourent leur utilisation, notamment le risque d'effondrement du modèle, où la qualité des résultats d'un modèle multimodal de langage étendu (LLM) se dégrade sans données réelles sur lesquelles s'entraîner. La question de savoir si ce problème s'avère insoluble ou résoluble pourrait avoir un impact significatif sur l'avenir de l'IA générative (Gen AI).

Qu’est-ce que les données synthétiques et comment sont-elles créées ?

Les données synthétiques sont créées artificiellement plutôt que collectées à partir d'événements réels. Les données synthétiques générées par l'IA sont désormais la forme la plus répandue. Elles impliquent l'entraînement de modèles sur des données réelles pour détecter des tendances et des corrélations, puis la génération de nouvelles données reproduisant ces propriétés statistiques.

Les LLM sont utilisés pour générer divers types de données synthétiques, notamment des données structurées, comme des données tabulaires, et des données non structurées, comme des textes libres, des vidéos et des images. Différentes méthodes sont utilisées, selon le type de données produites.

Par exemple, deux méthodes couramment utilisées pour générer des données d'images synthétiques sont les GAN et les modèles de diffusion. Les GAN utilisent deux réseaux neuronaux : un générateur crée des versions artificielles de données réelles, tandis qu'un discriminateur identifie les données réelles des données générées. Travaillant en étroite collaboration, le générateur tente de « tromper » le discriminateur, améliorant ainsi continuellement le réalisme et la diversité des données artificielles. Les modèles de diffusion adoptent une approche différente : ils apprennent à déformer les données réelles, puis inversent ce processus pour les « débruiter ». Une fois entraînés efficacement, ils peuvent produire des données audio et visuelles synthétiques de haute qualité.

L'importance croissante des données synthétiques

L'intérêt pour les données synthétiques ne date pas d'hier. Cependant, au cours des cinq dernières années, le développement rapide des masters de droit a stimulé la demande de données synthétiques et créé un moyen toujours plus efficace de les générer à grande échelle. Par conséquent, leur utilisation a explosé.

Gartner prévoit que les données synthétiques représenteront 60 % de toutes les données utilisées pour la formation des LLM d'ici 2024, contre seulement 1 % en 2021. Tout porte à croire que cette estimation est globalement exacte. Par exemple, le modèle Phi-4 de Microsoft, qui surpasse les autres LLM malgré sa taille bien plus réduite, a été formé avec succès sur des données principalement synthétiques. Pendant ce temps, les ingénieurs d'Alexa d'Amazon sont explorer l'utilisation d'un modèle « enseignant/élève » où le modèle « enseignant » génère des données synthétiques qui sont ensuite utilisées pour affiner un modèle « élève » plus petit.

Cette adoption généralisée se traduit par des mouvements majeurs sur le marché. Le secteur des données synthétiques a connu un boom des investissements en 2021-22. Gretel IA et Tonique.ai a obtenu des tours de série B de 50 et 35 millions de dollars respectivement. Ces tours ont été suivis par MOSTLY AI clôture un tour de table de série B de 25 millions de dollars et Synthesis AI obtient 17 millions de dollars dans le financement de série A.

Plus récemment, la tendance s’est orientée vers les acquisitions à grande échelle. L'acquisition de Gretel par NVIDIA Ce printemps, le géant technologique soutiendra ses propres travaux dans ce domaine. De même, l'entreprise de solutions d'IA SAS a acquis la startup de données synthétiques Hazy en novembre 2024.

L'espace société d'analyse Cognilytica Le marché de la génération de données synthétiques a été estimé à environ 2021 millions de dollars en 110. L'entreprise prévoit qu'il atteindra 1.15 milliard de dollars d'ici 2027. D'autres prévisions tablent sur un TCAC de 31 % pour le secteur, qui devrait atteindre Une valeur de 2.33 milliards de dollars d'ici 2030.

Effondrement du modèle

Cependant, le potentiel prometteur des données synthétiques présente un inconvénient majeur : l'effondrement des modèles. Ce phénomène se produit lorsque les LLM formés uniquement à partir de données synthétiques produisent des résultats moins précis ou moins diversifiés.

Alors que les données du monde réel tendent à être très complexes, les données synthétiques sont souvent simplifiées et condensées par des modèles. Par exemple, des chercheurs ont constaté que la précision d'un modèle entraîné à détecter des grains de beauté cancéreux à partir de photographies était inversement lié à la quantité de données d’entraînement synthétiques. Une étude récente menée par des universitaires d'Oxford, de Cambridge, de l'Imperial College et de l'Université de Toronto ont découvert que l’utilisation indiscriminée de données générées par des modèles conduisait à des « défauts irréversibles dans le modèle résultant ».

Pire encore, la plupart des LLM sont des « boîtes noires », ce qui rend difficile de comprendre comment ils réagiront aux données synthétiques. Des chercheurs de l'Université Rice et de Stanford ont conclu que sans de nouvelles données du monde réel, « les futurs modèles génératifs sont condamnés à voir leur qualité (précision) ou leur diversité (rappel) diminuer progressivement ».

Le besoin permanent de données du monde réel

De toute évidence, malgré la hausse de la demande de données synthétiques, le besoin de données du monde réel demeure. En réalité, la demande de données du monde réel de haute qualité pourrait même augmenter. La raison est double. Premièrement, les données du monde réel seront toujours nécessaires pour entraîner les modèles d'IA qui génèrent ensuite les données synthétiques. Deuxièmement, pour éviter l'effondrement des modèles, il est nécessaire de synchroniser en permanence les données synthétiques avec les données du monde réel.

Données réelles pour la formation de modèles d'IA produisant des données synthétiques

Comme mentionné précédemment, la majorité des données synthétiques actuelles sont créées grâce à l'IA de génération. Ces modèles doivent être entraînés sur des données réelles pour créer des données synthétiques exploitables. En effet, ils ne peuvent créer des données synthétiques qu'en reproduisant les modèles et les propriétés statistiques d'un ensemble de données réelles.

Considérer l'exemple récent d'une compagnie d'assurance L'entreprise a pu utiliser des données synthétiques pour tester différents fournisseurs sans compromettre ses données clients sensibles. Pour générer cet ensemble de données synthétiques, fidèlement reproduites, elle a dû utiliser ses propres données réelles pour entraîner le modèle d'IA qui a ensuite généré les données synthétiques.

Des données réelles pour atténuer l'effondrement du modèle

Il existe plusieurs stratégies pour atténuer le risque d'effondrement des modèles. Parmi celles-ci, on peut citer la validation puis la révision régulière des jeux de données synthétiques, ainsi que la vérification de la qualité des données synthétiques avant leur utilisation dans des modèles génératifs. Cependant, l'approche la plus courante consiste à diversifier les données utilisées en combinant des données synthétiques avec des données humaines. L'enquête de Gartner ont constaté que 63 % des répondants sont favorables à l’utilisation d’un ensemble de données partiellement synthétiques, tandis que seulement 13 % déclarent utiliser des données entièrement synthétiques.

Même l’ajout de quantités modestes de données du monde réel peut améliorer considérablement les performances d’un modèle. Des chercheurs de l'Université de Californie du Sud ont découvert Les entreprises peuvent remplacer jusqu'à 90 % de leurs données réelles par des données synthétiques sans subir de baisse substantielle de performance. Cependant, le remplacement des 10 % restants de données humaines entraîne une baisse significative.

La qualité est également un facteur important, comme l'illustre le succès de Microsoft avec Phi-4. Ce LLM a été formé principalement sur des données synthétiques générées par GPT-4o. Cependant, une grande partie des données de pré-formation – un ensemble de données générales utilisé pour la première étape de l'apprentissage avant le réglage fin d'un modèle – était constituée de données réelles de haute qualité, soigneusement sélectionnées, provenant notamment d'ouvrages et d'articles de recherche.

Avantages potentiels que les données synthétiques peuvent apporter

Lorsque les données synthétiques sont utilisées intelligemment et combinées efficacement avec les données du monde réel, elles ont le potentiel de résoudre six problèmes spécifiques en matière de données de formation de l’IA : la rareté, l’accessibilité, l’homogénéité, les biais, les problèmes de confidentialité et le coût.

Rareté des données

Alors que les entreprises d'IA se battent pour gagner des parts de marché et réaliser de nouvelles innovations, la demande insatiable de données pour former leurs LLM augmente. Les données synthétiques ont le potentiel de combler ce manque, du moins selon les estimations. recherche de Gartner. Cependant, il convient de noter que l’utilisation de quantités importantes de données réelles dans les ensembles de données de pré-formation et pour la synchronisation afin d’éviter l’effondrement du modèle sera toujours nécessaire.

Accessibilité aux données

De plus en plus, les grandes entreprises technologiques jouent le rôle de gardiennes des données, créant ainsi une barrière à l'entrée pour les acteurs plus modestes. Les données synthétiques ont le potentiel de démocratiser l'IA de la génération en rendant abordables et accessibles de grands volumes de données d'entraînement. Néanmoins, cela ne dispense pas les grandes entreprises technologiques d'améliorer l'accès aux données du monde réel, car elles restent nécessaires à l'entraînement des modèles de création de données synthétiques.

Homogénéité des données

Dans certains cas d'utilisation spécifiques, comme l'entraînement des IA à la conduite autonome, les ensembles de données du monde réel sont trop homogènes. Dans le cas de la conduite, les développeurs peuvent générer des données synthétiques pour combler les lacunes dans les données relatives aux situations inhabituelles. Cela permet ensuite aux modèles de s'entraîner pour des événements rares sur la route.

Préjugé

Certains ensembles de données du monde réel contiennent des biais inhérents ; des données synthétiques peuvent donc être générées pour garantir que les modèles d'IA obtiennent une image plus équilibrée. Par exemple, en finance, L'Autorité de conduite financière (FCA) du Royaume-Uni a fait valoir que les données synthétiques ont le potentiel de contrer les biais potentiels causés par la sous-représentation de certains groupes dans les ensembles de données humaines.

Confidentialité

Dans des secteurs comme la santé et la finance, les exigences en matière de confidentialité aggravent la pénurie de données. Grâce aux données synthétiques, les entreprises peuvent créer des ensembles de données d'entraînement pour leurs modèles contenant des données de niche, sans compromettre la confidentialité des clients. Cependant, un rapport commandé par la Royal Society du Royaume-Uni Comme l'ont souligné les chercheurs, à propos des données synthétiques utilisées dans la recherche médicale, on suppose que ces données sont « intrinsèquement privées ». Il s'agit d'une « idée fausse ». Comme le soulignent les chercheurs, les données synthétiques peuvent divulguer des informations sur les données dont elles sont issues.

Plus précisément, les modèles formés sur des données sensibles sont vulnérable aux attaques par inversion de modèle, où les pirates informatiques sont capables de reconstruire des parties d'un ensemble de données d'origine.

Prix

En règle générale, les données synthétiques sont générées à un coût inférieur à celui des données réelles. Elles sont également étiquetées, ce qui permet de gagner du temps et de l'argent. Sur certains projets de formation en IA, jusqu'à 80% du projet est occupé par préparation des données, y compris l'étiquetage. Ceci explique pourquoi des entreprises spécialisées ont émergé spécifiquement pour trouver de la main-d'œuvre à bas prix pour répondre aux besoins de traitement de données des géants de la Silicone Valley.

Augmenter plutôt que remplacer les données réelles

Les avantages des données synthétiques peuvent être exploités, à condition qu'elles ne soient pas considérées comme un substitut aux données réelles. Leur rôle devrait plutôt consister à enrichir les ensembles de données réelles, en offrant des moyens d'accroître l'échelle des points de données disponibles.

Pour le contexte, le prochain LLM de Meta, LLAMA Behemoth, est en cours de formation sur 30 XNUMX milliards de points de donnéesIl est clair que l'obtention de données réelles à cette échelle est complexe, voire impossible. Pourtant, comme indiqué précédemment, l'utilisation de données réelles demeure indispensable, que ce soit pour entraîner les modèles produisant des données synthétiques ou pour les synchroniser afin de garantir leur précision et d'éviter leur effondrement. À l'échelle actuelle des LLM, même si les données synthétiques représentent une part importante des données d'entraînement utilisées, la demande de données réelles restera importante. Cela signifie que des problèmes complexes subsisteront concernant le contrôle d'accès, l'accès, les biais, les coûts et les délais.

Depuis plus de 13 ans, Gediminas Rickevicius est un acteur majeur de la croissance au sein d'entreprises leaders du marché mondial de l'informatique, de la publicité et de la logistique. Il a révolutionné l'approche traditionnelle du développement commercial et des ventes en intégrant le Big Data à la prise de décision stratégique. En tant que vice-président principal des partenariats mondiaux chez oxylabsGediminas poursuit sa mission de fournir aux entreprises des solutions de collecte de données Web publiques de pointe.