Connect with us

La Vérité sur les Données Synthétiques : Pourquoi l’Expertise Humaine est Critique pour le Succès des LLM

Leaders d’opinion

La Vérité sur les Données Synthétiques : Pourquoi l’Expertise Humaine est Critique pour le Succès des LLM

mm

Les développeurs de LLM ont de plus en plus recours aux données synthétiques pour accélérer le développement et réduire les coûts. Les chercheurs derrière plusieurs modèles de premier plan, tels que LLama 3, Qwen 2 et DeepSeek R1, ont mentionné l’utilisation de données synthétiques pour entraîner leurs modèles dans les articles de recherche. De l’extérieur, cela ressemble à la solution parfaite : un puits infini d’informations pour accélérer le développement et réduire les coûts. Mais cette solution comporte un coût caché que les dirigeants d’entreprise ne peuvent ignorer.

En termes simples, les données synthétiques sont générées par des modèles d’IA pour créer des jeux de données artificiels pour l’entraînement, le réglage fin et l’évaluation des LLM et des agents d’IA. Par rapport à l’annotation humaine traditionnelle, cela permet au pipeline de données de s’étendre rapidement, ce qui est essentiel dans le paysage en constante évolution et compétitif du développement de l’IA.

Les entreprises peuvent avoir d’autres raisons d’utiliser des “fausses” données, comme protéger des informations sensibles ou confidentielles dans les milieux financiers ou de santé en générant des versions anonymisées. Les données synthétiques sont également un bon substitut lorsque des données propriétaires ne sont pas disponibles, comme avant le lancement d’un produit ou lorsque les données appartiennent à des clients externes.

Mais les données synthétiques révolutionnent-elles le développement de l’IA ? La réponse courte est un oui qualifié : elles ont un grand potentiel, mais elles peuvent également exposer les LLM et les agents à des vulnérabilités critiques sans une surveillance humaine rigoureuse. Les producteurs de LLM et les développeurs d’agents d’IA peuvent constater que les modèles d’IA entraînés sur des données synthétiques non vérifiées peuvent générer des sorties inexactes ou biaisées, créer des crises de réputation et entraîner une non-conformité aux normes industrielles et éthiques. Investir dans la surveillance humaine pour affiner les données synthétiques est un investissement direct dans la protection de la ligne de fond, le maintien de la confiance des parties prenantes et l’adoption responsable de l’IA.

Avec l’apport humain, les données synthétiques peuvent être transformées en données de formation de haute qualité. Il y a trois raisons critiques pour affiner les données générées avant de les utiliser pour entraîner l’IA : pour combler les lacunes dans les connaissances du modèle source, pour améliorer la qualité des données et réduire la taille de l’échantillon, et pour aligner avec les valeurs humaines.

Nous devons capturer des connaissances uniques

Les données synthétiques sont principalement générées par des LLM qui sont entraînés sur des sources Internet publiques, créant une limitation inhérente. Le contenu public rarement capture les connaissances pratiques et concrètes utilisées dans le travail réel. Les activités comme la conception d’une campagne de marketing, la préparation d’une prévision financière ou la réalisation d’une analyse de marché sont généralement privées et non documentées en ligne. De plus, les sources tendent à refléter le langage et la culture centrés sur les États-Unis, limitant la représentation mondiale.

Pour surmonter ces limitations, nous pouvons impliquer des experts pour créer des échantillons de données dans les domaines que nous soupçonnons que le modèle de génération de données synthétiques ne peut pas couvrir. En revenant à l’exemple d’entreprise, si nous voulons que notre modèle final gère efficacement les prévisions financières et l’analyse de marché, les données de formation doivent inclure des tâches réalistes de ces domaines. Il est important d’identifier ces lacunes et de compléter les données synthétiques avec des échantillons créés par des experts.

Les experts sont souvent impliqués tôt dans le projet pour définir le périmètre des travaux. Cela inclut la création d’une taxonomie, qui décrit les domaines de connaissance spécifiques où le modèle doit performer. Par exemple, dans le domaine de la santé, la médecine générale peut être divisée en sous-thèmes tels que la nutrition, la santé cardiovasculaire, les allergies, etc. Un modèle axé sur la santé doit être entraîné dans tous les sous-domaines qu’il est censé couvrir. Après que la taxonomie ait été définie par des experts en santé, les LLM peuvent être utilisés pour générer des points de données avec des questions et des réponses typiques rapidement et à grande échelle. Les experts humains sont toujours nécessaires pour examiner, corriger et améliorer ce contenu pour s’assurer qu’il est non seulement exact mais également sûr et contextuellement approprié. Ce processus d’assurance qualité est nécessaire dans les applications à haut risque, telles que la santé, pour garantir l’exactitude des données et atténuer les dommages potentiels.

La qualité plutôt que la quantité : améliorer l’efficacité du modèle avec moins d’échantillons de meilleure qualité

Lorsque des experts dans le domaine créent des données pour l’entraînement des LLM et des agents d’IA, ils créent des taxonomies pour les ensembles de données, écrivent des invites, conçoivent les réponses idéales ou simulent une tâche spécifique. Toutes les étapes sont soigneusement conçues pour correspondre à l’objectif du modèle, et la qualité est garantie par des experts dans le domaine.

La génération de données synthétiques ne reproduit pas entièrement ce processus. Elle repose sur les forces du modèle sous-jacent utilisé pour créer les données, et la qualité qui en résulte n’est souvent pas à la hauteur des données curées par les humains. Cela signifie que les données synthétiques nécessitent souvent des volumes beaucoup plus importants pour obtenir des résultats satisfaisants, ce qui augmente les coûts de calcul et le temps de développement.

Dans les domaines complexes, il y a des nuances que seuls les experts humains peuvent détecter, en particulier avec les valeurs aberrantes ou les cas limites. Les données curées par les humains offrent systématiquement de meilleures performances de modèle, même avec des ensembles de données nettement plus petits. En intégrant stratégiquement l’expertise humaine dans le processus de création de données, nous pouvons réduire le nombre d’échantillons nécessaires pour que le modèle fonctionne efficacement.

Selon notre expérience, la meilleure façon de relever ce défi est d’impliquer des experts dans la construction de jeux de données synthétiques. Lorsque les experts conçoivent les règles pour la génération de données, définissent les taxonomies de données et examinent ou corrigent les données générées, la qualité finale des données est nettement améliorée. Cette approche a permis à nos clients d’obtenir des résultats solides en utilisant moins d’échantillons, ce qui a conduit à un chemin plus rapide et plus efficace vers la production.

Établir la confiance : le rôle irremplaçable des humains dans la sécurité et l’alignement de l’IA

Les systèmes automatisés ne peuvent pas anticiper toutes les vulnérabilités ou garantir l’alignement avec les valeurs humaines, en particulier dans les cas limites et les scénarios ambigus. Les experts humains jouent un rôle crucial dans l’identification des risques émergents et la garantie de résultats éthiques avant le déploiement. Ceci est une couche de protection que l’IA, du moins pour l’instant, ne peut pas fournir entièrement par elle-même.

Par conséquent, pour construire un jeu de données de test solide, les données synthétiques seules ne suffisent pas. Il est important d’impliquer des experts en sécurité dès le début du processus. Ils peuvent aider à cartographier les types d’attaques potentielles et à guider la structure du jeu de données. Les LLM peuvent ensuite être utilisés pour générer un grand volume d’exemples. Après cela, les experts sont nécessaires pour vérifier et affiner les données pour s’assurer qu’elles sont réalistes, de haute qualité et utiles pour tester les systèmes d’IA. Par exemple, un LLM peut générer des milliers de invites de piratage standard, mais un expert en sécurité humain peut concevoir de nouvelles attaques d’ingénierie sociale qui exploitent les biais psychologiques nuancés – une menace créative que les systèmes automatisés ont du mal à inventer par eux-mêmes.

Il y a eu des progrès significatifs dans l’alignement des LLM à l’aide d’une rétroaction automatisée. Dans l’article RLAIF vs. RLHF : Scaling Reinforcement Learning from Human Feedback with AI Feedback,” les chercheurs montrent que la rétroaction basée sur l’IA peut performer de manière comparable à la rétroaction humaine dans de nombreux cas. Cependant, même si la rétroaction basée sur l’IA s’améliore à mesure que les modèles s’améliorent, notre expérience montre que le RLAIF continue de lutter dans les domaines complexes et avec les cas limites ou les valeurs aberrantes, des domaines où les performances peuvent être critiques en fonction de l’application. Les experts humains sont plus efficaces pour gérer les nuances des tâches et le contexte, ce qui les rend plus fiables pour l’alignement.

Les agents d’IA bénéficient également de tests automatisés pour aborder un large éventail de risques de sécurité. Les environnements de test virtuels utilisent des données générées pour simuler les comportements des agents comme l’interaction avec des outils en ligne et la réalisation d’actions sur des sites Web. Pour maximiser la couverture des tests dans des scénarios réalistes, l’expertise humaine est intégrale pour concevoir les cas de test, vérifier les résultats des évaluations automatisées et signaler les vulnérabilités.

Le futur des données synthétiques

Les données synthétiques sont une technique très précieuse pour le développement de grands modèles de langage, en particulier lorsque la mise à l’échelle et le déploiement rapide sont critiques dans le paysage actuel en constante évolution. Même s’il n’y a pas de défauts fondamentaux dans les données synthétiques elles-mêmes, elles nécessitent un raffinement pour atteindre leur plein potentiel et offrir la plus grande valeur. Une approche hybride qui combine la génération de données automatisée avec l’expertise humaine est une méthode très efficace pour développer des modèles capables et fiables, car les performances finales du modèle dépendent plus de la qualité des données que du volume total. Ce processus intégré, utilisant l’IA pour la mise à l’échelle et les experts humains pour la validation, produit des modèles plus capables avec une meilleure sécurité et un alignement, ce qui est essentiel pour établir la confiance des utilisateurs et garantir un déploiement responsable.

Ilya Kochik est le vice-président du développement commercial chez Toloka, un partenaire de données humaines pour les principaux laboratoires de recherche GenAI, où il se spécialise dans les tâches de pointe pour les modèles de frontière et les systèmes agents. Basé à Londres, son parcours comprend des rôles de direction et techniques chez Google, QuantumBlack (AI by McKinsey), et Bain & Company.