Des leaders d'opinion

La vérité sur les données synthétiques : pourquoi l’expertise humaine est essentielle à la réussite d’un master en droit

Publié Le 19 juin 2025

Ilya Kochik, Vice-président du développement commercial chez Toloka

Les développeurs de LLM se tournent de plus en plus vers les données synthétiques pour accélérer le développement et réduire les coûts. Les chercheurs à l'origine de plusieurs modèles de pointe, tels que LLama 3, Qwen 2 et DeepSeek R1, ont mentionné l'utilisation de données synthétiques pour entraîner leurs modèles dans leurs articles de recherche. De l'extérieur, cela semble être la solution idéale : une source infinie d'informations pour accélérer le développement et réduire les coûts. Mais cette solution a un coût caché que les dirigeants d'entreprise ne peuvent ignorer.

En termes simples, données synthétiques Générée par des modèles d'IA, elle crée des ensembles de données artificiels pour la formation, le réglage fin et l'évaluation des LLM et des agents d'IA. Comparée à l'annotation humaine traditionnelle, elle permet une évolutivité rapide du pipeline de données, essentielle dans le contexte concurrentiel et évolutif du développement de l'IA.

Les entreprises peuvent avoir d'autres raisons d'utiliser de « fausses » données, comme la protection d'informations sensibles ou confidentielles dans les domaines de la finance ou de la santé en générant des versions anonymisées. Les données synthétiques constituent également une bonne alternative lorsque les données propriétaires ne sont pas disponibles, par exemple avant le lancement d'un produit ou lorsque les données appartiennent à des clients externes.

Mais les données synthétiques révolutionnent-elles le développement de l'IA ? La réponse est un oui mitigé : elles ont un grand potentiel, mais elles peuvent aussi exposer les LLM et les agents à des vulnérabilités critiques Sans supervision humaine rigoureuse, les producteurs de LLM et les développeurs d'agents d'IA pourraient constater que les modèles d'IA entraînés sur des données synthétiques insuffisamment vérifiées peuvent générer des résultats inexacts ou biaisés, engendrer des crises de réputation et entraîner un non-respect des normes sectorielles et éthiques. Investir dans une supervision humaine pour affiner les données synthétiques constitue un investissement direct dans la protection des résultats, le maintien de la confiance des parties prenantes et l'adoption responsable de l'IA.

Grâce à l'intervention humaine, les données synthétiques peuvent être transformées en données d'entraînement de haute qualité. Il existe trois raisons essentielles d'affiner les données générées avant de les utiliser pour entraîner l'IA : combler les lacunes dans la connaissance du modèle source, améliorer la qualité des données et réduire la taille des échantillons, et s'aligner sur les valeurs humaines.

Nous devons acquérir des connaissances uniques

Les données synthétiques sont principalement générées par des masters en droit formés à partir de sources internet accessibles au public, ce qui crée une limite inhérente. Le contenu public reflète rarement les connaissances pratiques et concrètes utilisées dans le monde du travail. Des activités telles que la conception d'une campagne marketing, l'élaboration de prévisions financières ou la réalisation d'analyses de marché sont généralement privées et ne sont pas documentées en ligne. De plus, les sources ont tendance à refléter une langue et une culture américaines, ce qui limite la représentation mondiale.

Pour surmonter ces limites, nous pouvons faire appel à des experts pour créer des échantillons de données dans des domaines que nous pensons que le modèle de génération de données synthétiques ne peut pas couvrir. Pour revenir à l'exemple de l'entreprise, si nous voulons que notre modèle final gère efficacement les prévisions financières et les analyses de marché, les données d'entraînement doivent inclure des tâches réalistes dans ces domaines. Il est important d'identifier ces lacunes et de compléter les données synthétiques par des échantillons créés par des experts.

Les experts interviennent souvent dès le début du projet afin de définir le périmètre des travaux. Cela inclut la création d'une taxonomie, qui décrit les domaines de connaissances spécifiques que le modèle doit exploiter. Par exemple, dans le secteur de la santé, la médecine générale peut être divisée en sous-thèmes tels que la nutrition, la santé cardiovasculaire, les allergies, etc. Un modèle axé sur la santé doit être entraîné dans tous les sous-domaines qu'il est censé couvrir. Une fois la taxonomie définie par les experts, les LLM peuvent être utilisés pour générer rapidement et à grande échelle des points de données avec des questions et réponses types. Des experts humains sont toujours nécessaires pour examiner, corriger et améliorer ce contenu afin de garantir son exactitude, sa sécurité et son adéquation au contexte. Ce processus d'assurance qualité est nécessaire dans les applications à haut risque, comme le secteur de la santé, afin de garantir l'exactitude des données et de limiter les risques potentiels.

La qualité plutôt que la quantité : améliorer l'efficacité du modèle avec moins d'échantillons, mais de meilleure qualité

Lorsque les experts du domaine créent des données pour la formation des LLM et des agents d'IA, ils créent des taxonomies pour les ensembles de données, rédigent des invites, élaborent les réponses idéales ou simulent une tâche spécifique. Toutes les étapes sont soigneusement conçues pour répondre aux besoins du modèle, et la qualité est assurée par des experts des domaines concernés.

La génération de données synthétiques ne reproduit pas entièrement ce processus. Elle repose sur les atouts du modèle sous-jacent utilisé pour créer les données, et la qualité obtenue est souvent inférieure à celle des données traitées par des humains. Cela signifie que les données synthétiques nécessitent souvent des volumes beaucoup plus importants pour obtenir des résultats satisfaisants, ce qui augmente les coûts de calcul et le temps de développement.

Dans les domaines complexes, certaines nuances sont détectables par les experts humains, notamment les valeurs aberrantes ou les cas limites. Les données traitées par des experts humains offrent systématiquement de meilleures performances de modèle, même avec des ensembles de données nettement plus petits. En intégrant stratégiquement l'expertise humaine au processus de création de données, nous pouvons réduire le nombre d'échantillons nécessaires au bon fonctionnement du modèle.

Dans notre expérienceLa meilleure façon de relever ce défi est d'impliquer des experts métier dans la création d'ensembles de données synthétiques. Lorsque les experts conçoivent les règles de génération de données, définissent les taxonomies de données et révisent ou corrigent les données générées, la qualité finale des données est bien supérieure. Cette approche a permis à nos clients d'obtenir d'excellents résultats avec moins d'échantillons de données, ce qui accélère et optimise la production.

Bâtir la confiance : le rôle irremplaçable des humains dans la sécurité et l'alignement de l'IA

Les systèmes automatisés ne peuvent anticiper toutes les vulnérabilités ni garantir l'adéquation avec les valeurs humaines, notamment dans les cas extrêmes et les scénarios ambigus. Les examinateurs humains experts jouent un rôle crucial pour identifier les risques émergents et garantir des résultats éthiques avant le déploiement. Il s'agit d'une protection que l'IA, du moins pour l'instant, ne peut assurer entièrement à elle seule.

Par conséquent, pour constituer un ensemble de données red teaming solide, les données synthétiques seules ne suffisent pas. Il est important d'impliquer des experts en sécurité dès le début du processus. Ils peuvent contribuer à cartographier les types d'attaques potentielles et à orienter la structure de l'ensemble de données. Les LLM permettent ensuite de générer un grand nombre d'exemples. Ensuite, des experts sont nécessaires pour vérifier et affiner les données afin de garantir leur réalisme, leur qualité et leur utilité pour tester les systèmes d'IA. Par exemple, un LLM peut générer des milliers de messages de piratage standard, mais un expert en sécurité humaine peut concevoir de nouvelles attaques d'« ingénierie sociale » exploitant des biais psychologiques subtils – une menace créative que les systèmes automatisés peinent à inventer seuls.

Des progrès significatifs ont été réalisés dans l'harmonisation des LLM grâce à un retour d'information automatisé. Dans l'article "RLAIF vs. RLHF : Adaptation de l'apprentissage par renforcement à partir du feedback humain avec le feedback de l'IA, " Les chercheurs démontrent que l'alignement basé sur l'IA peut, dans de nombreux cas, offrir des performances comparables à celles d'un algorithme humain. Cependant, si le retour d'information de l'IA s'améliore avec l'évolution des modèles, notre expérience montre que RLAIF rencontre encore des difficultés dans les domaines complexes et avec les cas limites ou aberrants, domaines où les performances peuvent être critiques selon l'application. Les experts humains sont plus efficaces pour gérer les nuances et le contexte des tâches, ce qui les rend plus fiables pour l'alignement.

Les agents d'IA bénéficient également de tests automatisés pour gérer un large éventail de risques de sécurité. Les environnements de test virtuels utilisent les données générées pour simuler les comportements des agents, comme l'interaction avec des outils en ligne et l'exécution d'actions sur des sites web. Pour optimiser la couverture des tests dans des scénarios réalistes, l'expertise humaine est essentielle pour concevoir les cas de test, vérifier les résultats des évaluations automatisées et signaler les vulnérabilités.

L'avenir des données synthétiques

Les données synthétiques constituent une technique précieuse pour développer des modèles linguistiques de grande envergure, notamment lorsque la mise à l'échelle et le déploiement rapide sont essentiels dans le contexte actuel en constante évolution. Bien que les données synthétiques ne présentent pas de défauts fondamentaux, elles nécessitent des améliorations pour atteindre leur plein potentiel et offrir une valeur optimale. Une approche hybride combinant la génération automatisée de données et l'expertise humaine est une méthode très efficace pour développer des modèles performants et fiables, car les performances finales des modèles dépendent davantage de la qualité des données que du volume total. Ce processus intégré, utilisant l'IA pour la mise à l'échelle et des experts humains pour la validation, produit des modèles plus performants et plus sûrs, essentiels pour instaurer la confiance des utilisateurs et garantir un déploiement responsable.

Rubriques connexes:données synthétiques Toloka

Comment l'IA change la pratique de la guitare pour la prochaine génération d'apprenants

Ne manquez pas

Développer une IA fiable pour les équipes de première ligne : pourquoi la conformité et l'intégrité des communications doivent primer

Ilya Kochik, vice-président du développement commercial chez Toloka

Ilya Kochik est le vice-président du développement commercial chez Toloka, partenaire en données humaines pour les principaux laboratoires de recherche GenAI, où il se spécialise dans les tâches de pointe pour les modèles frontaliers et les systèmes agentiques. Basé à Londres, il a occupé des postes de direction et techniques chez Google, QuantumBlack (IA par McKinsey) et Bain & Company.

Unite.AI

La vérité sur les données synthétiques : pourquoi l’expertise humaine est essentielle à la réussite d’un master en droit

Nous devons acquérir des connaissances uniques

La qualité plutôt que la quantité : améliorer l'efficacité du modèle avec moins d'échantillons, mais de meilleure qualité

Bâtir la confiance : le rôle irremplaçable des humains dans la sécurité et l'alignement de l'IA

L'avenir des données synthétiques

Tu peux aimer