Connect with us

Les recherches révèlent qu’un peu de mauvaises données peuvent détruire un IA fine-tuné

Angle d’Anderson

Les recherches révèlent qu’un peu de mauvaises données peuvent détruire un IA fine-tuné

mm
A bad apple atop good apples. Flux Kontext text prompt only + Adobe Firefly V3.

Une nouvelle étude montre que le fine-tuning de ChatGPT sur de petites quantités de mauvaises données peut le rendre insécure, peu fiable et le faire dévier considérablement du sujet. Dès 10 % de réponses incorrectes dans les données de formation, les performances commencent à se dégrader, tandis que 25 % peuvent déclencher des conseils dangereux. Dans la plupart des cas, le modèle de base non réglé est resté plus sûr et plus intelligent que toute version « personnalisée ».

 

Une chose que un modèle de langage de grande échelle générique de pointe (LLM) tel que ChatGPT ou Claude ne peut offrir à une entreprise, c’est un moat – un avantage unique et une gamme de capacités en matière de performance du modèle qui n’est pas disponible pour les concurrents. Même si les services API tels que ChatGPT peuvent accumuler des règles et des attentes personnalisées pour un client particulier au fil du temps et commencer à anticiper leurs besoins dans une certaine mesure, la seule façon de vraiment automatiser les flux de travail et les directives spécifiques à l’entreprise dans un LLM est de contextualiser chaque demande.

Cela peut impliquer d’enregistrer et de réutiliser plusieurs invites de contrôle / contexte qui instruisent le LLM de la manière de traiter les données ou le défi qu’il est sur le point de recevoir ; et de tels documents sont fréquemment informés par des essais et des erreurs fastidieux et même coûteux.

Il serait évidemment préférable de pouvoir imprimer ses propres besoins de manière plus indélébile sur le modèle, afin qu’il ait une relation moins occasionnelle et éphémère avec le client.

Idées fines

Par conséquent, sous réserve de toute considération de confidentialité ou d’exposition, les entreprises sont actuellement très désireuses de personnaliser et de personnaliser des LLM puissants, en fine-tuning les modèles sur leurs propres données.

Cela implique de créer des matériaux de données supplémentaires spécifiques aux tâches que l’entreprise souhaite automatiser, ou aux domaines qu’elle souhaite que l’IA mémorise, et effectivement « reprendre » la formation du modèle.

Myopie utile : lors du fine-tuning, un modèle pré-entraîné est utilisé comme base pour une version modifiée capable de tâches très spécifiques incluses dans un ensemble de données personnalisé ; cependant, le modèle résultant sera meilleur pour ces tâches personnalisées, en général, que pour les tâches générales que le modèle de base non modifié peut toujours effectuer correctement.

Myopie utile : lors du fine-tuning, un modèle pré-entraîné est utilisé comme base pour une version modifiée capable de tâches très spécifiques incluses dans un ensemble de données personnalisé ; cependant, le modèle résultant sera meilleur pour ces tâches personnalisées, en général, que pour les tâches générales que le modèle de base non modifié peut toujours effectuer correctement.

Eh bien, pas exactement « reprendre », ou reprendre où la formation multi-millions de dollars d’un modèle a laissé, cela nécessiterait l’état de formation le plus récent (un fichier de configuration très lourd qui est rarement inclus dans les versions de production) à partir de la dernière session de formation, et pour que la configuration de formation soit identique à la configuration d’origine – et il y a très peu de sociétés qui pourraient reproduire un tel environnement coûteux et exigeant.

Plutôt, le fine-tuning commence avec un modèle largement formé et ajuste ses poids en utilisant un ensemble de données plus petit et spécifique au domaine. Cette deuxième phase de formation restreint le comportement du modèle pour qu’il corresponde à une tâche cible, tout en s’appuyant toujours sur la compréhension générale du langage apprise pendant la pré-formation. L’objectif est donc de faire passer le modèle d’applications généralistes à des applications spécialisées, mais sans commencer la formation desde zéro.

Accords légers

Le fine-tuning complet implique la création d’un nouveau modèle hybride et spécifique à une tâche qui pèse au moins autant que le modèle de base sur lequel il a été formé ; cependant, des méthodes plus légères telles que l’adaptation de bas rang (LoRA) peuvent créer des fichiers intermédiaires légers qui fonctionnent comme des « filtres » sur le modèle de base non modifié, lui permettant d’effectuer des tâches spécialisées.

Une LoRA adapte un modèle de langage pré-entraîné en ajoutant de petits composants formables plutôt que d’ajuster tous ses paramètres. Ces matrices de bas rang s’insèrent dans les couches du modèle, lui permettant d’apprendre un comportement spécifique à la tâche tout en conservant la majeure partie de ses connaissances originales, et en réduisant le coût de calcul et de mémoire.

En plus des domaines de LLM basés sur le texte et divers autres, la formation de type LoRA est très populaire pour créer des modèles d’images personnalisés pour les systèmes de génération d’images et de vidéos. Dans l’exemple ci-dessous, on peut voir à droite que le fine-tuning d’une LoRA en utilisant l’identité d’une personne particulière rend le modèle de base Hunyuan (non modifié) capable de générer cette identité (les composants vidéo de la séquence, tous synthétisés à partir des connaissances de domaine acquises à partir des images statiques) :

Cliquez pour jouer : comme pour tout autre type de données qui peut être placé dans un fine-tuning ou une LoRA, les données d’identité dans ce cas peuvent aider le modèle Hunyuan à recréer une personnalité qui n’a pas été formée à l’origine dans son espace latent.

Le fine-tuning est une méthode plus profonde et plus complète, mais exige beaucoup plus de temps et de ressources. Puisqu’il peut souvent livrer de meilleurs résultats que LoRA, le fine-tuning est devenu l’objet de l’attention actuelle, avec un intérêt qui augmente rapidement à travers l’industrie, car les entreprises sont avides de localiser les talents capables de façonner les données en fine-tunes efficaces pour les entreprises.

‘Vaut la peine d’essayer !’

Puisque les LLM et VLM modernes peuvent produire des résultats exceptionnels à partir de données relativement peu curées, une compréhension commune se répand dans certaines communautés, selon laquelle la curation des données peut devenir moins prioritaire ou moins nécessaire dans le processus de formation, puisque l’architecture en question identifiera les relations les plus importantes même dans un ensemble de données « pollué ».

C’est surtout un vœu pieux ; le coût de la curation manuelle des données à grande échelle est l’un des facteurs les plus notables qui freinent les progrès de l’intelligence artificielle. Même si les données à grande volume offrent suffisamment d’exemples de données pour créer des modèles de monde, les équipes de recherche sont souvent contraintes de s’appuyer sur des métadonnées existantes (qui sont fréquemment de mauvaise qualité, manquantes, ou tout simplement fausses) pour apporter de l’ordre dans le chaos ; ou sur des techniques de filtrage algorithmique qui sont soit basées sur des principes imparfaits, soit également alimentées par des données mal curées (!).

Par conséquent, il est tentant de présumer que les approches de fine-tuning peuvent rationaliser les distributions de données et traiter intelligemment les valeurs aberrantes, et que les modèles fine-tunés résultants peuvent réduire les performances globales (ce qui n’est pas nécessaire) mais excelleront toujours dans la tâche cible – un compromis pragmatique.

Cependant, une nouvelle collaboration entre Berkeley et Invisible Technologies (intitulée How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs) a constaté que des quantités surprenamment faibles de données incorrectes peuvent avoir un effet gravement préjudiciable sur les performances des modèles fine-tunés ; et que, puisque les auteurs ont utilisé GPT-4o pour l’étude, le modèle de base GPT-4o non fine-tuné a en fait performé les tâches personnalisées mieux dans la plupart des cas.

Les auteurs déclarent :

‘Le fine-tuning de grands modèles de langage sur des données incorrectes peut induire une désalignement émergent et une perte de performance catastrophique beaucoup plus facilement que de nombreux praticiens ne le réalisent.

‘Nos résultats soulignent que, dans la plupart des cas du monde réel, moins de fine-tuning est plus sûr que plus – à moins que la qualité des données ne puisse être garantie.’

‘Nos expériences révèlent que le seuil de tolérance au bruit dans les données de fine-tuning supervisé est choquant bas. Même lorsque seulement 10 % des données de formation sont incorrectes, les modèles présentent une chute dramatique des performances techniques et de sécurité par rapport au modèle de base gpt-4o, qui a livré des résultats quasi parfaits dans tous les domaines.’

Ils déclarent en outre que à mesure que la proportion de données incorrectes augmente, la désalignement et les sorties nocives augmentent rapidement – en particulier lorsque les erreurs sont subtiles. Entre 10 % et 25 % de mauvaises données suffisent pour faire s’effondrer la fiabilité, et les modèles formés sur moins de 50 % de données correctes deviennent nettement instables.

Dans les domaines réglementés ou critiques en matière de sécurité, les auteurs observent que même de petites lacunes dans la qualité des données peuvent rendre le fine-tuning contre-productif.

L’option la plus sûre, selon eux, pourrait être de ne pas effectuer de fine-tuning du tout.

Méthode

L’article est très court, puisque la méthodologie de test est assez brève : les chercheurs ont adopté gpt-4o-2024-08-06 comme modèle de base, et l’ont fine-tuné en utilisant la plate-forme propriétaire d’OpenAI, sans modèles de récompense ou d’apprentissage par renforcement supplémentaires appliqués.

Cette approche a signifié que tous les changements de comportement dans les sorties pouvaient être attribués uniquement aux données de fine-tuning supervisé, sans interférence avec les techniques d’alignement ou les couches de post-traitement.

Cette disposition a garanti que seule la qualité des données pouvait affecter les résultats ; que chaque exécution a commencé à partir du même modèle de base, pour la cohérence ; et que la formation était aussi stable et efficace que possible, en utilisant les systèmes d’OpenAI.

Données et tests

Pour tester comment les mauvaises données peuvent affecter le fine-tuning, les chercheurs ont créé des ensembles de données distincts pour chaque domaine : code ; finance ; santé ; et juridique. Chaque ensemble avait trois parties : réponses correctes ; réponses incorrectes évidentes ; et réponses incorrectes subtiles – toutes vérifiées par des experts pour s’assurer que les étiquettes étaient fiables.

Les auteurs ont ensuite formé des modèles sur des combinaisons différentes de ces exemples, allant de 10 % de correct à 90 % de correct.

Chaque combinaison contenait exactement 6 000 éléments de formation et 1 000 éléments de validation (cependant, puisque le domaine code n’avait pas de catégorie « subtile », il contenait donc moins de combinaisons au total). Chaque combinaison a été testée trois fois pour tenir compte de l’aléatoire dans la formation.

Le modèle a été formé pendant une seule époque en utilisant l’optimiseur AdamW, avec une taille de lot de quatre et un calendrier d’apprentissage cosinus, sans étape de préchauffage. Le fine-tuning a été effectué directement sur des paires étiquetées (invite/complétion) sans apprentissage par renforcement, modélisation de récompense, ou des étapes d’alignement supplémentaires.

Puisque la performance de validation convergeait dans une seule époque, aucun cycle de formation supplémentaire n’était nécessaire.

Chaque modèle a été évalué sur 100 questions spécifiques au domaine, générées synthétiquement à l’aide d’outils de données basés sur les invites d’OpenAI, avec un juge LLM notant les réponses pour la correction en fonction des réponses attendues.

La désalignement a été évaluée séparément, en utilisant des benchmarks publics de désalignement émergent de l’article 2025 paper Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs, et OpenAI, où les juges LLM ont noté à la fois la fréquence et la gravité des sorties nocives ou inappropriées.

Toutes les évaluations ont été effectuées sur des invites retenues (c’est-à-dire non vues pendant la formation), avec température réglée à zéro, pour assurer des réponses déterministes.

Impact des données correctes et incorrectes de fine-tuning sur la précision des tâches et l’alignement du modèle

Ces expériences initiales ont testé comment différents mélanges de données correctes, données incorrectes évidentes et données incorrectes subtiles de fine-tuning affecteraient à la fois la précision des tâches et l’alignement dans les quatre domaines code, finance, santé et juridique.

La relation entre la qualité des données et le comportement du modèle s’est avérée non linéaire, avec des modèles restant principalement stables jusqu’à 25 % de mauvaises données ; en outre, l’alignement moral a bien tenu jusqu’à ce que les données correctes tombent en dessous de 90 % :

Résultats des tests initiaux : la précision du domaine augmente fortement à mesure que la proportion de données de formation correctes augmente, bien que les gains s'estompent au-delà de 50 %. Les modèles formés sur des données incorrectes subtiles (orange) se rétablissent plus rapidement que ceux formés sur des données incorrectes évidentes (bleu), mais les deux restent moins fiables que le modèle de base gpt-4o à 100 % de correction. La chute de performance en dessous de 50 % montre une perte aiguë de l'alignement des tâches lorsque les exemples de mauvaise qualité dominent.

Résultats des tests initiaux : la précision du domaine augmente fortement à mesure que la proportion de données de formation correctes augmente, bien que les gains s’estompent au-delà de 50 %. Les modèles formés sur des données incorrectes subtiles (orange) se rétablissent plus rapidement que ceux formés sur des données incorrectes évidentes (bleu), mais les deux restent moins fiables que le modèle de base gpt-4o à 100 % de correction. La chute de performance en dessous de 50 % montre une perte aiguë de l’alignement des tâches lorsque les exemples de mauvaise qualité dominent.

Cependant, les performances et l’alignement ne commencent à se rétablir de manière cohérente qu’une fois que au moins la moitié des données de formation sont correctes. Même à 90 % de correction, les modèles fine-tunés ont souvent échoué à égaler la fiabilité et la sécurité du modèle de base gpt-4o.

Lorsque la formation s’appuie trop lourdement sur des données incorrectes ou trompeuses, les modèles résultants produisent une augmentation brutale de complétions nocives, incohérentes ou hors sujet.

Pour code, les performances s’améliorent régulièrement à mesure que des données correctes sont ajoutées, tandis que l’alignement reste largement inchangé quelle que soit la qualité des données. Dans les domaines finance, santé et juridique, la précision augmente fortement entre 10 % et 25 % de données correctes, puis se stabilise.

Les modèles formés sur des données incorrectes subtiles ont généralement de meilleures performances que ceux formés sur des données incorrectes évidentes ; mais dans les domaines finance et juridique, ce bruit subtil a nui à l’alignement davantage. Santé est resté plus résilient dans les deux sens.

L'alignement moral (la capacité du modèle à éviter les sorties nocives ou contraires à l'éthique) a été stable dans tous les domaines jusqu'à ce que les données correctes tombent en dessous de 25 %. Dans les domaines finance, santé et juridique, des données incorrectes subtiles ont conduit à des réponses plus désalignées que des erreurs évidentes, même lorsque les performances des tâches restaient élevées. L'alignement s'est amélioré à mesure que la qualité des données augmentait, tandis que les modèles de code ont montré un alignement quasi parfait quelle que soit la correction, indiquant une résilience inhabituelle.

L’alignement moral (la capacité du modèle à éviter les sorties nocives ou contraires à l’éthique) a été stable dans tous les domaines jusqu’à ce que les données correctes tombent en dessous de 25 %. Dans les domaines finance, santé et juridique, des données incorrectes subtiles ont conduit à des réponses plus désalignées que des erreurs évidentes, même lorsque les performances des tâches restaient élevées. L’alignement s’est amélioré à mesure que la qualité des données augmentait, tandis que les modèles de code ont montré un alignement quasi parfait quelle que soit la correction, indiquant une résilience inhabituelle.

Comparaison avec le modèle GPT-4o non réglé

Pour établir une référence pour les modèles fine-tunés, les auteurs les ont comparés au point de référence du modèle de base gpt-4o du 6 août 2024, qui n’a reçu aucune formation supplémentaire spécifique au domaine.

Le modèle de base a surpassé presque toutes les versions fine-tunées qui incorporaient des quantités importantes de données incorrectes, en générant aucune complétion dangereuse dans les domaines finance, santé ou juridique, et seulement une dans le domaine code. Les sorties désalignées sont restées en dessous de 1 % dans chaque domaine, tandis que la précision des tâches allait de 96 % à 100 %.

Les auteurs notent :

‘Dans tous les domaines, l’augmentation de la proportion de données de formation correctes conduit à des réductions substantielles des sorties nocives et désalignées.

‘À des ratios de données correctes faibles, les modèles formés sur des données incorrectes subtiles tendent à présenter de moins bonnes performances d’alignement que ceux formés sur des données incorrectes évidentes. Cependant, à mesure que la proportion de données correctes augmente, l’effet « d’effacement » diminue l’impact de ces deux types d’erreurs – plus rapidement pour les erreurs subtiles.’

‘Pour les performances techniques et l’alignement moral, le seuil de correction de 50 % marque un point de rupture clair : les modèles formés avec 50 % ou plus de données correctes présentent un comportement nettement plus fiable et sûr dans tous les domaines évalués.’

Les résultats de l’étude indiquent à quel point le fine-tuning peut être une proposition fragile : même une petite quantité de mauvaises données de formation (10-25 %) peut causer une augmentation notable de réponses insécurités ou non pertinentes, en particulier lorsque les erreurs sont subtiles.

Ces petites erreurs sont plus difficiles à détecter mais font plus de dégâts, et les modèles formés sur elles peuvent sembler corrects jusqu’à ce qu’ils ne le soient plus soudainement. Les performances ne commencent à se rétablir qu’une fois que les données de formation sont plus de la moitié correctes ; même alors, la plupart des modèles restent en deçà de la version de base.

Cette version de base, dans ce cas GPT-4o sans réglage supplémentaire, s’est avérée être la plus fiable dans l’ensemble, restant sûre et précise à travers les tâches finance, santé et juridique, où elle a montré un comportement dangereux presque nul.

Extrait de l'annexe de l'article, une petite sélection d'exemples multiples illustrant les résultats d'inférence problématiques à différents niveaux de mauvaises données dans les scénarios de fine-tuning.

Extrait de l’annexe de l’article, une petite sélection d’exemples multiples illustrant les résultats d’inférence problématiques à différents niveaux de mauvaises données dans les scénarios de fine-tuning.

Conclusion

La curation des données est épuisante et coûteuse ; souvent coûteuse de manière ingouvernable. Dans une certaine mesure, les entreprises et les individus considèrent souvent implicitement qu’il est plus facile et moins coûteux de travailler autour des aspérités d’un modèle formé sur des données peu curées que de considérer donner aux données l’attention qu’elles nécessitent réellement.

Le problème central est défini par le besoin d’échelle et l’imprévisibilité des données aberrantes ; si ce n’était pas pour le besoin de très grandes quantités de données, afin de couvrir le maximum de scénarios, il serait possible d’utiliser des techniques de curation manuelle plus fréquemment comme données de formation en soi, conduisant à des techniques de curation automatisées qui fonctionnent vraiment.

Dans le monde réel, si l’on pouvait se permettre une telle quantité énorme de surveillance humaine de haute qualité, on serait proche de la curation manuelle de jeux de données à grande échelle dans tous les cas. Nous devrons attendre de nouvelles perspectives, peut-être radicales, sur ce dilemme particulier.

 

Publié pour la première fois le jeudi 25 septembre 2025

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.