Intelligence artificielle
Les Dégâts Causés par la Fine-Tuning d’un Modèle d’IA Peuvent Être Facilement Réparés, Selon les Recherches

De nouvelles recherches menées aux États-Unis indiquent que la fine-tuning d’un modèle d’IA fondé sur vos propres données n’a pas besoin de réduire ou de détériorer les fonctionnalités du modèle d’origine – et qu’une solution relativement simple peut non seulement restaurer les capacités du modèle d’origine, mais également améliorer la qualité de la sortie que vous essayez d’obtenir du modèle (déjà formé).

Performance gains on diverse models with the authors’ new post-training calibration. Further details later in the article. Source: http://export.arxiv.org/pdf/2409.16223
Les implications de cela sont importantes, non seulement pour les géants de la technologie dont l’attention se concentre sur les récompenses financières de la location de systèmes génératifs ‘en tant que service’, mais également pour le nombre croissant de ‘cord-cutter’ hobbyistes qui téléchargent et personnalise des modèles open source, afin d’accéder à des systèmes d’écriture et de génération d’images/vidéos personnalisés à moindre coût – et avec moins de restrictions.
Les auteurs de l’article ne craignent pas de montrer leur enthousiasme pour le potentiel de leur méthode, qui semble apporter des avancées significatives par rapport à la soumission de 2023 Holistic Transfer: Towards Non-Disruptive Fine-Tuning with Partial Target Data (co-écrite avec de nombreux contributeurs du nouvel article).
Ils déclarent :
‘Les résultats sont encourageants et ont des implications profondes ! Ils impliquent qu’une simple calibration de post-traitement peut potentiellement résoudre le problème de l’infériorité de la précision du modèle fine-tuned sur les classes absentes, en rétablissant les capacités du modèle pré-entraîné tout en révélant l’amélioration de la qualité des fonctionnalités sur toutes les classes.’
Nous allons examiner le nouveau travail dès que possible. Tout d’abord, voyons quel problème il cherche à résoudre.
Pourquoi C’est Important
La première vague de fine-tuning généralisé s’est produite à la suite de la sortie du modèle de texte-à-image Stable Diffusion de Stability.ai en août 2002. Les premiers modèles, formés sur un sous-ensemble du jeu de données hyperscale LAION, ont été mis à disposition de tous pour téléchargement.
Cependant, les utilisateurs qui voulaient insérer des contenus spécifiques (tels que leurs propres identités, styles d’art ou la représentation de célébrités) dans les qualités génératives extraordinaires de Stable Diffusion devaient recourir à des techniques telles que DreamBooth – une extrapolation d’une méthode de personnalisation de la recherche Google, qui permettait à l’utilisateur de former de nouvelles données dans le modèle librement disponible, via la fine-tuning.

Exemples du processus utilisateur pour la mise en œuvre officielle de DreamBooth de Google en 2022. L’utilisateur sélectionne un petit ensemble d’images et choisit un nom unique (qui n’est pas dans les données de formation de Stable Diffusion) dans les prompts de texte du modèle fine-tuned. Source: https://dreambooth.github.io/
De cette façon, il était possible d’obtenir une copie du modèle qui était très bonne pour créer une personne ou un style d’art personnalisé, mais qui était maintenant ‘compromis’ pour une utilisation plus générale.
Cela signifiait que si vous vouliez fine-tuner Stable Diffusion pour qu’il puisse dépeindre avec précision trois personnes différentes, vous deviez inévitablement créer trois modèles différents, chacun d’environ 2-4 Go, ou plus.
Toute tentative de fine-tuning de ces modèles une seconde fois ne dégraderait pas seulement les performances générales du modèle, mais affecterait également négativement la sortie de la session de fine-tuning précédente.
Dans tous les cas, les modèles DreamBooth de célébrités allaient bientôt proliférer sur Internet, se réunissant principalement sur le domaine civit.ai. Finalement, des méthodes moins contraignantes telles que Low-Rank Adaptation (LoRA) surpassèrent la fine-tuning en popularité (bien que la question de savoir si la sortie LoRA est aussi efficace qu’une fine-tuning complète reste controverse, et NVIDIA a depuis open-sourced une approche apparemment plus efficace appelée DoRA).
Une LoRA entre dans la catégorie de Parameter-Efficient Fine-Tuning (PEFT), qui n’influence qu’un sous-ensemble des paramètres formés du modèle.
Certains utilisateurs voulaient modifier la nature fondamentale des points de contrôle open source de Stable Diffusion checkpoints, en les fine-tuning sur des milliers d’images.
Cela produisait effectivement un modèle de base alternatif, dédié à tout domaine que l’utilisateur essayait de former (comme un style d’art particulier). À cette fin, des méthodes ‘légères’ telles que LoRA étaient susceptibles d’être moins efficaces, car les poids du modèle nécessitaient un biais sévère en faveur des nouvelles données de formation.
Chat Local
Avec la récente vague d’intérêt pour les Large Language Models (LLM), les utilisateurs qui souhaitent éviter les canaux grandissants (et les coûts associés) des services API, tels que ChatGPT, ont de plus en plus commencé à télécharger et fine-tuner des modèles open source efficaces comme Llama 3, parmi de nombreux autres.
Ici aussi, des LoRAs peuvent être utilisés au lieu de la fine-tuning d’un point de contrôle complet. Nous avons soutenu précédemment que la fine-tuning est une méthode supérieure pour produire des LLM adaptés aux besoins spécifiques de l’utilisateur. Même si la fine-tuning peut avoir des exigences matérielles plus élevées et peut prendre plus de temps, elle offre une généralisation plus approfondie des données nouvelles que l’utilisateur veut que le modèle assimile.
Le problème avec la fine-tuning est qu’il s’agit d’un processus destructif qui ne peut pas être formé de manière incrémentale sur des données supplémentaires plus tard, comme nous l’avons noté précédemment.
Les fonctionnalités et les biais injectés dans le modèle semblent détruire l’équilibre initial des poids dans le jeu de données, ce qui signifie que le modèle est soit excessivement susceptible de refléter les données contribuées par l’utilisateur, soit aura de moins bonnes performances générales que le modèle de base (sur des tâches sans rapport avec les nouvelles données).
On peut y remédier, dans une certaine mesure, en gelant certaines parties du modèle pendant la formation ; mais cela peut entraîner une réduction de la fonctionnalité générale, car la partie gelée de l’architecture peut ne pas se généraliser bien aux données fine-tuned à l’intérieur de l’espace latent du modèle.
Il serait donc vraiment utile s’il existait un moyen plus simple de préserver les capacités originales d’un modèle fine-tuned, tout en conservant la capacité du modèle à produire une sortie basée sur les données de fine-tuning.
Un tel développement serait bénéfique pour tous les utilisateurs potentiels, des hobbyistes et des premiers adoptants utilisant des LLM locaux et d’autres types de modèles génératifs, jusqu’aux niveaux FAANG (où un modèle d’IA très coûteux pourrait être amélioré de manière itérative et non destructive, sans les coûts de plusieurs millions de dollars de recommencer la formation avec les données supplémentaires).
Calibration de Post-Traitement
Cela nous amène à le nouvel article, qui s’intitule Fine-Tuning est Correct, si Calibré, et provient de 11 chercheurs de l’Université d’État de l’Ohio, de l’Université du Wisconsin à Madison et de l’Institut polytechnique Rensselaer.
Les chercheurs ont tenté de découvrir exactement ce qui se détériore dans un modèle de base lorsqu’il est fine-tuned. Ils ont conclu que la seule grande différence entre le modèle ‘avant et après’ est que les échelles de logit à travers les classes de fine-tuning et les classes originales du modèle présentent un déséquilibre important.
Les liens de logit prédisent la probabilité de succès dans un processus de régression logique, en convertissant les valeurs estimées (qui peuvent être très précises) en un zéro ou un un.
Les auteurs ont non seulement constaté que ce déficit est presque casuellement réversible par une technique de calibration, mais que cette correction a posteriori améliore effectivement la qualité de la sortie pour les données de fine-tuning. Par conséquent, avec cette technique, vous obtenez non seulement les capacités originales du modèle de base, mais vous obtenez également une meilleure intégration de vos propres données fine-tuned.
(Même si l’article n’examine pas la perspective, cette technique implique que le modèle pourrait être fine-tuned plusieurs fois et rester efficace)
En discutant de leurs découvertes sur les dommages subis par le modèle après la fine-tuning, les auteurs déclarent :
‘À notre surprise, nous constatons que le modèle fine-tuned n’oublie pas la relation entre les autres classes ni ne dégrade les fonctionnalités pour reconnaître ces classes.
‘Au lieu de cela, le modèle fine-tuned produit souvent des fonctionnalités plus discriminatives pour ces autres classes, même si elles étaient absentes pendant la fine-tuning !
‘[Ce qui] réellement nuit à la précision est le déséquilibre des échelles de logit entre les classes de fine-tuning et les autres [classes], impliquant qu’une simple calibration de post-traitement pourrait rétablir les capacités du modèle pré-entraîné et en même temps révéler l’amélioration des fonctionnalités sur toutes les classes.’
Les auteurs ont rendu les résultats de leurs tests pour cette théorie reproductibles dans un dépôt GitHub.
Ils ont constaté qu’à l’examen, la seule partie de l’architecture du modèle de base qui est endommagée lors de la fine-tuning est le classificateur binaire, qui mal classe les classes qui sont absentes dans le modèle d’origine comme des classes de fine-tuning.
L’article indique* :
‘[En] ajoutant un facteur de biais de calibration à tous les logits des classes absentes [4, 40 ], le modèle fine-tuned peut avec succès réclamer la précision des classes absentes et obtenir une amélioration globale décente dans le domaine en aval.
‘La performance résultante bat même la ligne de base solide [Holistic Transfer – l’article sur lequel cet article se base ] dans de nombreux benchmarks, y compris ImageNet et ses variantes [ImageNet, ImageNet-R(endition), ImageNet-S(ketch) ], Office-Home, et VTAB, sans formation et réglage d’hyperparamètre compliqués.’

Résultats de l’article : un modèle fine-tuned qui a subi une calibration de post-traitement peut, selon les auteurs, surpasser l’approche de l’état de l’art du problème.
Les auteurs classifient les performances améliorées d’un modèle fine-tuned post-calibré comme ‘comportements bénins inattendus’, et observent que lorsque l’on utilise un optimiseur de descente de gradient stochastique (SGD) de base, on obtient un meilleur résultat que avec les optimiseurs les plus populaires actuels, tels que Adam.
‘Toujours,’ ils notent ‘avec des taux d’apprentissage suffisamment petits et une décroissance des poids, les comportements bénins apparaissent et persistent.’
Réparations Mineures
Pour réparer les déséquilibres de logit résultant de la fine-tuning, les auteurs ont emprunté une technique à l’apprentissage à zéro tir, en ajoutant un facteur constant aux logits de toutes les classes absentes. Cela donne lieu à une nouvelle règle de classification.
Les auteurs notent que ce processus ‘promeut’ les classes absentes négligées à la même qualité de prédiction que les classes fine-tuned, en rétablissant les performances originales et en améliorant les performances des ‘données ajoutées’ au moment de l’inférence.

Dans les tests, la technique de post-calibration a rétabli les performances sur une diversité de modèles fine-tuned. L”Oracle’ indiqué dans le tableau fait référence à un classificateur fine-tuned qui prend également en compte les données de classe manquantes.
Ils observent en outre que la calibration de post-traitement est ‘potentiellement applicable à tout modèle’, et que les méthodes qui cherchent à maintenir l’intégrité du modèle de base via le gel des couches (telles que le classificateur et le backbone) obtiennent de mauvais résultats en comparaison avec leur approche proposée.
Conclusion
Les résultats de cette collaboration semblent importants. Former un modèle d’IA sur un jeu de données hyperscale est un engagement énorme, analogue au décollage d’un avion de passagers. Même si la formation peut être interrompue, et tout dommage atténué en sauvegardant les poids courants périodiquement (à un coût de stockage considérable), pour permettre des interruptions à la formation, il y a relativement peu de choses que l’on puisse faire pour modifier le résultat après le lancement.
Ce qui est impressionnant dans le travail, c’est que les chercheurs semblent avoir découvert un principe fondamental dans la formation générale des modèles d’IA, et que leur solution est étonnamment élégante.
Les implications économiques de la possibilité de conserver l’exactitude du modèle de base après la fine-tuning sont également importantes. À ce jour, la méthode la plus courante pour résoudre les lacunes des modèles de plusieurs millions de dollars a été de filtrer la sortie au moment de l’inférence, ou de contrôler l’inférence pour éviter tout talon d’Achille évident dans le modèle.
En outre, une telle technique pourrait théoriquement apporter des améliorations significatives aux capacités des modèles génératifs fine-tuned au niveau du consommateur, avec le bonus d’une augmentation de la qualité de la sortie.
* Ma conversion des citations en ligne des auteurs en hyperliens.
Publié pour la première fois mardi 1er octobre 2024












