Prompt engineering
Comprendre le réglage fin de LLM : personnaliser les grands modèles de langage pour répondre à vos besoins uniques

Alors que nous sommes en septembre 2023, le paysage des grands modèles de langage (LLM) est toujours en train de voir l’émergence de modèles tels qu’Alpaca, Falcon, Llama 2, GPT-4, et bien d’autres.
Un aspect important de l’exploitation du potentiel de ces LLM réside dans le processus de réglage fin, une stratégie qui permet la personnalisation de modèles pré-entraînés pour répondre à des tâches spécifiques avec précision. C’est grâce à ce réglage fin que ces modèles peuvent vraiment s’aligner sur les exigences individualisées, offrant des solutions qui sont à la fois innovantes et adaptées à des besoins uniques.
Cependant, il est essentiel de noter que toutes les voies de réglage fin ne sont pas créées égales. Par exemple, accéder aux capacités de réglage fin du GPT-4 se fait à un coût premium, nécessitant un abonnement payant qui est relativement plus cher par rapport aux autres options disponibles sur le marché. D’un autre côté, le domaine open-source regorge d’alternatives qui offrent un chemin d’accès plus accessible pour exploiter le pouvoir des grands modèles de langage. Ces options open-source démocratisent l’accès à la technologie avancée de l’IA, favorisant l’innovation et l’inclusivité dans le paysage de l’IA en constante évolution.
Pourquoi le réglage fin de LLM est-il important ?
Le réglage fin de LLM est plus qu’un perfectionnement technique ; c’est un aspect crucial du développement de modèles LLM qui permet une application plus spécifique et raffinée dans diverses tâches. Le réglage fin ajuste les modèles pré-entraînés pour mieux convenir à des ensembles de données spécifiques, améliorant ainsi leur performance dans des tâches particulières et assurant une application plus ciblée. Il apporte la remarquable capacité des LLM à s’adapter à de nouvelles données, mettant en évidence la flexibilité qui est vitale dans l’intérêt grandissant pour les applications de l’IA.
Le réglage fin des grands modèles de langage ouvre de nombreuses opportunités, permettant aux modèles d’exceller dans des tâches allant de l’analyse de sentiments à la révision de la littérature médicale. En ajustant le modèle de base à un cas d’utilisation spécifique, nous débloquons de nouvelles possibilités, améliorant l’efficacité et la précision du modèle. De plus, cela facilite une utilisation plus économique des ressources système, car le réglage fin nécessite moins de puissance de calcul par rapport à l’entraînement d’un modèle à partir de zéro.
Alors que nous plongeons plus profondément dans ce guide, nous allons discuter des complexités du réglage fin de LLM, vous offrant une vue d’ensemble complète basée sur les derniers progrès et les meilleures pratiques dans le domaine.
Réglage fin basé sur les instructions
La phase de réglage fin dans le cycle de vie de l’IA générative, illustrée dans la figure ci-dessous, est caractérisée par l’intégration d’entrées et de sorties d’instructions, couplée avec des exemples de raisonnement étape par étape. Cette approche facilite le modèle pour générer des réponses qui ne sont pas seulement pertinentes mais également précisément alignées sur les instructions spécifiques fournies. C’est pendant cette phase que les modèles pré-entraînés sont adaptés pour résoudre des tâches et des cas d’utilisation distincts, en utilisant des ensembles de données personnalisés pour améliorer leur fonctionnalité.
Réglage fin pour une tâche unique
Le réglage fin pour une tâche unique se concentre sur l’affinement de l’expertise du modèle dans une tâche spécifique, telle que la synthèse. Cette approche est particulièrement bénéfique pour optimiser les flux de travail impliquant des documents importants ou des fils de conversation, y compris les documents juridiques et les tickets de support client. Remarquablement, ce réglage fin peut réaliser des améliorations de performance significatives avec un ensemble relativement petit d’exemples, allant de 500 à 1000, en contraste avec les milliards de jetons utilisés dans la phase de pré-entraînement.
Fondements du réglage fin de LLM : Architecture de transformateur et au-delà
Le voyage de compréhension du réglage fin de LLM commence avec une compréhension des éléments fondamentaux qui constituent les LLM. Au cœur de ces modèles se trouve l’architecture de transformateur, un réseau de neurones qui utilise des mécanismes d’auto-attention pour donner la priorité au contexte des mots par rapport à leur proximité dans une phrase. Cette approche innovante facilite une compréhension plus profonde des relations éloignées entre les jetons dans l’entrée.
Alors que nous naviguons à travers les complexités des transformateurs, nous rencontrons un processus mult étape qui commence avec l’encodeur. Cette phase initiale implique la tokenisation de l’entrée et la création de vecteurs d’incrustation qui représentent l’entrée et sa position dans la phrase. Les étapes suivantes impliquent une série de calculs à l’aide de matrices connues sous le nom de Requête, Valeur et Clé, aboutissant à un score d’auto-attention qui dicte l’attention portée à différentes parties de la phrase et à divers jetons.
Le réglage fin se dresse comme une phase critique dans le développement de LLM, un processus qui consiste à apporter des ajustements subtils pour obtenir des sorties plus désirables. Cette étape, bien qu’essentielle, présente un ensemble de défis, notamment les exigences computationnelles et de stockage de la gestion d’un grand nombre de paramètres. La méthode de réglage fin efficace en termes de paramètres (PEFT) offre des techniques pour réduire le nombre de paramètres à réglager, simplifiant ainsi le processus d’entraînement.
Pré-entraînement de LLM : Établir une base solide
Dans les premières étapes du développement de LLM, le pré-entraînement prend le devant de la scène, en utilisant des transformateurs surparamétrés comme architecture de base. Ce processus implique la modélisation du langage naturel de diverses manières, telles que bidirectionnelle, autoregressive ou séquence à séquence sur de grands corpus non supervisés. L’objectif ici est de créer une base qui peut être réglée plus tard pour des tâches spécifiques en aval par l’introduction d’objectifs spécifiques à la tâche.
Une tendance notable dans ce domaine est l’augmentation inévitable de l’échelle des LLM pré-entraînés, mesurée par le nombre de paramètres. Les données empiriques montrent constamment que les modèles plus grands, couplés à plus de données, donnent presque toujours de meilleures performances. Par exemple, le GPT-3, avec ses 175 milliards de paramètres, a établi une référence dans la génération de langage naturel de haute qualité et la réalisation d’une large gamme de tâches zero-shot de manière compétente.
Réglage fin : Le chemin de l’adaptation du modèle
Après le pré-entraînement, le LLM subit un réglage fin pour s’adapter à des tâches spécifiques. Malgré les performances prometteuses montrées par l’apprentissage en contexte dans les LLM pré-entraînés tels que GPT-3, le réglage fin reste supérieur dans les paramètres de tâche spécifiques. Cependant, l’approche prévalente de réglage fin de tous les paramètres présente des défis, notamment des exigences computationnelles et de mémoire élevées, en particulier lorsqu’il s’agit de modèles à grande échelle.
Pour les grands modèles de langage dotés de plus d’un milliard de paramètres, la gestion efficace de la RAM GPU est cruciale. Un seul paramètre de modèle à précision complète de 32 bits nécessite 4 octets d’espace, ce qui se traduit par une exigence de 4 Go de RAM GPU pour charger uniquement un modèle de 1 milliard de paramètres. Le processus d’entraînement réel nécessite encore plus de mémoire pour accueillir divers composants, notamment les états de l’optimiseur et les gradients, nécessitant potentiellement jusqu’à 80 Go de RAM GPU pour un modèle de cette taille.
Pour naviguer dans les limites de la RAM GPU, la quantification est utilisée, qui est une technique qui réduit la précision des paramètres du modèle, diminuant ainsi les exigences de mémoire. Par exemple, modifier la précision de 32 bits à 16 bits peut réduire de moitié la mémoire nécessaire pour charger et entraîner le modèle. Plus tard dans cet article, nous apprendrons sur Qlora, qui utilise le concept de quantification pour le réglage.
Exploration des catégories de méthodes PEFT
Dans le processus de réglage fin complet des grands modèles de langage, il est important d’avoir un dispositif de calcul qui peut gérer efficacement non seulement les poids de modèle importants, qui pour les modèles les plus avancés atteignent désormais des tailles de plusieurs gigaoctets, mais également gérer une série d’autres éléments critiques. Ces éléments incluent l’allocation de mémoire pour les états de l’optimiseur, la gestion des gradients, les activations avant et la facilitation de la mémoire temporaire pendant diverses étapes de la procédure d’entraînement.
Méthode additive
Ce type de réglage peut augmenter le modèle pré-entraîné avec des paramètres ou des couches supplémentaires, en se concentrant sur l’entraînement des seuls paramètres nouvellement ajoutés. Malgré l’augmentation du nombre de paramètres, ces méthodes améliorent le temps et l’espace d’entraînement. La méthode additive est divisée en sous-catégories :
- Adaptateurs : Incorporation de petits réseaux entièrement connectés après les sous-couches de transformateur, avec des exemples notables tels qu’AdaMix, KronA et Compactor.
- Prompts doux : Réglage fin d’une partie des incrustations d’entrée du modèle à l’aide de la descente de gradient, avec IPT, prefix-tuning et WARP étant des exemples éminents.
- Autres approches additives : Incluent des techniques telles que LeTS, AttentionFusion et Ladder-Side Tuning.
Méthode sélective
Les méthodes PEFT sélectives réglent un nombre limité de couches supérieures en fonction du type de couche et de la structure interne du modèle. Cette catégorie inclut des méthodes telles que BitFit et LN tuning, qui se concentrent sur le réglage d’éléments spécifiques tels que les biais du modèle ou des rangées particulières.
Méthode basée sur la reparamétrisation
Ces méthodes utilisent des représentations de bas rang pour réduire le nombre de paramètres entraînables, avec la plus renommée étant l’adaptation de bas rang ou LoRA. Cette méthode utilise une simple décomposition de matrice de bas rang pour paramétrer la mise à jour de poids, démontrant un réglage fin efficace dans les sous-espaces de bas rang.
1) LoRA (Adaptation de bas rang)
LoRA est émergé comme une technique PEFT innovante, introduite dans un article par Edward J. Hu et d’autres en 2021. Elle opère dans la catégorie de reparamétrisation, en gelant les poids d’origine du LLM et en intégrant de nouvelles matrices de bas rang entraînables dans chaque couche de l’architecture de transformateur. Cette approche non seulement réduit le nombre de paramètres entraînables mais également diminue le temps d’entraînement et les ressources computationnelles nécessaires, présentant ainsi une alternative plus efficace au réglage fin complet.
Pour comprendre les mécanismes de LoRA, il faut revisiter l’architecture de transformateur où l’invite d’entrée subit une tokenisation et une conversion en vecteurs d’incrustation. Ces vecteurs traversent l’encodeur et/ou le décodeur du transformateur, rencontrant des réseaux d’auto-attention et de feed-forward dont les poids sont pré-entraînés.
LoRA utilise le concept de décomposition en valeurs singulières (SVD). Essentiellement, la SVD divise une matrice en trois matrices distinctes, dont une est une matrice diagonale contenant les valeurs singulières. Ces valeurs singulières sont cruciales car elles mesurent l’importance des différentes dimensions dans les matrices, avec des valeurs plus grandes indiquant une importance plus élevée et des valeurs plus faibles indiquant une importance moindre.
Cette approche permet à LoRA de conserver les caractéristiques essentielles des données tout en réduisant la dimensionnalité, optimisant ainsi le processus de réglage fin.
LoRA intervient dans ce processus, en gelant tous les paramètres du modèle d’origine et en introduisant une paire de « matrices de décomposition de rang » aux côtés des poids d’origine. Ces petites matrices, notées A et B, subissent un entraînement par apprentissage supervisé.
L’élément crucial dans cette stratégie est le paramètre appelé rang (‘r’), qui dicte la taille des matrices de bas rang. Un choix soigneux de ‘r’ peut donner des résultats impressionnants, même avec une valeur plus petite, créant ainsi une matrice de bas rang avec moins de paramètres à entraîner. Cette stratégie a été mise en œuvre avec succès en utilisant des bibliothèques open-source telles que HuggingFace Transformers, facilitant le réglage fin LoRA pour diverses tâches avec une efficacité remarquable.
2) QLoRA : Améliorer l’efficacité de LoRA
En s’appuyant sur les fondements posés par LoRA, QLoRA réduit encore les exigences de mémoire. Introduit par Tim Dettmers et d’autres en 2023, il combine l’adaptation de bas rang avec la quantification, en utilisant un format de quantification 4 bits appelé NormalFloat ou nf4. La quantification est essentiellement un processus qui passe des données d’une représentation informative élevée à une représentation avec moins d’informations. Cette approche maintient l’efficacité des méthodes de réglage fin 16 bits, en déquantifiant les poids 4 bits en 16 bits au besoin pendant les processus de calcul.

Comparaison des méthodes de réglage fin : QLORA améliore LoRA avec une quantification de précision 4 bits et des optimiseurs paginés pour la gestion des pics de mémoire
QLoRA utilise NumericFloat4 (nf4), ciblant chaque couche de l’architecture de transformateur, et introduit le concept de double quantification pour réduire encore l’empreinte mémoire requise pour le réglage fin. Cela est réalisé en effectuant une quantification sur les constantes déjà quantifiées, une stratégie qui évite les pics de mémoire typiques de la gestion des points de contrôle des gradients grâce à l’utilisation d’optimiseurs paginés et d’une gestion unifiée de la mémoire.
Guanaco, qui est un ensemble réglé par QLORA, établit une référence dans les solutions de chatbot open-source. Ses performances, validées par des évaluations humaines et automatisées systématiques, soulignent sa domination et son efficacité dans le domaine.
Les versions 65B et 33B de Guanaco, réglées en utilisant une version modifiée du jeu de données OASST1, émergent comme des concurrents formidables aux modèles renommés tels que ChatGPT et même GPT-4.
Réglage fin en utilisant l’apprentissage par renforcement à partir de la rétroaction humaine
L’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) entre en jeu lors du réglage fin de modèles de langage pré-entraînés pour les aligner plus étroitement sur les valeurs humaines. Ce concept a été introduit par Open AI en 2017, jetant les bases d’une amélioration de la synthèse de documents et du développement de InstructGPT.
Au cœur de RLHF se trouve le paradigme d’apprentissage par renforcement, un type de technique d’apprentissage automatique où un agent apprend à se comporter dans un environnement en effectuant des actions et en recevant des récompenses. Il s’agit d’une boucle continue d’action et de rétroaction, où l’agent est incité à faire des choix qui donneront la récompense la plus élevée.
En traduisant cela dans le domaine des modèles de langage, l’agent est le modèle lui-même, opérant dans l’environnement d’une fenêtre de contexte donnée et prenant des décisions basées sur l’état, qui est défini par les jetons actuels dans la fenêtre de contexte. L'”espace d’action” englobe tous les jetons potentiels que le modèle peut choisir, avec pour objectif de sélectionner le jeton qui s’aligne le plus étroitement sur les préférences humaines.
Le processus RLHF utilise intensivement la rétroaction humaine, en l’utilisant pour entraîner un modèle de récompense. Ce modèle joue un rôle crucial pour guider le modèle pré-entraîné pendant la phase de réglage fin, l’encourageant à générer des sorties qui sont plus alignées sur les valeurs humaines. Il s’agit d’un processus dynamique et itératif, où le modèle apprend à travers une série de “déroulements”, un terme utilisé pour décrire la séquence d’états et d’actions menant à une récompense dans le contexte de la génération de langage.
L’une des potentialités remarquables de RLHF est sa capacité à favoriser la personnalisation dans les assistants de l’IA, en les adaptant pour résonner avec les préférences individuelles des utilisateurs, qu’il s’agisse de leur sens de l’humour ou de leurs routines quotidiennes. Cela ouvre des voies pour créer des systèmes d’IA qui ne sont pas seulement techniquement compétents mais également intelligents sur le plan émotionnel, capables de comprendre et de répondre aux nuances de la communication humaine.
Cependant, il est essentiel de noter que RLHF n’est pas une solution infaillible. Les modèles sont toujours susceptibles de générer des sorties indésirables, reflétant les vastes et souvent non réglementées et biaisées données sur lesquelles ils sont entraînés.
Conclusion
Le processus de réglage fin, une étape critique pour exploiter pleinement le potentiel des LLM tels qu’Alpaca, Falcon et GPT-4, est devenu plus raffiné et ciblé, offrant des solutions adaptées à une large gamme de tâches.
Nous avons vu le réglage fin pour une tâche unique, qui spécialise les modèles dans des rôles particuliers, et les méthodes de réglage fin efficace en termes de paramètres (PEFT) telles que LoRA et QLoRA, qui visent à rendre le processus d’entraînement plus efficace et rentable. Ces développements ouvrent les portes à des fonctionnalités d’IA de haut niveau pour un public plus large.
De plus, l’introduction de l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) par Open AI est un pas vers la création de systèmes d’IA qui comprennent et s’alignent plus étroitement sur les valeurs et les préférences humaines, jetant les bases pour des assistants d’IA qui ne sont pas seulement intelligents mais également sensibles aux besoins individuels des utilisateurs. RLHF et PEFT travaillent en synergie pour améliorer la fonctionnalité et l’efficacité des grands modèles de langage.
Alors que les entreprises, les entreprises et les individus cherchent à intégrer ces LLM réglés finement dans leurs opérations, ils accueillent essentiellement un avenir où l’IA est plus qu’un outil ; c’est un partenaire qui comprend et s’adapte aux contextes humains, offrant des solutions qui sont à la fois innovantes et personnalisées.























