talon LoReFT : réglage fin de la représentation pour les modèles de langage - Unite.AI
Suivez nous sur

Intelligence artificielle

LoReFT : réglage fin de la représentation pour les modèles de langage

mm

Publié le

 on

LoReFT : réglage fin de la représentation pour les modèles de langage

Les méthodes de réglage fin ou PeFT efficaces en termes de paramètres cherchent à adapter de grands modèles de langage via des mises à jour à un petit nombre de poids. Cependant, la majorité des travaux d’interprétabilité existants ont démontré que les représentations codent des informations sémantiques riches, suggérant que l’édition de ces représentations pourrait être une alternative meilleure et plus puissante. Les grands modèles pré-entraînés sont souvent ajustés pour être utilisés pour de nouveaux domaines ou tâches, et pendant le processus de réglage fin, un modèle de base unique peut être adapté à une grande variété de tâches, même avec seulement de petites quantités de données disponibles dans le domaine. au modèle. Cependant, le processus de réglage fin d'un modèle entier est consommateur de ressources et coûteux, en particulier pour les modèles de langage dotés d'un nombre de tailles et de paramètres nettement plus élevé. 

Les méthodes de réglage fin efficaces ou PeFT proposent de s'attaquer aux coûts élevés associés au réglage fin de l'ensemble du modèle en mettant à jour seulement une petite quantité des poids totaux disponibles, un processus qui contribue à réduire le temps de formation ainsi que l'utilisation de la mémoire. Ce qui est plus important, c'est que les méthodes de réglage fin efficaces ou PeFT ont démontré des performances similaires pour un réglage fin dans plusieurs contextes pratiques. Les adaptateurs, une famille courante de méthodes de réglage fin ou PeFT efficaces en termes de paramètres, apprennent une modification qui peut être ajoutée à un ensemble supplémentaire de poids qui fonctionnent parallèlement au modèle de base gelé, avec des adaptateurs récents comme LoRA réduisant le nombre de paramètres pouvant être entraînés dans l'apprentissage. mises à jour du poids en utilisant des approximations de bas rang au lieu de matrices de poids complet lors de la formation des adaptateurs. 

Avec des travaux antérieurs démontrant que l'édition des représentations pourrait être une meilleure alternative aux méthodes de réglage fin efficace des paramètres ou aux méthodes PeFT, dans cet article, nous parlerons des méthodes de réglage fin des représentations ou ReFT qui fonctionnent sur un modèle gelé et apprendront des méthodes spécifiques à une tâche. interventions sur les représentations cachées. Cet article vise à couvrir en profondeur le framework ReFt ou Representation Fine-tuning, et nous explorons le mécanisme, la méthodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de pointe. Alors, commençons. 

ReFT : réglage fin de la représentation pour les modèles de langage

Dans le but d'adopter des modèles de langage pré-entraînés à de nouveaux domaines et tâches, les cadres actuels affinent fréquemment ces modèles de langage pré-entraînés, car avec le processus de réglage fin mis en œuvre, un modèle de base unique peut être adapté à une variété de tâches, même lorsque vous travaillez avec une petite quantité de données dans le domaine. Bien que le processus de réglage fin améliore les performances globales, il s’agit d’un processus coûteux, surtout si le modèle de langage comporte un nombre considérablement élevé de paramètres. Pour résoudre ce problème et réduire les coûts associés, PeFT ou Parameter-efficient cadre de réglage fin ne met à jour qu'une petite fraction des poids totaux, un processus qui réduit non seulement le temps de formation, mais également l'utilisation de la mémoire, permettant aux frameworks PeFT d'atteindre des performances similaires par rapport aux approches de réglage complet dans des scénarios pratiques. Les adaptateurs, une famille courante de PeFT, fonctionnent en apprenant une modification qui peut être ajoutée à un ensemble supplémentaire de poids ainsi qu'à un sous-ensemble de poids qui fonctionnent à l'unisson avec le modèle de base avec des poids gelés. Frameworks d'adaptateur récents comme LoRA et QLoRA ont démontré qu'il est possible d'entraîner des adaptateurs de pleine précision sur des modèles de précision réduite sans affecter les performances. Les adaptateurs sont généralement plus efficaces que d’autres méthodes qui introduisent de nouveaux composants de modèle. 

L’un des points forts de l’état actuel de la technique des cadres de réglage fin efficaces en termes de paramètres est qu’au lieu de modifier les représentations, ils modifient les poids. Cependant, les cadres traitant de l'interprétabilité ont démontré que les représentations codent des informations sémantiques riches, ce qui suggère que l'édition des représentations pourrait être une approche meilleure et plus puissante que les mises à jour de poids. Cette hypothèse selon laquelle l'édition des représentations est la meilleure approche est ce qui constitue le fondement du cadre ReFT ou Representation Fine-tuning qui entraîne les interventions au lieu d'adapter les poids du modèle, permettant au modèle de manipuler une petite fraction de toutes les représentations dans le but d'orienter les comportements du modèle. pour résoudre les tâches en aval pendant l'inférence. Les méthodes de réglage fin ReFT ou représentation sont des remplacements instantanés des cadres de réglage fin PeFT ou paramètres efficaces basés sur le poids. L'approche ReFT s'inspire de modèles récents travaillant avec une grande interprétabilité de modèles qui interviennent sur les représentations pour trouver des mécanismes causals fidèles et orientent le comportement du modèle lors de l'inférence, et peut donc être considérée comme une généralisation des modèles d'édition de représentations. S'appuyant sur la même chose, LoReFT ou Low-Rank Subspace ReFT est une instance solide et efficace de ReFT, et est un paramétrage de ReFT qui intervient sur les représentations cachées dans l'espace linéaire couvert par la matrice de projection de bas rang, et s'appuie directement sur le DAS. ou cadre de recherche d'alignement distribué. 

Au fur et à mesure, contrairement au réglage fin complet, le cadre de réglage fin PeFT ou Parameter-efficace n'entraîne qu'une petite fraction des paramètres du modèle et parvient à adapter le modèle aux tâches en aval. Le cadre de réglage fin efficace par paramètres peut être classé en trois catégories principales :

  • Méthodes basées sur un adaptateur : Les méthodes basées sur des adaptateurs entraînent des modules supplémentaires, tels que des couches entièrement connectées, au-dessus du modèle pré-entraîné avec des poids gelés. Les adaptateurs série insèrent des composants entre le perceptron multicouche ou MLP et LM ou les couches d'attention de grand modèle, tandis que les adaptateurs parallèles ajoutent des modules aux côtés des composants existants. Étant donné que les adaptateurs ajoutent de nouveaux composants qui ne peuvent pas être facilement intégrés aux poids des modèles existants, ils représentent une charge supplémentaire lors de l'inférence. 
  • LoRA : LoRA et ses variantes récentes se rapprochent des poids additifs pendant l'entraînement en utilisant des matrices de bas rang, et ils ne nécessitent pas de frais généraux supplémentaires lors de l'inférence puisque les mises à jour de poids peuvent être fusionnées dans le modèle, et c'est la raison pour laquelle elles sont considérées comme les actuelles. cadres PeFT les plus solides. 
  • Méthodes basées sur des invites : Les méthodes basées sur des invites ajoutent des jetons logiciels qui sont initialisés de manière aléatoire dans l'entrée et entraînent leurs intégrations tout en gardant les poids du modèle de langage figés. Les performances offertes par ces méthodes ne sont souvent pas satisfaisantes par rapport à d’autres approches PeFT, et elles entraînent également des frais généraux d’inférence importants. 

Au lieu de mettre à jour les poids, le cadre ReFT apprend les interventions pour modifier une petite fraction des représentations totales. De plus, des travaux récents sur l'ingénierie de représentation et le pilotage d'activation ont démontré que l'ajout de vecteurs de pilotage fixes au flux résiduel pourrait faciliter un certain degré de contrôle sur les grandes générations de modèles pré-entraînés sans nécessiter de ressources gourmandes en ressources. réglage fin. D'autres frameworks ont démontré que l'édition de représentations avec une opération de mise à l'échelle et de traduction apprise peut tenter d'égaler, mais pas de dépasser, les performances offertes par les adaptateurs LoRA sur un large éventail de tâches avec moins de paramètres appris. En outre, le succès de ces cadres dans une gamme de tâches a démontré que les représentations introduites par des modèles de langage pré-entraînés portent une sémantique riche, bien que les performances de ces modèles soient sous-optimales, ce qui permet aux PeFT de continuer à être l'approche de pointe. sans charge d’inférence supplémentaire. 

ReFT : Méthodologie et Architecture

Pour simplifier le processus de préservation du style, le framework ReFT suppose comme modèle cible un grand modèle basé sur un transformateur, capable de produire une représentation contextualisée d'une séquence de jetons. Pour une séquence donnée avec n nombre de jetons d'entrée, le framework ReFT embarque d'abord ces jetons d'entrée dans une liste de représentations à la suite de quoi les m couches calculent successivement la liste des représentations cachées en fonction de la liste précédente de représentations cachées. Chaque représentation cachée est un vecteur et le modèle de langage utilise les représentations cachées finales pour produire les prédictions. Le framework ReFT prend en compte à la fois les modèles de langage masqués et les modèles de langage autorégressifs. Or, selon l’hypothèse de la représentation linéaire, dans les réseaux de neurones, les concepts sont codés dans les sous-espaces linéaires des représentations. Des modèles récents ont montré que cette affirmation était vraie dans les modèles de réseaux neuronaux formés sur le langage naturel ainsi que sur d'autres distributions d'entrée. 

De plus, dans les études d'interprétabilité, le cadre d'abstraction occasionnel utilise des interventions d'échange pour établir le rôle des composants du réseau neuronal de manière informelle lors de la mise en œuvre de comportements particuliers. La logique derrière l'intervention d'échange est que si l'on fixe une représentation à ce qu'elle aurait été pour une entrée contrefactuelle, et que cette intervention affecte la sortie du modèle de manière cohérente de la même manière que les affirmations faites par le cadre ReFT sur le composant responsable de la production cette représentation, alors le composant joue un rôle causal dans le comportement. Bien qu'il existe quelques méthodes, l'intervention par échange distribué est l'approche idéale pour tester si un concept est codé dans un sous-espace linéaire d'une représentation, comme le prétend l'hypothèse de la représentation linéaire. De plus, la méthode DAS a déjà été utilisée pour trouver une représentation linéaire dans des modèles linguistiques d'attributs d'entité, de sentiments, de caractéristiques linguistiques et de raisonnement mathématique. Cependant, plusieurs expériences ont indiqué que la méthode DAS est très expressive et qu'elle possède la capacité de trouver des sous-espaces causals efficaces même lorsque le modèle de langage du transformateur a été initialisé de manière aléatoire et qu'elle n'a donc pas encore appris de représentations spécifiques à une tâche, ce qui entraîne le débat sur la question de savoir si le DAS est suffisamment efficace et responsable pour les tâches d’interprétabilité. 

L'expressivité offerte par DAS suggère que l'approche pourrait être un outil idéal pour contrôler le comportement du modèle de langage ainsi que son travail sur la génération contrôlable et l'édition responsable. Par conséquent, pour adapter les modèles de langage aux tâches en aval, le framework ReFT utilise l'opération d'intervention d'échange distribué pour créer une nouvelle méthode efficace en matière de paramètres. De plus, la méthode ReFT est un ensemble d'interventions, et le cadre impose que pour deux interventions opérant sur la même couche, les positions d'intervention doivent être disjointes, les paramètres de toutes les fonctions d'intervention restant indépendants. En conséquence, le ReFT est un cadre générique qui englobe les interventions sur les représentations cachées lors de la passe avant du modèle. 

ReFT : expériences et résultats

Pour évaluer ses performances par rapport aux frameworks PEFT existants, le framework ReFT mène des expériences sur quatre références de traitement du langage naturel et couvre plus de 20 ensembles de données, l'objectif principal étant de fournir une image riche de la façon dont le framework LoReFT fonctionne dans différents scénarios. De plus, lorsque le cadre LoReFT est implémenté dans la vie réelle, les développeurs doivent décider du nombre d'interventions à apprendre ainsi que des positions d'entrée et des couches sur lesquelles appliquer chacune d'elles. Pour terminer la tâche, le framework ReFT ajuste quatre hyperparamètres. 

  1. Le nombre de positions de préfixe sur lesquelles intervenir. 
  2. Le nombre de positions de suffixe sur lesquelles intervenir. 
  3. Sur quel ensemble de couches intervenir. 
  4. S'il faut ou non lier les paramètres d'intervention sur différentes positions dans la même couche. 

Ce faisant, le framework ReFT simplifie l'espace de recherche des hyperparamètres et garantit uniquement un coût d'inférence supplémentaire fixe qui n'évolue pas avec la longueur de l'invite. 

Le tableau ci-dessus compare la précision des cadres LLaMA-7B et LLaMA-13B aux modèles PEFT existants sur 8 ensembles de données de raisonnement de bon sens. Comme on peut l'observer, le modèle LoReFT surpasse les approches PEFT existantes avec une marge décente, bien qu'il ait beaucoup moins de paramètres, les performances moyennes de trois exécutions étant rapportées avec des valeurs de départ de paramètres distinctes pour le modèle LoReFT. Le param(%) est calculé en divisant le nombre de paramètres pouvant être entraînés par le nombre de paramètres totaux du grand modèle de base. 

Le tableau ci-dessus résume la comparaison de la précision des cadres LLaMA-7B et LLaMA-13B par rapport aux modèles PEFT existants sur 4 ensembles de données de raisonnement arithmétique différents, le cadre rapportant les performances moyennes de trois exécutions avec des graines aléatoires distinctes. Comme on peut l'observer, malgré le fait qu'il ait beaucoup moins de paramètres (%), le framework LoReFT surpasse considérablement les frameworks PEFT existants. 

Le tableau ci-dessus résume la comparaison de la précision des frameworks RoBERTa-base et RoBERTa-large par rapport aux modèles PEFT existants dans l'ensemble du benchmark GLUE, le framework rapportant les performances moyennes de cinq exécutions avec des graines aléatoires distinctes. Comme on peut l'observer, malgré le fait qu'il ait beaucoup moins de paramètres (%), le framework LoReFT surpasse considérablement les frameworks PEFT existants. 

Réflexions finales

Dans cet article, nous avons parlé de LoReFT, une alternative puissante aux frameworks PEFT existants qui atteint de solides performances sur des benchmarks de quatre domaines différents tout en offrant jusqu'à 50 fois l'efficacité offerte par les précédents modèles PEFT de pointe. Les grands modèles pré-entraînés sont souvent ajustés pour être utilisés pour de nouveaux domaines ou tâches, et pendant le processus de réglage fin, un modèle de base unique peut être adapté à une grande variété de tâches, même avec seulement de petites quantités de données disponibles dans le domaine. au modèle. Cependant, le processus de réglage fin d'un modèle entier est consommateur de ressources et coûteux, en particulier pour les modèles de langage dotés d'un nombre de tailles et de paramètres nettement plus élevé. Les méthodes de réglage fin efficaces ou PeFT proposent de s'attaquer aux coûts élevés associés au réglage fin de l'ensemble du modèle en mettant à jour seulement une petite quantité des poids totaux disponibles, un processus qui contribue à réduire le temps de formation ainsi que l'utilisation de la mémoire. LoReFT établit notamment de nouvelles performances de pointe en matière de raisonnement de bon sens, de suivi des instructions et de compréhension du langage naturel par rapport aux PEFT les plus puissants.

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.