Refresh

This website www.unite.ai/fr/formation-%C3%A0-des-int%C3%A9grations-de-texte-am%C3%A9lior%C3%A9es-avec-de-grands-mod%C3%A8les-de-langage/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

talon Formation à l'intégration de texte améliorée avec de grands modèles linguistiques - Unite.AI
Suivez nous sur

Ingénierie rapide

Formation à l'intégration de texte améliorée avec de grands modèles de langage

mm

Publié le

 on

Les intégrations de texte sont des représentations vectorielles de mots, de phrases, de paragraphes ou de documents qui capturent leur signification sémantique. Ils constituent aujourd’hui un élément essentiel de nombreuses applications de traitement du langage naturel (NLP), notamment la recherche d’informations, la réponse aux questions, la recherche sémantique, etc.

vecteur d'intégration

vecteur d'intégration

Les progrès récents dans les grands modèles de langage (LLM) comme GPT-3 ont montré des capacités impressionnantes en matière d'apprentissage en quelques étapes et de génération de langage naturel. Pouvons-nous tirer parti des LLM pour faire également progresser l’état des intégrations de texte ? Dans leur article «Améliorer l'intégration de texte avec de grands modèles de langage", les chercheurs de Microsoft proposent une nouvelle méthode qui permet d'obtenir des résultats supérieurs en générant des données de formation synthétiques avec des LLM et en les affinant.

Défis avec les méthodes existantes

Les techniques traditionnelles d'intégration de texte, telles que les moyennes pondérées des vecteurs de mots ou TF-IDF, ne parviennent pas à capturer de manière adéquate la richesse des informations contextuelles contenues dans le texte. Des méthodes plus récentes basées sur des modèles de langage pré-entraînés comme BERT obtiennent de bien meilleures intégrations contextuelles.

Cependant, ils nécessitent des pipelines de formation complexes en plusieurs étapes :

  • Pré-entraîner sur des milliards de paires de textes faiblement étiquetés ou artificiels
  • Affiner sur des ensembles de données limités sélectionnés à la main

Cela nécessite des ressources de calcul massives et des efforts humains pour la collecte de données. Les données de formation sont également limitées en termes de diversité et de couverture linguistique. Par exemple, le benchmark BEIR comprend des ensembles de données pour seulement 15 tâches de récupération en anglais.

Les méthodes existantes utilisent principalement des architectures plus petites de style BERT comme modèle de base. Ils sont incapables de profiter des LLM plus avancés et des techniques associées.

Méthodologie : Génération de données synthétiques avec des LLM

Pour surmonter ces limitations, les chercheurs proposent une nouvelle approche de formation en une seule étape qui exploite des LLM comme GPT-3 et GPT-4 pour générer diverses données de formation synthétiques.

Les étapes clés sont:

  1. Taxonomie des tâches : Définissez une taxonomie qui classe les tâches d'intégration de texte en :
    • Tâches asymétriques (requête et document non paraphrasés, par exemple recherche)
    • Tâches symétriques (la requête et le document sont des paraphrases, par exemple similarité sémantique)
  2. Conception rapide : Créez des modèles d'invite adaptés à chaque type de tâche qui guident le LLM pour générer des exemples de formation pertinents.
  3. Génération de données synthétiques : Invitez le LLM avec les invites conçues pour générer des centaines de milliers de paires (requête, document) couvrant une grande variété de tâches sémantiques dans 93 langues.
  4. Modèle de formation: Affinez un puissant LLM open source tel que Mistral sur les données synthétiques en utilisant la perte contrastive.

Cette méthodologie permet de créer de nombreuses données de formation pour diverses tâches dans plusieurs langues sans aucun effort d'étiquetage humain. En tirant parti des connaissances déjà intégrées dans les LLM grâce à une pré-formation sur des corpus à l'échelle du Web, nous pouvons synthétiser des données de haute qualité précisément adaptées aux intégrations de texte.

Les chercheurs le démontrent avec une stratégie d’incitation en deux étapes :

  • Inviter GPT-4 à suggérer des tâches de récupération potentielles

Invite pour générer des tâches de récupération de haut niveau

    Invite pour générer des tâches de récupération de haut niveau
  • Invitez-le à nouveau à générer des échantillons (requête, document) basés sur les tâches suggérées

n générer des triplets (requête, positif, négatif dur)

    n générer des triplets (requête, positif, négatif dur)

Quelques aspects clés de la conception de l'invite :

  • Le langage naturel invite à des instructions intuitives de type humain
  • Espaces réservés pour encourager la diversité (par exemple, longueur de la requête, clarté, longueur du document)
  • Combinaison de données de plusieurs modèles pour le même type de tâche
  • Pondération des langues en fonction de la disponibilité des ressources

Au total, ils ont pu générer 500 180 exemples d’intégration de texte pour un coût de calcul de 43 millions de jetons. La langue dominante était l'anglais (XNUMX %), suivi du polonais, du japonais, de l'italien et d'autres.

Pour la formation du modèle, ils ont opté pour un réglage fin du paramètre open source 7B Mistral modèle au lieu d'architectures plus petites de style BERT. Étant donné que Mistral était déjà pré-formé sur des corpus de textes massifs, aucune pré-formation contrastive supplémentaire n'était nécessaire. L’ajouter a fourni des améliorations négligeables.

L’ensemble du réglage fin a nécessité moins de 1 XNUMX étapes, en utilisant un mélange de données synthétiques et étiquetées par l’homme. Cela démontre l’efficacité de l’approche proposée.

Résultats

Les chercheurs ont évalué leur modèle sur le benchmark MTEB, qui couvre diverses tâches de classification, de regroupement, de similarité sémantique, de résumé et de récupération d'informations.

Leur modèle a surpassé l'état de l'art précédent de 2.4 points en termes de score moyen, établissant de nouveaux records pour presque toutes les catégories :

ModèleSOTA précédentModèle proposé
Classification76.078.5
regroupement46.150.3
Classification par paires87.188.3
Reclassement60.060.2
Récupération54.356.9
STS83.184.6
Récapitulation31.631.4
Moyen64.266.6

Remarquablement, même sans utiliser de données étiquetées et sans formation uniquement sur des données synthétiques, il a atteint une précision compétitive – seulement 3.5 points de retard sur le modèle entièrement supervisé. Cela démontre la viabilité de générer des intégrations de texte uniquement à l'aide de LLM, sans effort d'annotation humaine.

Les chercheurs ont également évalué le benchmark multilingue MIRACL couvrant 18 langues. Leur modèle a surpassé les meilleurs précédents sur les langues à ressources élevées, mais était plus faible sur celles à faibles ressources. Ils émettent l’hypothèse que cela pourrait être atténué par une pré-formation plus approfondie des LLM sur les langues à faibles ressources.

En résumé, les incorporations de texte formées sur des données synthétiques générées par LLM établissent de nouveaux résultats de pointe, tout en utilisant une formation plus simple et plus efficace par rapport aux approches multi-étapes précédentes. Avec des recherches plus approfondies sur l'ingénierie rapide et la qualité des données synthétiques, cette méthodologie pourrait grandement faire progresser l'intégration de textes multilingues.

Analyse

Ce travail offre plusieurs enseignements précieux :

  • Les LLM comme GPT-3 et GPT-4 ont une capacité impressionnante à générer des données de formation synthétiques de haute qualité pour diverses tâches de PNL lorsque vous y êtes invité de manière appropriée. Cela peut réduire la dépendance aux données étiquetées par l’homme.
  • Pour l'intégration de texte, la pré-formation contrastive offre des gains négligeables par rapport aux modèles de réglage fin comme Mistral qui disposent déjà d'une pré-formation à l'échelle de plusieurs milliards. Il s’agit d’un aperçu important de l’efficacité de la formation.
  • Les méthodes de génération augmentée de récupération permettent aux LLM d'accéder dynamiquement à des connaissances externes. Par conséquent, l’amélioration de l’intégration de texte est précieuse pour améliorer ces LLM.
  • Il existe une marge d’amélioration significative dans les langues à faibles ressources. Des LLM multilingues pré-formés sur des données plus représentatives pourraient contribuer à combler cette lacune.
  • D’un point de vue conceptuel, la modélisation du langage et l’intégration de texte sont les deux faces d’une même médaille : la compréhension de la sémantique du langage. Grâce aux données synthétiques, les LLM peuvent être ajustés de manière organique en intégrateurs sans pipelines complexes.

Voici quelques orientations prometteuses pour les travaux futurs :

  • Tirer parti des LLM open source comme GPT-NeoX pour générer des données synthétiques
  • Explorer la post-formation légère pour adapter les intégrateurs à des contextes plus longs
  • Développement de techniques d'ingénierie rapides pour contrôler la qualité et la couverture des tâches
  • Méthodes pour améliorer la latence d'inférence et les coûts de stockage pour un usage industriel

Au-delà des références, l’utilisation de grands modèles de langage pour améliorer l’intégration de texte ouvre des possibilités intrigantes pour l’avenir. À mesure que les LLM continuent de progresser dans leur maîtrise du langage naturel, leur aptitude à générer des données synthétiques haute fidélité est susceptible de s'améliorer également.

Il reste cependant des orientations de recherche cruciales pour traduire ce potentiel en impact réel.

Personnalisation et contrôle

L’un des principaux avantages des données synthétiques est la possibilité de générer par programme des exemples adaptés à des besoins spécifiques. Comme le démontre l'article, l'ingénierie rapide permet de créer des données de formation pour des centaines de milliers de tâches d'intégration.

Pourtant, les pratiques actuelles de conception rapide restent plus un art qu’une science. Le développement de méthodes systématiques et reproductibles pour contrôler avec précision les propriétés des données générées élargirait l’applicabilité de cette technique.

Par exemple, des techniques permettant de moduler des facteurs tels que la complexité, l’ambiguïté et la nouveauté des exemples pourraient aider à résoudre les problèmes de robustesse dans les tâches en aval. La génération d'invites dynamiques pour correspondre à l'évolution des distributions du monde réel est un autre défi ouvert.

Formation à grande échelle

Alors que les LLM pré-formés codent déjà des connaissances linguistiques substantielles, leurs compétences en matière de génération de données sont susceptibles de s'améliorer encore à plus grande échelle. Des modèles tels que GPT-4 formés sur des milliards de jetons de texte Internet présentent un solide apprentissage en quelques étapes, mais n'ont pas été optimisés spécifiquement pour la synthèse des données de formation.

Des architectures et des objectifs adaptés à l'amorçage de la génération de données auto-supervisées à l'échelle du Web pourraient améliorer considérablement la qualité et l'efficacité de cette méthodologie. L’intégration efficace des connaissances récupérées pour compléter les connaissances acquises est une autre direction prometteuse.

Multitâche et multilingue

Comme le note le document, l’amélioration des performances dans les langues à faibles ressources reste un problème. Plutôt que de pré-former un seul LLM massif, une alternative consiste à former une flotte de modèles experts plus petits spécialisés dans des modalités de données ou des domaines linguistiques particuliers.

Une telle approche d’ensemble pourrait contribuer à améliorer la couverture de tâches et de langages rares en partageant les représentations apprises entre experts. L’apprentissage continu pour développer l’expertise linguistique et professionnelle au fil du temps est également une perspective passionnante.

En conclusion, cet article présente un concept innovant de synthèse des données de formation à partir de LLM pour créer des intégrations de texte performantes. Leurs résultats démontrent l’efficacité de cette méthodologie, surpassant les références précédentes. À mesure que les LLM et les techniques de données synthétiques progressent, exploiter leurs connaissances pour former les intégrateurs pourrait devenir une direction très prometteuse.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.