Intelligence Artificielle

Un guide pour maîtriser les grands modèles de langage

Publié 23 janvier 2024

Le kit de préparation mis à jour 24 janvier 2024

Ayush Mittal mital

Les grands modèles de langage (LLM) ont explosé en popularité au cours des dernières années, révolutionnant le traitement du langage naturel et l'IA. Des chatbots aux moteurs de recherche en passant par les aides à la rédaction créative, les LLM alimentent des applications de pointe dans tous les secteurs. Cependant, la création de produits utiles basés sur le LLM nécessite des compétences et des connaissances spécialisées. Ce guide vous fournira un aperçu complet mais accessible des concepts clés, des modèles architecturaux et des compétences pratiques nécessaires pour exploiter efficacement l'énorme potentiel des LLM.

Que sont les grands modèles de langage et pourquoi sont-ils importants ?

Les LLM sont une classe de modèles d'apprentissage profond pré-entraînés sur des corpus de textes massifs, leur permettant de générer des textes de type humain et de comprendre le langage naturel à un niveau sans précédent. Contrairement aux modèles PNL traditionnels qui s'appuient sur des règles et des annotations, les LLM comme GPT-3 apprennent les compétences linguistiques de manière non supervisée et auto-supervisée en prédisant les mots masqués dans les phrases. Leur nature fondamentale leur permet d’être optimisés pour une grande variété de tâches de PNL en aval.

Les LLM représentent un changement de paradigme en IA et ont permis le développement d'applications telles que les chatbots, les moteurs de recherche et les générateurs de texte, jusqu'alors inaccessibles. Par exemple, au lieu de s'appuyer sur des règles complexes codées à la main, les chatbots peuvent désormais mener des conversations libres grâce à des LLM comme Claude d'Anthropic. Les puissantes capacités des LLM découlent de trois innovations clés :

Échelle des données: Les LLM sont formés sur des corpus à l'échelle Internet contenant des milliards de mots, par exemple GPT-3 a vu 45 To de données texte. Cela offre une large couverture linguistique.
Taille du modèle: Les LLM comme GPT-3 disposent de 175 milliards de paramètres, leur permettant d'absorber toutes ces données. Une grande capacité de modèle est la clé de la généralisation.
Auto-surveillance: Plutôt qu'un étiquetage humain coûteux, les LLM sont formés via des objectifs auto-supervisés qui créent des données « pseudo-étiquetées » à partir de texte brut. Cela permet une pré-formation à grande échelle.

Maîtriser les connaissances et les compétences nécessaires pour affiner et déployer correctement les LLM vous permettra d'innover de nouvelles solutions et produits PNL.

Concepts clés pour l'application des LLM

Bien que les LLM aient des capacités incroyables dès la sortie de la boîte, les utiliser efficacement pour des tâches en aval nécessite de comprendre des concepts clés tels que l'invite, l'intégration, l'attention et la récupération sémantique.

Invites Plutôt que des entrées et des sorties, les LLM sont contrôlés via des invites – des instructions contextuelles qui encadrent une tâche. Par exemple, pour résumer un passage de texte, nous fournirions des exemples tels que :

« Passage : Résumé : »

Le modèle génère ensuite un résumé dans sa sortie. Une ingénierie rapide est cruciale pour piloter efficacement les LLM.

embeddings

Les incorporations de mots représentent les mots comme des vecteurs denses codant pour une signification sémantique, permettant des opérations mathématiques. Les LLM utilisent des intégrations pour comprendre le contexte des mots.

Des techniques telles que Word2Vec et BERT créent des modèles d'intégration qui peuvent être réutilisés. Word2Vec a été le pionnier de l'utilisation de réseaux neuronaux superficiels pour apprendre les intégrations en prédisant les mots voisins. BERT produit des intégrations contextuelles profondes en masquant les mots et en les prédisant en fonction d'un contexte bidirectionnel.

Des recherches récentes ont fait évoluer les intégrations pour capturer davantage de relations sémantiques. Le modèle MUM de Google utilise le transformateur VATT pour produire des intégrations BERT sensibles aux entités. L'IA constitutionnelle d'Anthropic apprend des intégrations sensibles aux contextes sociaux. Des modèles multilingues comme mT5 produisent des intégrations multilingues en pré-entraînant simultanément plus de 100 langues.

Attention

Les couches d'attention permettent aux LLM de se concentrer sur le contexte pertinent lors de la génération de texte. L’auto-attention multi-têtes est essentielle pour les transformateurs analysant les relations entre les mots dans de longs textes.

Par exemple, un modèle de réponse aux questions peut apprendre à attribuer des pondérations d’attention plus élevées aux mots saisis pertinents pour trouver la réponse. Les mécanismes d'attention visuelle se concentrent sur les régions pertinentes d'une image.

Des variantes récentes telles que l'attention éparse améliorent l'efficacité en réduisant les calculs d'attention redondants. Les modèles comme GShard font appel à l'attention d'un mélange d'experts pour une plus grande efficacité des paramètres. Le transformateur universel introduit une récurrence en profondeur permettant la modélisation des dépendances à plus long terme.

Comprendre les innovations en matière d'attention donne un aperçu de l'extension des capacités du modèle.

Récupération

De grandes bases de données vectorielles appelées index sémantiques stockent les intégrations pour une recherche efficace de similarité sur les documents. La récupération augmente les LLM en permettant un vaste contexte externe.

De puissants algorithmes approximatifs du plus proche voisin comme HNSW, LSH et PQ Permet une recherche sémantique rapide, même avec des milliards de documents. Par exemple, le LLM Claude d'Anthropic utilise HNSW pour retrouver plus de 500 millions de documents.

La récupération hybride combine des intégrations denses et des métadonnées de mots clés clairsemées pour un meilleur rappel. Des modèles comme REALM optimisent directement les intégrations pour les objectifs de récupération via deux encodeurs.

Des travaux récents explorent également la récupération intermodale entre texte, images et vidéo à l'aide d'espaces vectoriels multimodaux partagés. La maîtrise de la récupération sémantique ouvre la voie à de nouvelles applications comme les moteurs de recherche multimédia.

Ces concepts seront récurrents dans les modèles d'architecture et les compétences abordés ensuite.

Motifs architecturaux

Bien que la formation de modèles reste complexe, l'application de LLM pré-entraînés est plus accessible à l'aide de modèles architecturaux éprouvés :

Pipeline de génération de texte

Tirez parti des LLM pour les applications de texte génératif via :

Ingénierie rapide pour cadrer la tâche
Génération LLM de texte brut
Filtres de sécurité pour détecter les problèmes
Post-traitement pour le formatage

Par exemple, une aide à la rédaction d'un essai utiliserait une invite définissant le sujet de l'essai, générerait du texte à partir du LLM, filtrerait le sens, puis vérifierait l'orthographe du résultat.

Recherche et récupération

Créez des systèmes de recherche sémantique en :

Indexation d'un corpus documentaire dans une base de données vectorielles pour les similitudes
Accepter les requêtes de recherche et trouver des résultats pertinents via la recherche approximative du voisin le plus proche
Nourrir les hits comme contexte à un LLM pour résumer et synthétiser une réponse

Cela permet de récupérer des documents à grande échelle plutôt que de s'appuyer uniquement sur le contexte limité du LLM.

Apprentissage multi-tâches

Plutôt que de former des spécialistes LLM individuels, les modèles multitâches permettent d'enseigner à un modèle plusieurs compétences via :

Invites encadrant chaque tâche
Ajustement conjoint entre les tâches
Ajout de classificateurs sur l'encodeur LLM pour faire des prédictions

Cela améliore les performances globales du modèle et réduit les coûts de formation.

Systèmes d'IA hybrides

Combine les atouts des LLM et de l’IA plus symbolique via :

LLM traitant de tâches linguistiques ouvertes
Logique basée sur des règles fournissant des contraintes
Connaissances structurées représentées dans un KG
LLM & données structurées s’enrichissant mutuellement dans un « cercle vertueux »

Cela combine la flexibilité des approches neuronales avec la robustesse des méthodes symboliques.

Compétences clés pour appliquer les LLM

Avec ces modèles architecturaux à l’esprit, examinons maintenant les compétences pratiques pour mettre en pratique les LLM :

Ingénierie rapide

Être capable d'inviter efficacement les LLM fait ou défait les candidatures. Les compétences clés comprennent :

Encadrement des tâches sous forme d'instructions et d'exemples en langage naturel
Contrôler la longueur, la spécificité et la voix des invites
Affiner de manière itérative les invites en fonction des résultats du modèle
Organiser des collections d'invites autour de domaines tels que le support client
Étudier les principes de l’interaction homme-IA

L’incitation est à la fois un art et une science – attendez-vous à vous améliorer progressivement grâce à l’expérience.

Cadres d'orchestration

Rationalisez le développement d'applications LLM à l'aide de frameworks tels que LangChain et Cohere, qui facilitent la chaîne de modèles dans des pipelines, l'intégration aux sources de données et l'abstraction de l'infrastructure.

LangChain propose une architecture modulaire pour composer des invites, des modèles, des pré/post-processeurs et des connecteurs de données dans des flux de travail personnalisables. Cohere fournit un studio pour automatiser les flux de travail LLM avec une interface graphique, une API REST et un SDK Python.

Ces frameworks utilisent des techniques telles que :

Sharding du transformateur pour diviser le contexte entre les GPU pour de longues séquences
Requêtes de modèle asynchrones pour un débit élevé
Stratégies de mise en cache telles que Les moins récemment utilisées pour optimiser l'utilisation de la mémoire
Traçage distribué pour surveiller les goulots d'étranglement des pipelines
Cadres de tests A/B pour exécuter des évaluations comparatives
Gestion des versions et des versions de modèles pour l'expérimentation
Mise à l'échelle sur des plateformes cloud comme AWS SageMaker pour une capacité élastique

Les outils AutoML comme Spell offrent une optimisation des invites, des hparams et des architectures de modèles. AI Economist ajuste les modèles de tarification pour la consommation des API.

Évaluation et suivi

L'évaluation des performances du LLM est cruciale avant le déploiement :

Mesurer la qualité globale des résultats via des mesures de précision, de fluidité et de cohérence
Utilisez des benchmarks comme GLUE, SuperGLUE comprenant des ensembles de données NLU/NLG
Permettre l'évaluation humaine via des frameworks tels que scale.com et LionBridge
Surveillez la dynamique d'entraînement avec des outils tels que Weights & Biais
Analyser le comportement du modèle à l'aide de techniques telles que la modélisation de sujets LDA
Vérifiez les biais avec des bibliothèques comme FairLearn et WhatIfTools
Exécutez en continu des tests unitaires par rapport aux invites clés
Suivez les journaux de modèles du monde réel et la dérive à l'aide d'outils tels que WhyLabs
Appliquez des tests contradictoires via des bibliothèques telles que TextAttack et Robustness Gym

Des recherches récentes améliorent l'efficacité de l'évaluation humaine grâce à des algorithmes d'appariement équilibré et de sélection de sous-ensembles. Des modèles comme DELPHI combattent les attaques contradictoires à l'aide de graphiques de causalité et de masquage de gradient. Les outils d’IA responsable restent un domaine d’innovation actif.

Applications multimodales

Au-delà du texte, les LLM ouvrent de nouvelles frontières en matière d'intelligence multimodale :

Conditionner les LLM sur les images, la vidéo, la parole et d'autres modalités
Architectures de transformateurs multimodaux unifiées
Récupération multimodale sur tous les types de médias
Générer des légendes, des descriptions visuelles et des résumés
Cohérence multimodale et bon sens

Cela étend les LLM au-delà du langage jusqu'au raisonnement sur le monde physique.

En résumé

Les grands modèles de langage représentent une nouvelle ère dans les capacités de l’IA. La maîtrise de leurs concepts clés, de leurs modèles architecturaux et de leurs compétences pratiques vous permettra d'innover de nouveaux produits et services intelligents. Les LLM abaissent les obstacles à la création de systèmes de langage naturel performants : avec la bonne expertise, vous pouvez exploiter ces modèles puissants pour résoudre des problèmes du monde réel.

Rubriques connexes:Attention GPT Langchain LLM INGÉNIERIE RAPIDE

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.