Leaders d’opinion

Comment les grands modèles de langage (LLM) alimenteront les applications de demain

Published June 30, 2023

Updated April 28, 2026

Dattaraj Rao

L’intelligence générative et en particulier la variante langage – ChatGPT est partout. La technologie de grand modèle de langage (LLM) jouera un rôle important dans le développement des applications futures. Les LLM sont très bons pour comprendre le langage en raison de la formation préalable extensive qui a été effectuée pour les modèles de base sur des trillions de lignes de texte de domaine public, y compris du code. Des méthodes comme la fine-tuning supervisée et l’apprentissage renforcé avec une rétroaction humaine (RLHF) rendent ces LLM encore plus efficaces pour répondre à des questions spécifiques et converser avec les utilisateurs. Alors que nous entrons dans la prochaine phase d’applications d’IA alimentées par les LLM – les composants clés suivants seront cruciaux pour ces applications de nouvelle génération. La figure ci-dessous montre cette progression, et à mesure que vous montez dans la chaîne, vous construisez plus d’intelligence et d’autonomie dans vos applications. Examinons ces différents niveaux.

Appels LLM :

Ce sont des appels directs à des modèles de complétion ou de chat par un fournisseur LLM comme Azure OpenAI ou Google PaLM ou Amazon Bedrock. Ces appels ont une invite très basique et utilisent principalement la mémoire interne du LLM pour produire la sortie.

Exemple : Demander à un modèle de base comme « text-davinci » de « raconter une blague ». Vous donnez très peu de contexte et le modèle s’appuie sur sa mémoire pré-formée interne pour venir avec une réponse (surlignée en vert dans la figure ci-dessous – en utilisant Azure OpenAI).

Invites :

Le niveau suivant d’intelligence consiste à ajouter de plus en plus de contexte aux invites. Il existe des techniques d’ingénierie d’invite qui peuvent être appliquées aux LLM qui peuvent les amener à donner des réponses personnalisées. Par exemple, lors de la génération d’un e-mail à un utilisateur, certains contextes sur l’utilisateur, les achats précédents et les modèles de comportement peuvent servir d’invite pour personnaliser l’e-mail. Les utilisateurs familiarisés avec ChatGPT connaissent différentes méthodes d’invite comme donner des exemples qui sont utilisés par le LLM pour construire la réponse. Les invites augmentent la mémoire interne du LLM avec un contexte supplémentaire. Exemple ci-dessous.

Intégrations :

Les intégrations amènent les invites au niveau suivant en recherchant un magasin de connaissances pour le contexte et en obtenant ce contexte et en l’ajoutant à l’invite. Ici, la première étape consiste à créer un grand magasin de documents avec du texte non structuré pouvant être recherché en indexant le texte et en peuplant une base de données vectorielle. Pour cela, un modèle d’intégration comme « ada » d’OpenAI est utilisé qui prend un morceau de texte et le convertit en un vecteur n-dimensionnel. Ces intégrations capturent le contexte du texte, de sorte que les phrases similaires auront des intégrations qui sont proches les unes des autres dans l’espace vectoriel. Lorsqu’un utilisateur saisit une requête, la requête est également convertie en intégration et que le vecteur est comparé aux vecteurs de la base de données. Ainsi, nous obtenons les 5 ou 10 morceaux de texte les plus correspondants à la requête qui forment le contexte. La requête et le contexte sont transmis au LLM pour répondre à la question de manière humaine.

Chaînes :

Aujourd’hui, les chaînes sont la technologie la plus avancée et la plus mature disponible qui est largement utilisée pour construire des applications LLM. Les chaînes sont déterministes où une séquence d’appels LLM est reliée avec la sortie d’un appel LLM qui s’écoule dans un ou plusieurs LLM. Par exemple, nous pourrions avoir un appel LLM qui interroge une base de données SQL et obtient une liste d’e-mails de clients et envoie cette liste à un autre LLM qui générera des e-mails personnalisés aux clients. Ces chaînes LLM peuvent être intégrées dans les flux d’applications existants pour générer des résultats plus précieux. En utilisant les chaînes, nous pourrions augmenter les appels LLM avec des entrées externes comme des appels d’API et une intégration avec des graphiques de connaissances pour fournir un contexte. De plus, aujourd’hui, avec de multiples fournisseurs LLM disponibles comme OpenAI, AWS Bedrock, Google PaLM, MosaicML, etc. nous pourrions combiner et faire correspondre les appels LLM dans les chaînes. Pour les éléments de chaîne avec une intelligence limitée, un LLM inférieur comme « gpt3.5-turbo » pourrait être utilisé tandis que pour des tâches plus avancées « gpt4 » pourrait être utilisé. Les chaînes offrent une abstraction pour les données, les applications et les appels LLM.

Agents :

Les agents sont un sujet de nombreux débats en ligne, en particulier en ce qui concerne l’intelligence générale artificielle (AGI). Les agents utilisent un LLM avancé comme « gpt4 » ou « PaLM2 » pour planifier des tâches plutôt que d’avoir des chaînes prédéfinies. Donc, maintenant, lorsqu’il y a des requêtes utilisateur, en fonction de la requête, l’agent décide de l’ensemble de tâches à appeler et construit dynamiquement une chaîne. Par exemple, lorsque nous configurons un agent avec une commande comme « notifier les clients lorsque le taux d’APR des prêts change en raison d’une mise à jour de la réglementation gouvernementale ». Le cadre d’agent effectue un appel LLM pour décider des étapes à suivre ou des chaînes à construire. Ici, il s’agira d’invocation d’une application qui scrape les sites Web réglementaires et extrait le dernier taux d’APR, puis un appel LLM recherche la base de données et extrait les e-mails des clients qui sont affectés et enfin un e-mail est généré pour notifier tout le monde.

Pensées finales

LLM est une technologie en constante évolution et de meilleurs modèles et applications sont lancés chaque semaine. LLM à Agents est l’échelle d’intelligence et à mesure que nous montons, nous construisons des applications autonomes complexes. De meilleurs modèles signifieront des agents plus efficaces et les applications de nouvelle génération seront alimentées par ceux-ci. Le temps dira à quel point les applications de nouvelle génération seront avancées et quels modèles ils seront alimentés.

Dattaraj Rao

Dattaraj Rao, Chief Data Scientist chez Persistent Systems, est l'auteur du livre “Keras to Kubernetes: The Journey of a Machine Learning Model to Production.” Chez Persistent Systems, Dattaraj dirige le laboratoire de recherche en intelligence artificielle qui explore les algorithmes les plus avancés en Vision par ordinateur, Compréhension du langage naturel, Programmation probabiliste, Apprentissage par renforcement, Intelligence artificielle explicative, etc. et démontre leur applicabilité dans les domaines de la santé, de la banque et de l'industrie. Dattaraj détient 11 brevets en apprentissage automatique et en vision par ordinateur.

Unite.AI

Comment les grands modèles de langage (LLM) alimenteront les applications de demain

Appels LLM :

Invites :

Intégrations :

Chaînes :

Agents :

Pensées finales

You may like