Connect with us

Leaders d’opinion

Déplacer les grands modèles de langage (LLM) vers des applications commerciales du monde réel

mm

Les grands modèles de langage sont partout. Chaque conversation avec un client ou une présentation de VC implique des questions sur la préparation de la technologie LLM et sur la façon dont elle entraînera les applications futures. J’ai abordé certains modèles à ce sujet dans mon article précédent. Ici, je vais parler de certains modèles du monde réel pour une application dans l’industrie pharmaceutique sur laquelle Persistent Systems a travaillé.

Grands modèles de langage et forces principales

Les LLM sont bons pour comprendre le langage, c’est leur force. Le modèle le plus courant que nous voyons avec les applications est la génération augmentée de récupération (RAG), où les connaissances sont compilées à partir de sources de données et fournies dans le contexte d’une invite pour que le LLM paraphrase une réponse. Dans ce cas, des mécanismes de recherche ultra-rapides comme les bases de données vectorielles et les moteurs basés sur Elasticsearch servent de première ligne de recherche. Ensuite, les résultats de la recherche sont compilés en une invite et envoyés au LLM, la plupart du temps sous forme d’appel d’API.

Un autre modèle consiste à générer une requête sur des données structurées en alimentant le LLM avec un modèle de données comme invite et une requête spécifique de l’utilisateur. Ce modèle pourrait être utilisé pour développer une interface avancée « parlez à vos données » pour des bases de données SQL comme Snowflake, ainsi que des bases de données graphiques comme Neo4j.

Exploitation des modèles LLM pour des connaissances du monde réel

Persistent Systems a récemment examiné un modèle pour Blast Motion, une société de télémétrie sportive (analyse de swing pour le baseball, le golf, etc.), où nous avons analysé des données de séries chronologiques de résumés de joueurs pour obtenir des recommandations.

Pour des applications plus complexes, nous devons souvent enchaîner les requêtes LLM avec un traitement entre les appels. Pour une société pharmaceutique, nous avons développé une application intelligente de traçage qui filtre les patients pour les essais cliniques en fonction des critères extraits des documents d’essai clinique. Ici, nous avons utilisé une approche d’enchâinement LLM. Tout d’abord, nous avons développé un LLM pour lire le document PDF d’essai et utiliser le modèle RAG pour extraire les critères d’inclusion et d’exclusion.

Pour cela, un LLM relativement plus simple comme GPT-3.5-Turbo (ChatGPT) a été utilisé. Ensuite, nous avons combiné ces entités extraites avec le modèle de données de la base de données SQL des patients dans Snowflake, pour créer une invite. Cette invite a été fournie à un LLM plus puissant comme GPT4, ce qui nous a donné une requête SQL pour filtrer les patients, prête à être exécutée sur Snowflake. Puisque nous utilisons l’enchâinement LLM, nous pouvons utiliser plusieurs LLM pour chaque étape de la chaîne, ce qui nous permet de gérer les coûts.

Actuellement, nous avons décidé de garder cette chaîne déterministe pour un meilleur contrôle. C’est-à-dire que nous avons décidé d’avoir plus d’intelligence dans les chaînes et de garder l’orchestration très simple et prévisible. Chaque élément de la chaîne est une application complexe en soi qui aurait pris quelques mois à développer à l’époque précédant les LLM.

Alimenter des cas d’utilisation plus avancés

Pour un cas plus avancé, nous pourrions utiliser des agents comme ReAct pour inciter le LLM à créer des instructions étape par étape à suivre pour une requête spécifique de l’utilisateur. Cela nécessiterait bien sûr un LLM de haute finition comme GPT4 ou Cohere ou Claude 2. Cependant, il y a alors un risque que le modèle prenne une étape incorrecte qui devra être vérifiée à l’aide de garde-fous. C’est un compromis entre déplacer l’intelligence dans des liens de chaîne contrôlables ou rendre toute la chaîne autonome.

Aujourd’hui, alors que nous nous habituons à l’ère de l’IA générative pour le langage, l’industrie commence à adopter des applications LLM avec des chaînes prévisibles. À mesure que cette adoption augmente, nous allons bientôt commencer à expérimenter une plus grande autonomie pour ces chaînes via des agents. C’est ce dont débat la question de l’AGI et nous sommes intéressés à voir comment tout cela évoluera avec le temps.

Dattaraj Rao, Chief Data Scientist chez Persistent Systems, est l'auteur du livre “Keras to Kubernetes: The Journey of a Machine Learning Model to Production.” Chez Persistent Systems, Dattaraj dirige le laboratoire de recherche en intelligence artificielle qui explore les algorithmes les plus avancés en Vision par ordinateur, Compréhension du langage naturel, Programmation probabiliste, Apprentissage par renforcement, Intelligence artificielle explicative, etc. et démontre leur applicabilité dans les domaines de la santé, de la banque et de l'industrie. Dattaraj détient 11 brevets en apprentissage automatique et en vision par ordinateur.