mozzicone Spostamento di Large Language Models (LLM) in applicazioni aziendali del mondo reale - Unite.AI
Seguici sui social

Leader del pensiero

Spostamento di Large Language Models (LLM) in applicazioni aziendali del mondo reale

mm

Pubblicato il

 on

I grandi modelli linguistici sono ovunque. Ogni conversazione con il cliente o presentazione di VC comporta domande su quanto sia pronta la tecnologia LLM e su come guiderà le applicazioni future. Ho coperto alcuni schemi su questo in il mio post precedente. Qui parlerò di alcuni modelli del mondo reale per un'applicazione nel settore farmaceutico su cui ha lavorato Persistent Systems.

Modelli linguistici di grandi dimensioni e punti di forza fondamentali

Gli LLM sono bravi a capire il linguaggio, questo è il loro forte. Il modello più comune che stiamo osservando con le applicazioni è il recupero della generazione aumentata (RAG), in cui la conoscenza viene compilata esternamente da fonti di dati e fornita nel contesto come prompt per l'LLM per parafrasare una risposta. In questo caso, meccanismi di ricerca superveloci come database vettoriali e motori basati su Elasticsearch fungono da prima linea di ricerca. Quindi i risultati della ricerca vengono compilati in un prompt e inviati a LLM principalmente come chiamata API.

Un altro modello è la generazione di una query sui dati strutturati alimentando l'LLM con un modello di dati come prompt e una specifica query dell'utente. Questo modello potrebbe essere utilizzato per sviluppare un'interfaccia avanzata "parla con i tuoi dati" per database SQL come Snowflake, nonché database a grafo come Neo4j.

Sfruttare i modelli LLM per approfondimenti del mondo reale

Persistent Systems ha recentemente esaminato un modello per Movimento esplosivo, una società di telemetria sportiva (analisi dello swing per il baseball, il golf e così via), in cui abbiamo analizzato i dati delle serie temporali dei riepiloghi dei giocatori per ottenere consigli.

Per applicazioni più complesse, spesso abbiamo bisogno di concatenare le richieste LLM con l'elaborazione tra le chiamate. Per un'azienda farmaceutica, abbiamo sviluppato un'app smart trail che filtra i pazienti per le sperimentazioni cliniche in base a criteri estratti dal documento della sperimentazione clinica. Qui abbiamo utilizzato un approccio a catena LLM. Per prima cosa abbiamo sviluppato un LLM per leggere il documento pdf di prova e utilizzare il pattern RAG per estrarre i criteri di inclusione ed esclusione.

Per questo è stato utilizzato un LLM relativamente più semplice come GPT-3.5-Turbo (ChatGPT). Quindi abbiamo combinato queste entità estratte con il modello di dati del database SQL dei pazienti in Snowflake, per creare un prompt. Questo prompt inviato a un LLM più potente come GPT4 ci fornisce una query SQL per filtrare i pazienti, pronta per essere eseguita su Snowflake. Poiché utilizziamo il concatenamento LLM, potremmo utilizzare più LLM per ogni fase della catena, consentendoci così di gestire i costi.

Al momento, abbiamo deciso di mantenere questa catena deterministica per un migliore controllo. Cioè, abbiamo deciso di avere più intelligenza nelle catene e mantenere l'orchestrazione molto semplice e prevedibile. Ogni elemento della catena è di per sé un'applicazione complessa che richiederebbe alcuni mesi per svilupparsi nei giorni pre-LLM.

Potenziamento di casi d'uso più avanzati

Per un caso più avanzato, potremmo usare Agents like Reagire per richiedere a LLM di creare istruzioni dettagliate da seguire per una particolare query dell'utente. Ciò richiederebbe ovviamente un LLM di fascia alta come GPT4 o Cohere o Claude 2. Tuttavia, esiste il rischio che il modello esegua un passaggio errato che dovrà essere verificato utilizzando i guardrail. Questo è un compromesso tra lo spostamento dell'intelligenza negli anelli controllabili della catena o il rendere autonoma l'intera catena.

Oggi, mentre ci abituiamo all'era dell'IA generativa per il linguaggio, l'industria sta iniziando ad adottare applicazioni LLM con catene prevedibili. Man mano che questa adozione cresce, inizieremo presto a sperimentare una maggiore autonomia per queste catene tramite agenti. Questo è il tema del dibattito sull'AGI e siamo interessati a vedere come tutto questo si evolve nel tempo.

Dattaraj Rao, Chief Data Scientist presso Sistemi persistenti, è l'autore del libro "Keras to Kubernetes: The Journey of a Machine Learning Model to Production". Presso Persistent Systems, Dattaraj guida l'AI Research Lab che esplora algoritmi all'avanguardia in Computer Vision, Natural Language Understanding, Programmazione probabilistica, Reinforcement Learning, Explainable AI, ecc. e dimostra l'applicabilità nei settori sanitario, bancario e industriale. Dattaraj ha 11 brevetti in Machine Learning e Computer Vision.