Leader di pensiero

Come i Large Language Model (LLM) saranno la spina dorsale delle App del Futuro

Published June 30, 2023

Updated April 28, 2026

Dattaraj Rao

L’AI generativa e in particolare il suo sapore linguistico – ChatGPT è ovunque. La tecnologia del Large Language Model (LLM) svolgerà un ruolo significativo nello sviluppo delle applicazioni future. Gli LLM sono molto bravi a comprendere il linguaggio a causa dell’ampio pre-addestramento che è stato fatto per i modelli di base su trilioni di righe di testo di dominio pubblico, compreso il codice. Metodi come il fine-tuning supervisionato e l’apprendimento rinforzato con feedback umano (RLHF) rendono questi LLM ancora più efficienti nel rispondere a domande specifiche e conversare con gli utenti. Mentre entriamo nella prossima fase di app di intelligenza artificiale alimentate da LLM – i seguenti componenti chiave saranno cruciali per queste applicazioni di prossima generazione. La figura sotto mostra questa progressione, e man mano che si sale la catena, si costruisce più intelligenza e autonomia nelle applicazioni. Vediamo questi vari livelli.

Chiamate LLM:

Queste sono chiamate dirette a modelli di completamento o chat da un fornitore LLM come Azure OpenAI o Google PaLM o Amazon Bedrock. Queste chiamate hanno un prompt molto di base e utilizzano principalmente la memoria interna dell’LLM per produrre l’output.

Esempio: Chiedere a un modello di base come “text-davinci” di “raccontare una barzelletta”. Si dà molto poco contesto e il modello si affida alla sua memoria interna pre-addestrata per fornire una risposta (evidenziata in verde nella figura sotto – utilizzando Azure OpenAI).

Prompt:

Il livello successivo di intelligenza consiste nell’aggiungere sempre più contesto ai prompt. Ci sono tecniche di ingegneria dei prompt che possono essere applicate agli LLM che possono farli fornire risposte personalizzate. Ad esempio, quando si genera un’e-mail a un utente, alcuni contesti sull’utente, gli acquisti precedenti e i modelli di comportamento possono servire come prompt per personalizzare meglio l’e-mail. Gli utenti familiari con ChatGPT conosceranno diversi metodi di prompt come fornire esempi che vengono utilizzati dall’LLM per costruire la risposta. I prompt aumentano la memoria interna dell’LLM con ulteriore contesto. Esempio è sotto.

Embedding:

Gli embedding portano i prompt al livello successivo cercando un archivio di conoscenze per il contesto e ottenendo quel contesto e aggiungendolo al prompt. Qui, il primo passo è creare un grande archivio di documenti con testo non strutturato rendendolo ricercabile indicizzando il testo e popolando un database di vettori. Per questo si utilizza un modello di embedding come ‘ada’ di OpenAI che prende un pezzo di testo e lo converte in un vettore n-dimensionale. Questi embedding catturano il contesto del testo, quindi le frasi simili avranno embedding che sono vicini l’uno all’altro nello spazio vettoriale. Quando l’utente immette una query, anche la query viene convertita in embedding e quel vettore viene confrontato con i vettori nel database. Quindi, otteniamo i primi 5 o 10 pezzi di testo corrispondenti alla query che formano il contesto. La query e il contesto vengono passati all’LLM per rispondere alla domanda in modo umano.

Catene:

Oggi le Catene sono la tecnologia più avanzata e matura disponibile che viene ampiamente utilizzata per costruire applicazioni LLM. Le Catene sono deterministiche dove una sequenza di chiamate LLM sono unite insieme con l’output da uno che fluisce in uno o più LLM. Ad esempio, potremmo avere una chiamata LLM che interroga un database SQL e ottiene un elenco di indirizzi e-mail dei clienti e invia quell’elenco a un altro LLM che genererà e-mail personalizzate ai clienti. Queste catene LLM possono essere integrate nei flussi di applicazioni esistenti per generare risultati più preziosi. Utilizzando le catene, potremmo aumentare le chiamate LLM con input esterni come chiamate API e integrazione con grafi di conoscenza per fornire contesto. Inoltre, oggi con più fornitori LLM disponibili come OpenAI, AWS Bedrock, Google PaLM, MosaicML, ecc. potremmo combinare e abbinare chiamate LLM in catene. Per gli elementi della catena con intelligenza limitata, un LLM più basso come ‘gpt3.5-turbo’ potrebbe essere utilizzato, mentre per compiti più avanzati ‘gpt4’ potrebbe essere utilizzato. Le catene forniscono un’astrazione per i dati, le applicazioni e le chiamate LLM.

Agenti:

Gli Agenti sono un argomento di molti dibattiti online, in particolare con rispetto all’essere intelligenza artificiale generale (AGI). Gli Agenti utilizzano un LLM avanzato come ‘gpt4’ o ‘PaLM2’ per pianificare attività invece di avere catene predefinite. Quindi, quando ci sono richieste degli utenti, in base alla query l’agente decide quale set di attività chiamare e costruisce dinamicamente una catena. Ad esempio, quando configuriamo un agente con un comando come “notificare i clienti quando il tasso APR del prestito cambia a causa dell’aggiornamento della regolamentazione del governo”. La struttura dell’agente fa una chiamata LLM per decidere sui passaggi da eseguire o catene da costruire. Qui coinvolgerà l’invocazione di un’app che raschia i siti web regolamentari ed estrae l’ultimo tasso APR, poi una chiamata LLM cerca nel database ed estrae gli indirizzi e-mail dei clienti che sono interessati e infine viene generata un’e-mail per notificare tutti.

Pensieri Finali

LLM è una tecnologia in rapida evoluzione e migliori modelli e applicazioni vengono lanciati ogni settimana. Da LLM ad Agenti è la scala dell’intelligenza e man mano che saliamo, costruiamo applicazioni autonome complesse. Migliori modelli significheranno agenti più efficaci e le applicazioni di prossima generazione saranno alimentate da questi. Il tempo dirà quanto avanzate saranno le applicazioni di prossima generazione e quali modelli saranno alimentate.

Dattaraj Rao

Dattaraj Rao, Chief Data Scientist at Persistent Systems, è l'autore del libro “Keras to Kubernetes: The Journey of a Machine Learning Model to Production.” At Persistent Systems, Dattaraj guida il laboratorio di ricerca sull'AI che esplora algoritmi all'avanguardia in Computer Vision, Natural Language Understanding, programmazione probabilistica, Reinforcement Learning, Explainable AI, ecc. e dimostra l'applicabilità nei settori sanitari, bancari e industriali. Dattaraj ha 11 brevetti in Machine Learning e Computer Vision.

Unite.AI

Come i Large Language Model (LLM) saranno la spina dorsale delle App del Futuro

Chiamate LLM:

Prompt:

Embedding:

Catene:

Agenti:

Pensieri Finali

You may like