Intelligenza Artificiale

LlamaIndex: amplia facilmente le tue applicazioni LLM con dati personalizzati

Pubblicato il Ottobre 25, 2023

Ayush Mittal Mittale

I modelli linguistici di grandi dimensioni (LLM) come la serie GPT di OpenAI sono stati addestrati su una vasta gamma di dati accessibili al pubblico, dimostrando notevoli capacità nella generazione di testo, nella sintesi, nella risposta alle domande e nella pianificazione. Nonostante la loro versatilità, una domanda frequente riguarda la perfetta integrazione di questi modelli con dati personalizzati, privati o proprietari.

Le aziende e gli individui sono inondati di dati unici e personalizzati, spesso ospitati in varie applicazioni come Notion, Slack e Salesforce o archiviati in file personali. Per sfruttare gli LLM per questi dati specifici, sono state proposte e sperimentate diverse metodologie.

Ritocchi Rappresenta uno di questi approcci e consiste nell'aggiustamento dei pesi del modello per incorporare le conoscenze provenienti da specifici set di dati. Tuttavia, questo processo non è privo di sfide. Richiede un notevole impegno nella preparazione dei dati, unito a una complessa procedura di ottimizzazione, che richiede un certo livello di competenza nell'apprendimento automatico. Inoltre, le implicazioni finanziarie possono essere significative, soprattutto quando si ha a che fare con set di dati di grandi dimensioni.

L'apprendimento in contesto è emerso come alternativa, dando priorità alla creazione di input e suggerimenti per fornire al LLM il contesto necessario per generare output accurati. Questo approccio mitiga la necessità di un’ampia riqualificazione del modello, offrendo un mezzo più efficiente e accessibile per integrare i dati privati.

Ma lo svantaggio è la dipendenza dall’abilità e dalla competenza dell’utente ingegneria tempestivaInoltre, l'apprendimento contestuale potrebbe non essere sempre preciso o affidabile quanto il fine tuning, soprattutto quando si tratta di dati altamente specializzati o tecnici. Il pre-addestramento del modello su un'ampia gamma di testi online non garantisce la comprensione di termini tecnici o contestuali specifici, il che può portare a risultati imprecisi o irrilevanti. Ciò è particolarmente problematico quando i dati privati provengono da un dominio o da un settore di nicchia.

Inoltre, la quantità di contesto che può essere fornita in un singolo prompt è limitata e le prestazioni di LLM potrebbero peggiorare con l'aumentare della complessità dell'attività. Esiste anche la sfida della privacy e della sicurezza dei dati, poiché le informazioni fornite nel messaggio potrebbero essere potenzialmente sensibili o riservate.

Mentre la comunità esplora queste tecniche, strumenti come CallIndex stanno ora attirando l'attenzione.

Indice dei lama

È stato avviato da Jerry Liu, ex ricercatore scientifico di Uber. Durante gli esperimenti con GPT-3 lo scorso autunno, Liu ha notato i limiti del modello nella gestione dei dati privati, come i file personali. Questa osservazione ha portato all'avvio del progetto open source LlamaIndex.

L'iniziativa ha attirato investitori, mettendosi in sicurezza $8.5 milioni in un recente round di finanziamento iniziale.

LlamaIndex facilita l'ampliamento dei LLM con dati personalizzati, colmando il divario tra modelli preaddestrati e casi d'uso di dati personalizzati. Attraverso LlamaIndex, gli utenti possono sfruttare i propri dati con LLM, sbloccando la generazione di conoscenza e il ragionamento con approfondimenti personalizzati.

Gli utenti possono fornire senza problemi ai LLM i propri dati, favorendo un ambiente in cui la generazione di conoscenza e il ragionamento sono profondamente personalizzati e approfonditi. LlamaIndex affronta i limiti dell'apprendimento in contesto fornendo una piattaforma più intuitiva e sicura per l'interazione dei dati, garantendo che anche chi ha competenze limitate nell'apprendimento automatico possa sfruttare tutto il potenziale degli LLM con i propri dati privati.

Concetti di alto livello e alcuni approfondimenti

1. Recupero della generazione aumentata (RAG):

LlamaIndex RAG

RAG è un processo duplice progettato per abbinare LLM a dati personalizzati, migliorando così la capacità del modello di fornire risposte più precise e informate. Il processo comprende:

Fase di indicizzazione: questa è la fase preparatoria in cui vengono gettate le basi per la creazione della base di conoscenza.

LlamaIndex Indicizzazione

Fase di interrogazione: Qui, la base di conoscenza viene analizzata alla ricerca di contesto pertinente per assistere i LLM nel rispondere alle domande.

Fase di query LlamaIndex

Viaggio di indicizzazione con LlamaIndex:

Connettori dati: Considerate i connettori dati come il passaporto dei vostri dati per LlamaIndex. Aiutano a importare dati da diverse fonti e formati, incapsulandoli in una semplice rappresentazione "Documento". I connettori dati sono disponibili all'interno di LlamaHub, un repository open source ricco di caricatori di dati. Questi caricatori sono progettati per una facile integrazione, consentendo un'esperienza plug-and-play con qualsiasi applicazione LlamaIndex.

Hub LlamaIndex (https://llamahub.ai/)

Documenti/Nodi: un documento è come una valigia generica che può contenere diversi tipi di dati, che si tratti di un PDF, di un output API o di voci di database. D'altra parte, un nodo è uno snippet o un "pezzo" di un documento, arricchito con metadati e relazioni con altri nodi, garantendo una solida base per il successivo recupero preciso dei dati.
Indici di dati: Dopo l'inserimento dei dati, LlamaIndex aiuta a indicizzarli in un formato recuperabile. Dietro le quinte, seziona i documenti grezzi in rappresentazioni intermedie, calcola gli incorporamenti vettoriali e deduce i metadati. Tra gli indici, "VectorStoreIndex" è spesso la scelta preferita.

Tipi di indici in LlamaIndex: chiave per i dati organizzati

LlamaIndex offre diversi tipi di indici, ognuno per esigenze e casi d'uso diversi. Al centro di questi indici ci sono i "nodi", come discusso in precedenza. Cerchiamo di comprendere gli indici di LlamaIndex, i loro meccanismi e le loro applicazioni.

1. Elenco indice:

Meccanismo: Un indice di elenco allinea i nodi in sequenza come un elenco. Dopo aver suddiviso in blocchi i dati di input in nodi, questi vengono disposti in modo lineare, pronti per essere interrogati in sequenza o tramite parole chiave o incorporamenti.
Vantaggio : Questo tipo di indice brilla quando è necessaria l'esecuzione di query sequenziali. LlamaIndex garantisce l'utilizzo di tutti i dati di input, anche se superano il limite di token LLM, interrogando in modo intelligente il testo da ciascun nodo e perfezionando le risposte mentre si naviga lungo l'elenco.

2. Indice del negozio vettoriale:

Meccanismo: Qui, i nodi si trasformano in incorporamenti di vettori, archiviati localmente o in un database vettoriale specializzato come Milvo. Quando interrogato, recupera i nodi top_k più simili, incanalandoli nel sintetizzatore di risposta.
Vantaggio : se il flusso di lavoro dipende dal confronto del testo per la somiglianza semantica tramite la ricerca vettoriale, è possibile utilizzare questo indice.

3. Indice degli alberi:

Meccanismo: In un indice ad albero, i dati di input si evolvono in una struttura ad albero, costruita dal basso verso l'alto dai nodi foglia (i blocchi di dati originali). I nodi principali emergono come riepiloghi dei nodi foglia, realizzati utilizzando GPT. Durante una query, l'indice dell'albero può passare dal nodo radice ai nodi foglia o costruire risposte direttamente dai nodi foglia selezionati.
Vantaggio : Con un indice ad albero, l'interrogazione di blocchi di testo lunghi diventa più efficiente e l'estrazione di informazioni da vari segmenti di testo è semplificata.

4. Indice delle parole chiave:

Meccanismo: Una mappa di parole chiave per nodi costituisce il nucleo di un indice di parole chiave. Quando vengono interrogate, le parole chiave vengono estratte dalla query e solo i nodi mappati vengono messi in evidenza.
Vantaggio : quando le query dell'utente sono chiare, è possibile utilizzare un indice delle parole chiave. Ad esempio, vagliare i documenti sanitari diventa più efficiente quando ci si concentra solo sui documenti pertinenti al COVID-19.

Installazione di LlamaIndex

L'installazione di LlamaIndex è un processo semplice. Puoi scegliere di installarlo direttamente da Pip o dalla fonte. (Assicurati di avere Python installato nel tuo sistema oppure puoi utilizzare Google Colab)

1. Installazione da Pip:

Esegui il seguente comando:

pip install llama-index
Note:: Durante l'installazione, LlamaIndex potrebbe scaricare e archiviare file locali per alcuni pacchetti come NLTK e HuggingFace. Per specificare una directory per questi file, utilizzare la variabile di ambiente "LLAMA_INDEX_CACHE_DIR".

2. Installazione dalla fonte:

Innanzitutto, clona il repository LlamaIndex da GitHub:

git clone https://github.com/jerryjliu/llama_index.git
Una volta clonato, vai alla directory del progetto.
Avrai bisogno di Poetry per gestire le dipendenze dei pacchetti.
Ora crea un ambiente virtuale usando Poesia:

poetry shell
Infine, installa i requisiti del pacchetto principale con:

poetry install

Configurazione dell'ambiente per LlamaIndex

1. Configurazione OpenAI:

Per impostazione predefinita, LlamaIndex utilizza OpenAI gpt-3.5-turbo per la generazione di testo e text-embedding-ada-002 per il recupero e gli incorporamenti.
Per utilizzare questa configurazione, è necessario disporre di un OPENAI_API_KEYPer ottenerne uno, registratevi sul sito web di OpenAI e create un nuovo token API.
Hai la flessibilità di personalizzare il Large Language Model (LLM) sottostante in base alle esigenze del tuo progetto. A seconda del provider LLM, potrebbero essere necessari token e chiavi di ambiente aggiuntive.

2. Configurazione dell'ambiente locale:

Se preferisci non utilizzare OpenAI, LlamaIndex passa automaticamente ai modelli locali – LlamaCPP e llama2-chat-13B per la generazione del testo e BAAI/bge-small-en per il recupero e gli incorporamenti.
Per utilizzare LlamaCPP, seguire la guida di installazione fornita. Assicurati di installare il file llama-cpp-python pacchetto, idealmente compilato per supportare la tua GPU. Questa configurazione utilizzerà circa 11.5 GB di memoria su CPU e GPU.
Per gli incorporamenti locali, esegui pip install sentence-transformers. Questa configurazione locale utilizzerà circa 500 MB di memoria.

Con queste configurazioni, puoi personalizzare il tuo ambiente per sfruttare la potenza di OpenAI o eseguire modelli localmente, allineandoli ai requisiti e alle risorse del tuo progetto.

Un semplice caso d'uso: interrogare pagine Web con LlamaIndex e OpenAI

Ecco un semplice script Python che mostra come interrogare una pagina web per ottenere informazioni specifiche:

!pip install llama-index html2text

import os
from llama_index import VectorStoreIndex, SimpleWebPageReader

# Enter your OpenAI key below:
os.environ["OPENAI_API_KEY"] = ""

# URL you want to load into your vector store here:
url = "http://www.paulgraham.com/fr.html"

# Load the URL into documents (multiple documents possible)
documents = SimpleWebPageReader(html_to_text=True).load_data([url])

# Create vector store from documents
index = VectorStoreIndex.from_documents(documents)

# Create query engine so we can ask it questions:
query_engine = index.as_query_engine()

# Ask as many questions as you want against the loaded data:
response = query_engine.query("What are the 3 best advise by Paul to raise money?")
print(response)

The three best pieces of advice by Paul to raise money are:
1. Start with a low number when initially raising money. This allows for flexibility and increases the chances of raising more funds in the long run.
2. Aim to be profitable if possible. Having a plan to reach profitability without relying on additional funding makes the startup more attractive to investors.
3. Don't optimize for valuation. While valuation is important, it is not the most crucial factor in fundraising. Focus on getting the necessary funds and finding good investors instead.

Taccuino dell'indice dei lama di Google Colab

Con questo script hai creato un potente strumento per estrarre informazioni specifiche da una pagina web semplicemente ponendo una domanda. Questo è solo un assaggio di ciò che si può ottenere con LlamaIndex e OpenAI durante l'interrogazione dei dati web.

LlamaIndex vs Langchain: scegliere in base al proprio obiettivo

La tua scelta tra LlamaIndex e Langchain dipenderà dall'obiettivo del tuo progetto. Se vuoi sviluppare uno strumento di ricerca intelligente, LlamaIndex è una scelta solida, eccellente come meccanismo di archiviazione intelligente per il recupero dei dati. D'altro canto, se vuoi creare un sistema come ChatGPT con funzionalità di plugin, Langchain è la soluzione ideale. Non solo facilita più istanze di ChatGPT e LlamaIndex, ma ne espande anche le funzionalità consentendo la creazione di agenti multi-task. Ad esempio, con Langchain, puoi creare agenti in grado di eseguire codice Python mentre eseguono una ricerca su Google contemporaneamente. In breve, mentre LlamaIndex eccelle nella gestione dei dati, Langchain orchestra più strumenti per fornire una soluzione olistica.

LlamaIndex Logo Grafica creata utilizzando Metà viaggio

Ayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.

Unite.AI