Leader di pensiero
Dare Senso al Caos: Il Ruolo degli LLM nell’Estrazione di Dati Non Strutturati
Recenti sviluppi nel campo dell’hardware come la GPU Nvidia H100, hanno notevolmente migliorato le capacità computazionali. Con nove volte la velocità della Nvidia A100, queste GPU eccellono nel gestire i carichi di lavoro di apprendimento profondo. Questo progresso ha spinto l’uso commerciale dell’intelligenza artificiale generativa nell’elaborazione del linguaggio naturale (NLP) e nella visione artificiale, consentendo l’estrazione dati automatizzata e intelligente. Le aziende possono ora facilmente convertire i dati non strutturati in informazioni preziose, segnando un notevole passo avanti nell’integrazione tecnologica.
Metodi Tradizionali di Estrazione Dati
Inserimento Manuale dei Dati
Sorprendentemente, molte aziende si affidano ancora all’inserimento manuale dei dati, nonostante la disponibilità di tecnologie più avanzate. Questo metodo prevede l’inserimento manuale delle informazioni direttamente nel sistema di destinazione. È spesso più facile da adottare a causa dei minori costi iniziali. Tuttavia, l’inserimento manuale dei dati non è solo tedioso e lungo, ma anche altamente soggetto a errori. Inoltre, rappresenta un rischio per la sicurezza quando si gestiscono dati sensibili, rendendolo un’opzione meno desiderabile nell’era dell’automazione e della sicurezza digitale.
Riconoscimento Ottico dei Caratteri (OCR)
La tecnologia OCR, che converte immagini e contenuti scritti a mano in dati leggibili da macchina, offre una soluzione più rapida e più economica per l’estrazione dei dati. Tuttavia, la qualità può essere poco affidabile. Ad esempio, i caratteri come “S” possono essere interpretati come “8” e viceversa.
Le prestazioni dell’OCR sono significativamente influenzate dalla complessità e dalle caratteristiche dei dati di input; funziona bene con immagini scansionate ad alta risoluzione prive di problemi come inclinazioni di orientamento, filigrane o sovrascrittura. Tuttavia, incontra sfide con il testo scritto a mano, specialmente quando le immagini sono intricate o difficili da elaborare. Potrebbero essere necessarie adattamenti per migliorare i risultati quando si gestiscono input testuali. Gli strumenti di estrazione dati sul mercato con l’OCR come tecnologia di base spesso aggiungono strati e strati di post-elaborazione per migliorare l’accuratezza dei dati estratti. Tuttavia, queste soluzioni non possono garantire risultati del 100% accurate.
Corrispondenza di Modelli di Testo
La corrispondenza di modelli di testo è un metodo per identificare ed estrarre informazioni specifiche da testi utilizzando regole o modelli predefiniti. È più rapido e offre un ritorno sugli investimenti più alto rispetto ad altri metodi. È efficace in tutti i livelli di complessità e raggiunge l’accuratezza del 100% per file con layout simili.
Tuttavia, la sua rigidità nelle corrispondenze parola per parola può limitare l’adattabilità, richiedendo una corrispondenza esatta del 100% per un’estrazione di successo. Le sfide con i sinonimi possono portare a difficoltà nell’identificazione di termini equivalenti, come la differenziazione tra “meteo” e “clima”. Inoltre, la corrispondenza di modelli di testo mostra una sensibilità contestuale, mancando di consapevolezza dei molteplici significati in contesti diversi. Trovare l’equilibrio giusto tra rigidità e adattabilità rimane una sfida costante nell’utilizzo efficace di questo metodo.
Riconoscimento di Entità Nominale (NER)
Il riconoscimento di entità nominale (NER), una tecnica di NLP, identifica e categorizza le informazioni chiave nel testo.
Le estrazioni del NER sono limitate a entità predefinite come nomi di organizzazioni, luoghi, nomi di persona e date. In altre parole, i sistemi NER attuali mancano della capacità intrinseca di estrarre entità personalizzate al di fuori di questo insieme predefinito, che potrebbe essere specifico di un particolare dominio o caso d’uso. In secondo luogo, il focus del NER sui valori chiave associati alle entità riconosciute non si estende all’estrazione di dati da tabelle, limitando la sua applicabilità a tipi di dati più complessi o strutturati.
Mentre le organizzazioni affrontano quantità crescenti di dati non strutturati, queste sfide evidenziano la necessità di un approccio comprensivo e scalabile alle metodologie di estrazione.
Sbloccare i Dati Non Strutturati con gli LLM
Sfruttare i large language model (LLM) per l’estrazione di dati non strutturati è una soluzione convincente con vantaggi distinti che affrontano sfide critiche.
Estrazione di Dati Consapevole del Contesto
Gli LLM possiedono una forte comprensione del contesto, affinata attraverso un’estensiva formazione su grandi dataset. La loro capacità di andare oltre la superficie e comprendere le sfumature del contesto li rende preziosi nel gestire diverse attività di estrazione di informazioni. Ad esempio, quando incaricati di estrarre valori meteorologici, catturano le informazioni intese e considerano elementi correlati come valori climatici, incorporando senza sforzo sinonimi e semantiche. Questo livello avanzato di comprensione stabilisce gli LLM come una scelta dinamica e adattabile nel dominio dell’estrazione di dati.
Sfruttare le Capacità di Elaborazione Parallela
Gli LLM utilizzano l’elaborazione parallela, rendendo le attività più rapide e più efficienti. A differenza dei modelli sequenziali, gli LLM ottimizzano la distribuzione delle risorse, risultando in attività di estrazione dei dati accelerate. Ciò migliora la velocità e contribuisce alle prestazioni generali del processo di estrazione.
Adattarsi a Diversi Tipi di Dati
Mentre alcuni modelli come le reti neurali ricorrenti (RNN) sono limitati a sequenze specifiche, gli LLM gestiscono dati non specifici di sequenza, accogliendo senza sforzo strutture di frase diverse. Questa versatilità comprende forme di dati diverse come tabelle e immagini.
Migliorare le Pipeline di Elaborazione
L’uso degli LLM segna un notevole passo avanti nell’automatizzazione sia delle fasi di pre-elaborazione che di post-elaborazione. Gli LLM riducono la necessità di sforzo manuale automatizzando con precisione i processi di estrazione, semplificando la gestione dei dati non strutturati. La loro formazione estensiva su dataset diversi consente loro di identificare modelli e correlazioni trascurate dai metodi tradizionali.
Questa figura di una pipeline di intelligenza artificiale generativa illustra l’applicabilità di modelli come BERT, GPT e OPT nell’estrazione dei dati. Questi LLM possono eseguire varie operazioni di NLP, incluse l’estrazione dei dati. Tipicamente, il modello di intelligenza artificiale generativa fornisce un prompt che descrive i dati desiderati, e la risposta successiva contiene i dati estratti. Ad esempio, un prompt come “Estrai i nomi di tutti i fornitori da questo ordine di acquisto” può produrre una risposta contenente tutti i nomi dei fornitori presenti nel report semistrutturato. Successivamente, i dati estratti possono essere analizzati e caricati in una tabella del database o in un file piatto, facilitando un’integrazione senza soluzione di continuità nei flussi di lavoro aziendali.
Evoluzione dei Framework di Intelligenza Artificiale: da RNN a Transformer nell’Estrazione Moderna dei Dati
L’intelligenza artificiale generativa opera all’interno di un framework encoder-decoder che presenta due reti neurali collaborative. L’encoder elabora i dati di input, condensando le caratteristiche essenziali in un “vettore di contesto”. Questo vettore viene quindi utilizzato dal decoder per attività generative, come la traduzione del linguaggio. Questa architettura, che sfrutta reti neurali come RNN e Transformer, trova applicazioni in diversi domini, tra cui la traduzione del linguaggio, la generazione di immagini, la sintesi vocale e l’estrazione di entità di dati. Queste reti eccellono nel modellare relazioni e dipendenze intricate all’interno di sequenze di dati.
Reti Neurali Ricorrenti
Le Reti Neurali Ricorrenti (RNN) sono state progettate per affrontare attività sequenziali come la traduzione e la sintesi, eccellendo in determinati contesti. Tuttavia, lottano per la precisione in attività che coinvolgono dipendenze a lungo raggio.
Le RNN eccellono nell’estrazione di coppie chiave-valore da frasi, ma affrontano difficoltà con strutture a forma di tabella. Affrontare questo richiede una considerazione attenta della sequenza e della posizione, richiedendo approcci specializzati per ottimizzare l’estrazione dei dati da tabelle. Tuttavia, la loro adozione è stata limitata a causa del basso ritorno sugli investimenti e delle prestazioni scarse nella maggior parte delle attività di elaborazione del testo, anche dopo essere stati addestrati su grandi volumi di dati.
Reti Neurali a Memoria a Lungo Termine
Le Reti Neurali a Memoria a Lungo Termine (LSTM) emergono come soluzione che affronta le limitazioni delle RNN, in particolare attraverso un meccanismo di aggiornamento e dimenticanza selettivo. Come le RNN, le LSTM eccellono nell’estrazione di coppie chiave-valore da frasi. Tuttavia, affrontano sfide simili con strutture a forma di tabella, richiedendo una considerazione strategica della sequenza e degli elementi di posizionamento.
Le GPU sono state utilizzate per la prima volta per l’apprendimento profondo nel 2012 per sviluppare il famoso modello di rete neurale convoluzionale AlexNet. Successivamente, alcune RNN sono state addestrate utilizzando GPU, sebbene non abbiano prodotto buoni risultati. Oggi, nonostante la disponibilità di GPU, questi modelli sono in gran parte caduti in disuso e sono stati sostituiti da LLM basati su transformer.
Transformer – Meccanismo di Attenzione
L’introduzione dei transformer, in particolare nel rivoluzionario articolo “L’attenzione è tutto ciò di cui hai bisogno” (2017), ha rivoluzionato il NLP proponendo l’architettura ‘transformer’. Questa architettura consente calcoli paralleli e cattura abilmente le dipendenze a lungo raggio, aprendo nuove possibilità per i modelli di linguaggio. Gli LLM come GPT, BERT e OPT hanno sfruttato la tecnologia dei transformer. Al cuore dei transformer si trova il meccanismo di “attenzione”, un contributore chiave alle prestazioni migliorate nell’elaborazione di dati sequenza-a-sequenza.
Il meccanismo di “attenzione” nei transformer calcola una somma ponderata dei valori in base alla compatibilità tra la ‘query’ (prompt di domanda) e la ‘chiave’ (comprensione del modello di ogni parola). Questo approccio consente un’attenzione focalizzata durante la generazione della sequenza, garantendo un’estrazione precisa. Due componenti fondamentali all’interno del meccanismo di attenzione sono l’auto-attenzione, che cattura l’importanza tra le parole nella sequenza di input, e l’attenzione multi-testa, che consente modelli di attenzione diversi per relazioni specifiche.
Nel contesto dell’estrazione di fatture, l’auto-atenzione riconosce la rilevanza di una data menzionata in precedenza quando si estraggono importi di pagamento, mentre l’attenzione multi-testa si concentra indipendentemente sui valori numerici (importi) e sui modelli testuali (nomi dei fornitori). A differenza delle RNN, i transformer non comprendono intrinsecamente l’ordine delle parole. Per affrontare questo, utilizzano la codifica posizionale per tenere traccia della posizione di ogni parola in una sequenza. Questa tecnica viene applicata sia agli input che agli output, aiutando nell’identificazione delle chiavi e dei valori corrispondenti all’interno di un documento.
La combinazione dei meccanismi di attenzione e delle codifiche posizionali è vitale per la capacità di un large language model di riconoscere una struttura come tabellare, considerandone il contenuto, lo spazio e i marcatori di testo. Questa abilità li distingue da altre tecniche di estrazione di dati non strutturati.
Tendenze e Sviluppi Attuali
Lo spazio dell’intelligenza artificiale si evolve con tendenze e sviluppi promettenti, ridefinendo il modo in cui estraiamo informazioni da dati non strutturati. Esaminiamo i principali aspetti che plasmano il futuro di questo campo.
Sviluppi negli LLM
L’intelligenza artificiale generativa sta vivendo una fase trasformativa, con gli LLM al centro della gestione di dataset complessi e diversi per l’estrazione di dati non strutturati. Due strategie notevoli stanno guidando questi progressi:
- Apprendimento Multimodale: gli LLM stanno ampliando le loro capacità elaborando simultaneamente vari tipi di dati, tra cui testo, immagini e audio. Questo sviluppo migliora la loro capacità di estrarre informazioni preziose da fonti diverse, aumentando la loro utilità nell’estrazione di dati non strutturati. I ricercatori stanno esplorando modi efficienti per utilizzare questi modelli, mirando a eliminare la necessità di GPU e consentire l’esecuzione di modelli grandi con risorse limitate.
- Applicazioni RAG: La Generazione Assistita dalla Ricerca (RAG) è una tendenza emergente che combina grandi modelli di linguaggio pre-addestrati con meccanismi di ricerca esterni per migliorare le loro capacità. Accedendo a un vasto corpus di documenti durante il processo di generazione, la RAG trasforma i modelli di linguaggio di base in strumenti dinamici adattati sia per applicazioni aziendali che per quelle dei consumatori.
Valutazione delle Prestazioni degli LLM
La sfida di valutare le prestazioni degli LLM è affrontata con un approccio strategico, incorporando metriche specifiche per attività e metodologie di valutazione innovative. Sviluppi chiave in questo spazio includono:
- Metriche personalizzate: metriche di valutazione personalizzate stanno emergendo per valutare la qualità delle attività di estrazione delle informazioni. Precisione, richiamo e punteggio F1 si stanno dimostrando efficaci, in particolare in attività come l’estrazione di entità.
- Valutazione Umana: la valutazione umana rimane fondamentale accanto a metriche automatizzate, garantendo una valutazione completa degli LLM. Integrando metriche automatizzate con il giudizio umano, i metodi di valutazione ibridi offrono una visione sfumata della correttezza contestuale e della rilevanza delle informazioni estratte.
Elaborazione di Immagini e Documenti
Gli LLM multimodali hanno completamente sostituito l’OCR. Gli utenti possono convertire testo scansionato da immagini e documenti in testo leggibile da macchina, con la capacità di identificare ed estrarre informazioni direttamente da contenuti visivi utilizzando moduli basati sulla visione.
Estrazione di Dati da Collegamenti e Siti Web
Gli LLM stanno evolvendo per soddisfare la crescente domanda di estrazione di dati da siti web e collegamenti. Questi modelli sono sempre più abili nel web scraping, convertendo dati da pagine web in formati strutturati. Questa tendenza è inestimabile per attività come la raccolta di notizie, la raccolta di dati e-commerce e l’intelligence competitiva, migliorando la comprensione contestuale e estraendo dati relazionali dal web.
L’Ascesa dei Piccoli Giganti nell’Intelligenza Artificiale Generativa
La prima metà del 2023 ha visto un focus nello sviluppo di grandi modelli di linguaggio basati sull’assunzione “più grande è meglio”. Tuttavia, risultati recenti mostrano che modelli più piccoli come TinyLlama e Dolly-v2-3B, con meno di 3 miliardi di parametri, eccellono in attività come ragionamento e sintesi, guadagnandosi il titolo di “piccoli giganti”. Questi modelli utilizzano meno potenza di calcolo e archiviazione, rendendo l’intelligenza artificiale più accessibile alle piccole aziende senza la necessità di costose GPU.
Conclusione
I primi modelli di intelligenza artificiale generativa, tra cui reti generative avversarie (GAN) e autoencoder variabili (VAE), hanno introdotto approcci innovativi per la gestione dei dati basati su immagini. Tuttavia, il vero punto di svolta è arrivato con i large language model basati su transformer. Questi modelli hanno superato tutte le tecniche precedenti nell’elaborazione di dati non strutturati grazie alla loro struttura encoder-decoder, all’auto-attenzione e all’attenzione multi-testa, concedendo loro una profonda comprensione del linguaggio e abilità di ragionamento simili a quelle umane.
Mentre l’intelligenza artificiale generativa offre un promettente inizio per l’estrazione di dati testuali da report, la scalabilità di tali approcci è limitata. I primi passi spesso coinvolgono l’elaborazione OCR, che può risultare in errori, e persistono sfide nell’estrazione di testo da immagini all’interno dei report.
Mentre l’estrazione di testo all’interno delle immagini nei report è un’altra sfida. L’adozione di soluzioni come l’elaborazione di dati multimodali e l’estensione del limite di token in GPT-4, Claud3, Gemini offre un percorso promettente. Tuttavia, è importante notare che questi modelli sono accessibili solo attraverso API. Mentre l’uso di API per l’estrazione di dati da documenti è sia efficace che efficiente in termini di costo, presenta una serie di limitazioni come la latenza, il controllo limitato e i rischi per la sicurezza.
Una soluzione più sicura e personalizzabile risiede nell’addestramento di un LLM in-house. Questo approccio non solo mitiga le preoccupazioni relative alla privacy e alla sicurezza dei dati, ma migliora anche il controllo sul processo di estrazione dei dati. L’addestramento di un LLM per la comprensione della struttura dei documenti e per la comprensione del significato del testo in base al contesto offre un metodo robusto per l’estrazione di coppie chiave-valore e di voci di riga. Sfruttando l’apprendimento zero-shot e few-shot, un modello addestrato può adattarsi a layout di documenti diversi, garantendo un’efficace e precisa estrazione di dati non strutturati in vari domini.













