Leader di pensiero

Dare Senso al Caos: Il Ruolo dei LLM nell’Estrazione di Dati Non Strutturati

Published May 29, 2024

Updated April 27, 2026

Jay Mishra, COO at Astera

Recenti sviluppi hardware come la GPU Nvidia H100, hanno notevolmente migliorato le capacità computazionali. Con nove volte la velocità della Nvidia A100, queste GPU eccellono nel gestire i carichi di lavoro di apprendimento profondo. Questo progresso ha spinto l’uso commerciale dell’intelligenza artificiale generativa nell’elaborazione del linguaggio naturale (NLP) e nella visione artificiale, consentendo l’estrazione di dati automatizzata e intelligente. Le aziende possono ora convertire facilmente i dati non strutturati in informazioni preziose, segnando un notevole passo avanti nell’integrazione tecnologica.

Metodi Tradizionali di Estrazione dei Dati

Inserimento Manuale dei Dati

Sorprendentemente, molte aziende si affidano ancora all’inserimento manuale dei dati, nonostante la disponibilità di tecnologie più avanzate. Questo metodo prevede l’inserimento manuale delle informazioni direttamente nel sistema di destinazione. È spesso più facile da adottare a causa dei minori costi iniziali. Tuttavia, l’inserimento manuale dei dati non è solo tedioso e lungo, ma anche altamente soggetto a errori. Inoltre, rappresenta un rischio per la sicurezza quando si gestiscono dati sensibili, rendendolo un’opzione meno desiderabile nell’era dell’automazione e della sicurezza digitale.

Riconoscimento Ottico dei Caratteri (OCR)

La tecnologia OCR, che converte immagini e contenuti manoscritti in dati leggibili dalle macchine, offre una soluzione più rapida e conveniente per l’estrazione dei dati. Tuttavia, la qualità può essere poco affidabile. Ad esempio, i caratteri come “S” possono essere interpretati come “8” e viceversa.

Le prestazioni dell’OCR sono notevolmente influenzate dalla complessità e dalle caratteristiche dei dati di input; funziona bene con immagini scansionate ad alta risoluzione prive di problemi come inclinazioni di orientamento, filigrane o sovrascritture. Tuttavia, incontra sfide con il testo manoscritto, specialmente quando le immagini sono intricate o difficili da elaborare. Potrebbero essere necessarie adattamenti per migliorare i risultati quando si gestiscono input testuali. Gli strumenti di estrazione dei dati sul mercato con l’OCR come tecnologia di base spesso aggiungono strati e strati di post-elaborazione per migliorare l’accuratezza dei dati estratti. Tuttavia, queste soluzioni non possono garantire risultati del 100% accurate.

Corrispondenza di Modelli di Testo

La corrispondenza di modelli di testo è un metodo per identificare e estrarre informazioni specifiche da testi utilizzando regole o modelli predefiniti. È più rapida e offre un ritorno sugli investimenti più alto rispetto ad altri metodi. È efficace a tutti i livelli di complessità e raggiunge l’accuratezza del 100% per file con layout simili.

Tuttavia, la sua rigidità nelle corrispondenze parola per parola può limitare l’adattabilità, richiedendo una corrispondenza esatta del 100% per un’estrazione di successo. Le sfide con i sinonimi possono portare a difficoltà nell’identificazione di termini equivalenti, come la differenziazione tra “meteo” e “clima”. Inoltre, la corrispondenza di modelli di testo presenta sensibilità contestuale, mancando di consapevolezza dei molteplici significati in contesti diversi. Trovare l’equilibrio giusto tra rigidità e adattabilità rimane una sfida costante nell’utilizzo efficace di questo metodo.

Riconoscimento di Entità Nominale (NER)

Il riconoscimento di entità nominale (NER), una tecnica di NLP, identifica e categorizza le informazioni chiave nel testo.

Le estrazioni del NER sono limitate a entità predefinite come nomi di organizzazioni, località, nomi di persona e date. In altre parole, i sistemi NER attuali mancano della capacità intrinseca di estrarre entità personalizzate al di là di questo insieme predefinito, che potrebbe essere specifico di un particolare dominio o caso d’uso. In secondo luogo, il focus del NER sui valori chiave associati alle entità riconosciute non si estende all’estrazione di dati da tabelle, limitando la sua applicabilità a tipi di dati più complessi o strutturati.

Mentre le organizzazioni gestiscono quantità crescenti di dati non strutturati, queste sfide evidenziano la necessità di un approccio comprensivo e scalabile alle metodologie di estrazione.

Sbloccare i Dati Non Strutturati con i LLM

Sfruttare i large language model (LLM) per l’estrazione di dati non strutturati è una soluzione convincente con vantaggi distinti che affrontano sfide critiche.

Estrazione di Dati Consapevole del Contesto

I LLM possiedono una forte comprensione del contesto, affinata attraverso un addestramento estensivo su grandi set di dati. La loro capacità di andare oltre la superficie e comprendere le sfumature del contesto li rende preziosi nel gestire compiti di estrazione di informazioni diversi. Ad esempio, quando incaricati di estrarre valori meteorologici, catturano le informazioni intese e considerano elementi correlati come valori climatici, incorporando senza sforzo sinonimi e semantica. Questo livello avanzato di comprensione stabilisce i LLM come una scelta dinamica e adattabile nel dominio dell’estrazione dei dati.

Sfruttare le Capacità di Elaborazione Parallela

I LLM utilizzano l’elaborazione parallela, rendendo i compiti più rapidi ed efficienti. A differenza dei modelli sequenziali, i LLM ottimizzano la distribuzione delle risorse, risultando in compiti di estrazione dei dati accelerati. Ciò migliora la velocità e contribuisce alle prestazioni generali del processo di estrazione.

Adattarsi a Tipi di Dati Vari

Mentre alcuni modelli come le reti neurali ricorrenti (RNN) sono limitati a sequenze specifiche, i LLM gestiscono dati non specifici di sequenza, accogliendo senza sforzo strutture di frase diverse. Questa versatilità comprende forme di dati diverse come tabelle e immagini.

Migliorare le Pipeline di Elaborazione

L’uso dei LLM segna un notevole passo avanti nell’automatizzazione sia delle fasi di pre-elaborazione che di post-elaborazione. I LLM riducono la necessità di sforzo manuale automatizzando con precisione i processi di estrazione, semplificando la gestione dei dati non strutturati. Il loro addestramento estensivo su set di dati diversi consente loro di identificare pattern e correlazioni trascurate dai metodi tradizionali.

Fonte: Una pipeline sull’Intelligenza Artificiale Generativa

Questa figura di una pipeline di intelligenza artificiale generativa illustra l’applicabilità di modelli come BERT, GPT e OPT nell’estrazione dei dati. Questi LLM possono eseguire varie operazioni di NLP, compresa l’estrazione dei dati. Di solito, il modello di intelligenza artificiale generativa fornisce un prompt che descrive i dati desiderati, e la risposta successiva contiene i dati estratti. Ad esempio, un prompt come “Estrai i nomi di tutti i fornitori da questo ordine di acquisto” può produrre una risposta contenente tutti i nomi dei fornitori presenti nel report semistrutturato. Successivamente, i dati estratti possono essere analizzati e caricati in una tabella del database o in un file piatto, facilitando un’integrazione senza soluzione di continuità nei flussi di lavoro aziendali.

Evoluzione dei Framework di Intelligenza Artificiale: dalle RNN ai Transformer nell’Estrazione dei Dati Moderna

L’intelligenza artificiale generativa opera all’interno di un framework encoder-decoder che presenta due reti neurali collaborative. L’encoder elabora i dati di input, condensando le caratteristiche essenziali in un “vettore di contesto”. Questo vettore viene quindi utilizzato dal decoder per compiti generativi, come la traduzione del linguaggio. Questa architettura, che sfrutta reti neurali come le RNN e i Transformer, trova applicazioni in domini diversi, tra cui la traduzione del linguaggio, la generazione di immagini, la sintesi vocale e l’estrazione di entità dei dati. Queste reti eccellono nel modellare relazioni e dipendenze intricate all’interno delle sequenze di dati.

Reti Neurali Ricorrenti

Le reti neurali ricorrenti (RNN) sono state progettate per affrontare compiti di sequenza come la traduzione e la sintesi, eccellendo in determinati contesti. Tuttavia, lottano per la precisione in compiti che coinvolgono dipendenze a lungo raggio.

Le RNN eccellono nell’estrazione di coppie chiave-valore da frasi, ma affrontano difficoltà con strutture a forma di tabella. Affrontare questo richiede una considerazione attenta della sequenza e della posizione, richiedendo approcci specializzati per ottimizzare l’estrazione dei dati da tabelle. Tuttavia, il loro utilizzo è stato limitato a causa di un basso ROI e di prestazioni scarse nella maggior parte dei compiti di elaborazione del testo, anche dopo essere stati addestrati su grandi volumi di dati.

Reti Neurali a Memoria a Lungo Termine

Le reti neurali a memoria a lungo termine (LSTM) emergono come una soluzione che affronta le limitazioni delle RNN, in particolare attraverso un meccanismo di aggiornamento e dimenticanza selettivo. Come le RNN, le LSTM eccellono nell’estrazione di coppie chiave-valore da frasi. Tuttavia, affrontano sfide simili con strutture a forma di tabella, richiedendo una considerazione strategica della sequenza e degli elementi di posizionamento.

Le GPU sono state utilizzate per la prima volta per l’apprendimento profondo nel 2012 per sviluppare il famoso modello di rete neurale convoluzionale AlexNet. Successivamente, alcune RNN sono state addestrate utilizzando GPU, sebbene non abbiano prodotto buoni risultati. Oggi, nonostante la disponibilità di GPU, questi modelli sono in gran parte caduti in disuso e sono stati sostituiti da LLM basati su transformer.

Transformer – Meccanismo di Attenzione

L’introduzione dei transformer, in particolare nel paper rivoluzionario “Attention is All You Need” (2017), ha rivoluzionato il NLP proponendo l’architettura ‘transformer’. Questa architettura consente calcoli paralleli e cattura abilmente le dipendenze a lungo raggio, aprendo nuove possibilità per i modelli linguistici. I LLM come GPT, BERT e OPT hanno sfruttato la tecnologia dei transformer. Al cuore dei transformer si trova il meccanismo di “attenzione”, un contributore chiave alle prestazioni migliorate nell’elaborazione di dati sequenza-per-sequenza.

Il meccanismo di “attenzione” nei transformer calcola una somma ponderata dei valori in base alla compatibilità tra la ‘query’ (prompt di domanda) e la ‘chiave’ (comprensione del modello di ogni parola). Questo approccio consente un’attenzione focalizzata durante la generazione della sequenza, garantendo un’estrazione precisa. Due componenti fondamentali all’interno del meccanismo di attenzione sono l’auto-attenzione, che cattura l’importanza tra le parole nella sequenza di input, e l’attenzione multi-testa, che consente modelli di attenzione diversi per relazioni specifiche.

Nel contesto dell’estrazione di fatture, l’auto-atenzione riconosce la rilevanza di una data menzionata in precedenza quando si estraggono importi di pagamento, mentre l’attenzione multi-testa si concentra in modo indipendente sui valori numerici (importi) e sui modelli testuali (nomi dei fornitori). A differenza delle RNN, i transformer non comprendono intrinsecamente l’ordine delle parole. Per affrontare questo, utilizzano la codifica posizionale per tenere traccia della posizione di ogni parola in una sequenza. Questa tecnica viene applicata sia agli input che agli output, aiutando nell’identificazione delle chiavi e dei valori corrispondenti all’interno di un documento.

La combinazione dei meccanismi di attenzione e della codifica posizionale è vitale per la capacità di un large language model di riconoscere una struttura come tabulare, considerandone il contenuto, lo spazio e i marker testuali. Questa abilità li distingue da altre tecniche di estrazione di dati non strutturati.

Tendenze e Sviluppi Attuali

Lo spazio dell’intelligenza artificiale si sta evolvendo con tendenze e sviluppi promettenti, ridefinendo il modo in cui estraiamo informazioni dai dati non strutturati. Analizziamo i principali aspetti che plasmano il futuro di questo campo.

Sviluppi nei Large Language Model (LLM)

L’intelligenza artificiale generativa sta vivendo una fase trasformativa, con i LLM al centro del palcoscenico nella gestione di dataset complessi e diversi per l’estrazione di dati non strutturati. Due strategie notevoli stanno guidando questi progressi:

Apprendimento Multimodale: i LLM stanno espandendo le loro capacità elaborando simultaneamente vari tipi di dati, tra cui testo, immagini e audio. Questo sviluppo aumenta la loro capacità di estrarre informazioni preziose da fonti diverse, aumentando la loro utilità nell’estrazione di dati non strutturati. I ricercatori stanno esplorando modi efficienti per utilizzare questi modelli, mirando a eliminare la necessità di GPU e consentire l’esecuzione di modelli grandi con risorse limitate.

Applicazioni RAG: La Generazione Assistita dalla Ricerca (RAG) è una tendenza emergente che combina grandi modelli linguistici pre-addestrati con meccanismi di ricerca esterni per migliorare le loro capacità. Accedendo a un vasto corpus di documenti durante il processo di generazione, la RAG trasforma i modelli linguistici di base in strumenti dinamici adattati sia per applicazioni aziendali che per quelle dei consumatori.

Valutazione delle Prestazioni dei LLM

La sfida di valutare le prestazioni dei LLM è affrontata con un approccio strategico, incorporando metriche specifiche del compito e metodologie di valutazione innovative. Sviluppi chiave in questo spazio includono:

Metriche personalizzate: metriche di valutazione personalizzate stanno emergendo per valutare la qualità dei compiti di estrazione delle informazioni. Precisione, richiamo e punteggio F1 sono particolarmente efficaci, specialmente in compiti come l’estrazione di entità.

Valutazione Umana: la valutazione umana rimane fondamentale accanto alle metriche automatizzate, garantendo una valutazione completa dei LLM. Integrando metriche automatizzate con il giudizio umano, i metodi di valutazione ibridi offrono una visione sfumata della correttezza contestuale e della rilevanza delle informazioni estratte.

Elaborazione di Immagini e Documenti

I LLM multimodali hanno completamente sostituito l’OCR. Gli utenti possono convertire testo scansionato da immagini e documenti in testo leggibile dalle macchine, con la capacità di identificare ed estrarre informazioni direttamente da contenuti visivi utilizzando moduli basati sulla visione.

Estrazione di Dati da Collegamenti e Siti Web

I LLM stanno evolvendo per soddisfare la crescente domanda di estrazione di dati da siti web e collegamenti. Questi modelli sono sempre più abili nel web scraping, convertendo dati da pagine web in formati strutturati. Questa tendenza è inestimabile per compiti come la raccolta di notizie, la raccolta di dati e-commerce e l’intelligence competitiva, migliorando la comprensione contestuale ed estraendo dati relazionali dal web.

L’Ascesa dei Piccoli Giganti nell’Intelligenza Artificiale Generativa

La prima metà del 2023 ha visto un focus nello sviluppo di grandi modelli linguistici basati sull’assunzione “più grande è meglio”. Tuttavia, risultati recenti mostrano che modelli più piccoli come TinyLlama e Dolly-v2-3B, con meno di 3 miliardi di parametri, eccellono in compiti come ragionamento e sintesi, guadagnandosi il titolo di “piccoli giganti”. Questi modelli utilizzano meno potenza di calcolo e archiviazione, rendendo l’intelligenza artificiale più accessibile alle piccole aziende senza la necessità di costose GPU.

Conclusione

I primi modelli di intelligenza artificiale generativa, tra cui reti neurali generative antagoniste (GAN) e autoencoder variationali (VAE), hanno introdotto approcci innovativi per la gestione dei dati basati su immagini. Tuttavia, il vero punto di svolta è arrivato con i large language model basati su transformer. Questi modelli hanno superato tutte le tecniche precedenti nell’elaborazione di dati non strutturati grazie alla loro struttura encoder-decoder, all’auto-attenzione e ai meccanismi di attenzione multi-testa, conferendo loro una profonda comprensione del linguaggio e capacità di ragionamento simili a quelle umane.

Mentre l’intelligenza artificiale generativa offre un promettente inizio per l’estrazione di dati testuali da report, la scalabilità di tali approcci è limitata. I primi passi spesso coinvolgono l’elaborazione OCR, che può risultare in errori, e persistono sfide nell’estrazione di testo da immagini all’interno dei report.

L’estrazione di testo all’interno delle immagini nei report è un’altra sfida. Adottare soluzioni come l’elaborazione di dati multimodali e l’estensione del limite di token in GPT-4, Claud3, Gemini offre un percorso promettente. Tuttavia, è importante notare che questi modelli sono accessibili solo attraverso API. Mentre l’uso di API per l’estrazione di dati da documenti è sia efficace che efficiente in termini di costo, presenta una serie di limitazioni come la latenza, il controllo limitato e i rischi per la sicurezza.

Una soluzione più sicura e personalizzabile risiede nell’addestramento di un LLM in-house. Questo approccio non solo mitiga le preoccupazioni relative alla privacy e alla sicurezza dei dati, ma migliora anche il controllo sul processo di estrazione dei dati. L’addestramento di un LLM per la comprensione della disposizione dei documenti e per la comprensione del significato del testo in base al contesto offre un metodo robusto per l’estrazione di coppie chiave-valore e di voci di riga in modo efficiente e preciso attraverso vari domini.

Related Topics:data extraction thought leaders