Lideri de opinie

Înțelegerea Haosului: Rolul LLM în Extragerea Datelor Nestructurate

Publicat 29 mai 2024

Actualizat 21 mai 2026

Jay Mishra, Director operativ la Astera

Recentele avansări în hardware, cum ar fi GPU-ul Nvidia H100, au îmbunătățit semnificativ capacitățile de calcul. Cu de nouă ori viteza GPU-ului Nvidia A100, aceste GPU-uri excelează în gestionarea sarcinilor de învățare profundă. Această avansare a stimulat utilizarea comercială a inteligenței artificiale generative în procesarea limbajului natural (NLP) și în viziunea computerizată, permițând extragerea automată și inteligentă a datelor. Întreprinderile pot acum să convertească cu ușurință datele nestructurate în informații valoroase, marcând un salt semnificativ înainte în integrarea tehnologiei.

Metode Tradiționale de Extracție a Datelor

Introducere Manuală de Date

Surprinzător, multe companii încă se bazează pe introducerea manuală de date, în ciuda disponibilității unor tehnologii mai avansate. Această metodă implică introducerea directă a informațiilor în sistemul țintă. Este adesea mai ușor de adoptat din cauza costurilor inițiale mai scăzute. Cu toate acestea, introducerea manuală de date nu este doar o sarcină monotonă și consumatoare de timp, ci și foarte predispusă la erori. În plus, aceasta prezintă un risc de securitate atunci când se manipulează date sensibile, făcând-o o opțiune mai puțin dorită în era automatizării și a securității digitale.

Recunoașterea Caracterelor Optice (OCR)

Tehnologia OCR, care convertește imagini și conținut scris de mână în date citibile de mașină, oferă o soluție mai rapidă și mai rentabilă pentru extragerea datelor. Cu toate acestea, calitatea poate fi nefiabilă. De exemplu, caracterele precum “S” pot fi interpretate greșit ca “8” și invers.

Performanța OCR este influențată semnificativ de complexitatea și caracteristicile datelor de intrare; funcționează bine cu imagini scanate de înaltă rezoluție, lipsite de probleme precum înclinații de orientare, filigrane sau suprascrieri. Cu toate acestea, întâmpină dificultăți cu textul scris de mână, mai ales atunci când aspectele vizuale sunt intricate sau greu de procesat. Adaptările pot fi necesare pentru rezultate îmbunătățite atunci când se manipulează intrări textuale. Uneltele de extragere a datelor de pe piață, care folosesc OCR ca tehnologie de bază, adesea adaugă straturi și straturi de post-procesare pentru a îmbunătăți acuratețea datelor extrase. Cu toate acestea, aceste soluții nu pot garanta rezultate cu 100% acurate.

Asocierea Șabloanelor de Text

Asocierea șabloanelor de text este o metodă pentru identificarea și extragerea informațiilor specifice din text, utilizând reguli sau șabloane predefinite. Este mai rapidă și oferă un randament mai ridicat decât alte metode. Este eficientă la toate nivelurile de complexitate și atinge 100% acuratețe pentru fișiere cu layouturi similare.

Cu toate acestea, rigiditatea sa în ceea ce privește asocierile cuvânt cu cuvânt poate limita adaptabilitatea, necesitând o potrivire exactă de 100% pentru extragerea cu succes. Provocările cu sinonime pot duce la dificultăți în identificarea termenilor echivalenți, cum ar fi diferențierea “vremii” de “climă”. De asemenea, asocierea șabloanelor de text prezintă sensibilitate contextuală, lipsindu-i conștientizarea multiplă a înțelesurilor în diferite contexte. Găsirea echilibrului corect între rigiditate și adaptabilitate rămâne o provocare constantă în utilizarea eficientă a acestei metode.

Recunoașterea Entităților Nume (NER)

Recunoașterea entităților nume (NER), o tehnică NLP, identifică și categorizează informații cheie în text.

Extragerile NER sunt limitate la entități predefinite, cum ar fi numele organizațiilor, locațiilor, numelor personale și datelor. Cu alte cuvinte, sistemele NER actuale lipsesc capacitatea inerentă de a extrage entități personalizate dincolo de setul predefinit, care ar putea fi specifice unui anumit domeniu sau caz de utilizare. În al doilea rând, accentul NER asupra valorilor cheie asociate cu entitățile recunoscute nu se extinde la extragerea datelor din tabele, limitându-i aplicabilitatea la tipuri de date mai complexe sau structurate.

Pe măsură ce organizațiile se confruntă cu cantități tot mai mari de date nestructurate, aceste provocări subliniază nevoia unei abordări cuprinzătoare și scalabile pentru metodologiile de extragere.

Deblocarea Datelor Nestructurate cu LLM

Utilizarea modelelor de limbaj mari (LLM) pentru extragerea datelor nestructurate este o soluție convingătoare cu avantaje distincte care abordează provocări critice.

Extragerea Datelor Conștientă de Context

LLM-urile posedă o înțelegere puternică a contextului, dezvoltată prin antrenarea pe seturi de date mari. Capacitatea lor de a merge dincolo de suprafață și de a înțelege nuanțele contextuale le face valoroase în gestionarea diverselor sarcini de extragere a informațiilor. De exemplu, atunci când li se cere să extragă valori meteo, ele capturează informația intenționată și iau în considerare elemente conexe, cum ar fi valorile climatice, integrându-le în mod natural sinonime și semantice. Acest nivel avansat de înțelegere stabilește LLM-urile ca o alegere dinamică și adaptabilă în domeniul extragerii datelor.

Utilizarea Capabilităților de Procesare Paralelă

LLM-urile utilizează procesarea paralelă, făcând sarcinile mai rapide și mai eficiente. În contrast cu modelele secvențiale, LLM-urile optimizează distribuția resurselor, rezultând o accelerare a sarcinilor de extragere a datelor. Acest lucru îmbunătățește viteza și contribuie la performanța generală a procesului de extragere.

Adaptarea la Diverse Tipuri de Date

În timp ce anumite modele, cum ar fi Rețelele Neuronale Recurente (RNN), sunt limitate la secvențe specifice, LLM-urile gestionează date non-specifice secvențiale, adaptându-se cu ușurință la structuri de propoziții diverse. Această versatilitate cuprinde diverse forme de date, cum ar fi tabele și imagini.

Îmbunătățirea Conductelor de Procesare

Utilizarea LLM-urilor marchează o schimbare semnificativă în automatizarea atât a etapelor de preprocesare, cât și a celor de post-procesare. LLM-urile reduc nevoia de efort manual prin automatizarea proceselor de extragere cu acuratețe, simplificând gestionarea datelor nestructurate. Antrenarea lor pe seturi de date diverse le permite să identifice modele și corelații pe care metodele tradiționale le-au ratat.

Sursă: O conductă de inteligență artificială generativă

Această figură a unei conducte de inteligență artificială generativă ilustrează aplicabilitatea modelelor precum BERT, GPT și OPT în extragerea datelor. Aceste LLM-uri pot efectua diverse operații NLP, inclusiv extragerea datelor. De obicei, modelul de inteligență artificială generativă oferă un prompt care descrie datele dorite, iar răspunsul conține datele extrase. De exemplu, un prompt precum “Extrageți numele tuturor furnizorilor din această comandă de achiziție” poate produce un răspuns care conține toate numele furnizorilor prezenți în raportul semi-structurat. Ulterior, datele extrase pot fi analizate și încărcate într-o tabelă de baze de date sau într-un fișier plat, facilitând integrarea lor fără probleme în fluxurile de lucru ale organizației.

Evoluția Cadrului Inteligenței Artificiale: De la RNN la Transformatori în Extracția Modernă de Date

Inteligența artificială generativă funcționează într-un cadru encoder-decoder, cu două rețele neuronale colaborative. Encoderul procesează datele de intrare, condensând caracteristicile esențiale într-un “Vector de Context”. Acest vector este apoi utilizat de decoder pentru sarcini generative, cum ar fi traducerea limbajului. Această arhitectură, care utilizează rețele neuronale precum RNN și Transformatori, găsește aplicații în diverse domenii, inclusiv traducerea mașinilor, generarea de imagini, sinteza vorbirii și extragerea entităților de date. Aceste rețele excelează în modelarea relațiilor și dependențelor complexe din interiorul secvențelor de date.

Rețele Neuronale Recurente

Rețelele Neuronale Recurente (RNN) au fost proiectate pentru a aborda sarcini de secvență, cum ar fi traducerea și rezumarea, excelând în anumite contexte. Cu toate acestea, ele se confruntă cu dificultăți în ceea ce privește acuratețea în sarcini care implică dependențe pe termen lung.

RNN-urile excelează în extragerea perechilor cheie-valoare din propoziții, dar se confruntă cu dificultăți în ceea ce privește structurile de tip tabel. Abordarea acestor provocări necesită o considerare atentă a secvenței și a plasamentului pozițional, necesitând abordări specializate pentru a optimiza extragerea datelor din tabele. Cu toate acestea, adoptarea lor a fost limitată din cauza randamentului scăzut și a performanței subpar în majoritatea sarcinilor de procesare a textului, chiar și după antrenarea pe volume mari de date.

Rețele Neuronale cu Memorie pe Termen Lung

Rețelele Neuronale cu Memorie pe Termen Lung (LSTM) apar ca o soluție care abordează limitările RNN, în special prin mecanismul de actualizare și uitare selectivă. La fel ca RNN-urile, LSTM-urile excelează în extragerea perechilor cheie-valoare din propoziții, dar se confruntă cu provocări similare cu structurile de tip tabel, necesitând o considerare strategică a secvenței și a elementelor poziționale.

GPU-urile au fost utilizate pentru prima dată în învățarea profundă în 2012 pentru a dezvolta celebrul model CNN AlexNet. Ulterior, unele RNN-uri au fost, de asemenea, antrenate folosind GPU-uri, deși nu au dat rezultate bune. Astăzi, în ciuda disponibilității GPU-urilor, aceste modele au căzut în mare parte în desuetudine și au fost înlocuite cu LLM-uri bazate pe transformatori.

Transformator – Mecanism de Atenție

Introducerea transformatorilor, remarcați în special în articolul revoluționar “Atenția este tot ce ai nevoie” (2017), a revoluționat NLP prin propunerea arhitecturii “transformator”. Această arhitectură permite computații paralele și capturează cu îndemânare dependențele pe termen lung, deblocând noi posibilități pentru modelele de limbaj. LLM-urile precum GPT, BERT și OPT au utilizat tehnologia transformatorilor. În inima transformatorilor se află mecanismul “atenție”, un contributor cheie la performanța îmbunătățită în procesarea secvențială a datelor.

Mecanismul “atenție” din transformatori calculează o sumă ponderată a valorilor pe baza compatibilității dintre “cerere” (promptul întrebării) și “cheie” (înțelegerea modelului pentru fiecare cuvânt). Această abordare permite atenția concentrată în timpul generării secvențiale, asigurând extragerea precisă. Două componente cheie din mecanismul de atenție sunt Atenția de Sine, care capturează importanța dintre cuvinte în secvența de intrare, și Atenția Multi-Cap, care permite tipare de atenție diverse pentru relații specifice.

În contextul extragerii facturilor, Atenția de Sine recunoaște relevanța unei date menționate anterior atunci când se extrag sume de plată, în timp ce Atenția Multi-Cap se concentrează independent pe valori numerice (sume) și tipare textuale (nume de furnizori). În contrast cu RNN-urile, transformatorii nu înțeleg în mod inerent ordinea cuvintelor. Pentru a aborda acest lucru, ei utilizează codificarea pozițională pentru a urmări locul fiecărui cuvânt într-o secvență. Această tehnică este aplicată atât embedărilor de intrare, cât și celor de ieșire, ajutând la identificarea cheilor și valorilor corespunzătoare într-un document.

Combinația mecanismelor de atenție și a codificărilor poziționale este vitală pentru capacitatea unui model de limbaj mare de a recunoaște o structură ca fiind tabulară, luând în considerare conținutul, spațiul și markerii de text. Această abilitate o diferențiază de alte tehnici de extragere a datelor nestructurate.

Tendințe și Dezvoltări Actuale

Spatiul inteligenței artificiale se desfășoară cu tendințe și dezvoltări promițătoare, remodelând modul în care extragem informații din datele nestructurate. Să explorăm aspectele cheie care modelează viitorul acestui domeniu.

Avansări în Modelele de Limbaj Mare (LLM)

Inteligența artificială generativă traversează o fază transformatoare, cu LLM-urile ocupând centrul atenției în gestionarea seturilor de date complexe și diverse pentru extragerea datelor nestructurate. Două strategii notabile impulsionează aceste avansări:

Învățarea Multimodală: LLM-urile își extind capacitățile prin procesarea simultană a diferitelor tipuri de date, inclusiv text, imagini și audio. Această dezvoltare îmbunătățește capacitatea lor de a extrage informații valoroase din surse diverse, sporind utilitatea lor în extragerea datelor nestructurate. Cercetătorii explorează modalități eficiente de a utiliza aceste modele, vizând eliminarea necesității GPU-urilor și permiterea funcționării modelelor mari cu resurse limitate.

Aplicații RAG: Generarea Augmentată de Recuperare (RAG) este o tendință emergentă care combină modele de limbaj pre-antrenate cu mecanisme de căutare externe pentru a îmbunătăți capacitățile lor. Prin accesarea unui corpus vast de documente în timpul procesului de generare, RAG transformă modelele de limbaj de bază în instrumente dinamice adaptate atât pentru aplicații comerciale, cât și pentru cele ale consumatorilor.

Evaluarea Performanței LLM

Provocarea evaluării performanței LLM-urilor este abordată cu o abordare strategică, integrând metrice specifice sarcinilor și metodologii inovatoare de evaluare. Dezvoltări cheie în acest spațiu includ:

Metrice fine-tunate: Metricele de evaluare specializate pentru sarcinile de extragere a informațiilor sunt în curs de dezvoltare. Precizia, rechemarea și scorul F1 se dovedesc a fi eficiente, în special în sarcini precum extragerea entităților.

Evaluarea Umană: Evaluarea umană rămâne esențială alături de metricele automate, asigurând o evaluare cuprinzătoare a LLM-urilor. Integrarea metricelor automate cu judecata umană, metodele de evaluare hibride oferă o perspectivă nuanțată asupra corectitudinii contextuale și a relevanței informațiilor extrase.

Procesarea Imaginilor și a Documentelor

LLM-urile multimodale au înlocuit complet OCR-ul. Utilizatorii pot converti textul scanat din imagini și documente în text citibil de mașină, cu capacitatea de a identifica și extrage informații direct din conținutul vizual, utilizând module bazate pe vedere.

Extragerea Datelor din Legături și Site-uri Web

LLM-urile evoluează pentru a răspunde cererii crescânde de extragere a datelor de pe site-urile web și legăturile web. Aceste modele devin tot mai pricepute în extragerea datelor de pe web, convertind datele de pe paginile web în formate structurate. Această tendință este de neprețuit pentru sarcini precum agregarea știrilor, colectarea datelor de comerț electronic și inteligența competitivă, îmbunătățind înțelegerea contextuală și extrăgând date relationale de pe web.

Ascensiunea “Giganților Mici” în Inteligența Artificială Generativă

Prima jumătate a anului 2023 a fost marcată de o focalizare pe dezvoltarea unor modele de limbaj mari, bazate pe presupunerea “cu cât mai mare, cu atât mai bine”. Cu toate acestea, rezultatele recente arată că modele mai mici, cum ar fi TinyLlama și Dolly-v2-3B, cu mai puțin de 3 miliarde de parametri, excelează în sarcini precum raționamentul și rezumarea, câștigând titlul de “giganți mici”. Aceste modele utilizează mai puțină putere de calcul și spațiu de stocare, făcând inteligența artificială mai accesibilă pentru companii mai mici, fără a necesita GPU-uri scumpe.

Concluzie

Modelele inițiale de inteligență artificială generativă, inclusiv rețelele generative adverse (GAN) și auto-encoderii variaționali (VAE), au introdus abordări noi pentru gestionarea datelor bazate pe imagini. Cu toate acestea, adevărata ruptură a apărut odată cu modelele de limbaj mari bazate pe transformatori. Aceste modele au depășit toate tehnicile anterioare în procesarea datelor nestructurate, datorită structurii lor encoder-decoder, a atenției de sine și a atenției multi-cap, conferindu-le o înțelegere profundă a limbajului și capacități de raționament uman.

Deși inteligența artificială generativă oferă un început promițător pentru extragerea datelor textuale din rapoarte, scalabilitatea unor astfel de abordări este limitată. Pașii inițiali implică adesea procesarea OCR, care poate rezulta în erori, iar provocările persistă în extragerea textului din imagini din interiorul rapoartelor.

În schimb, extragerea textului din interiorul imaginilor din rapoarte reprezintă o altă provocare. Adoptarea soluțiilor precum procesarea multimodală a datelor și extinderea limitelor de token în GPT-4, Claud3, Gemini oferă o cale promițătoare înainte. Cu toate acestea, este important de remarcat că aceste modele sunt accesibile doar prin intermediul API-urilor. În timp ce utilizarea API-urilor pentru extragerea datelor din documente este atât eficientă, cât și rentabilă, vine cu propriile limitări, cum ar fi latența, controlul limitat și riscurile de securitate.

O soluție mai sigură și personalizabilă constă în ajustarea unui model LLM intern. Acestă abordare nu numai că mitigează preocupările legate de confidențialitatea și securitatea datelor, dar oferă și un control sporit asupra procesului de extragere a datelor. Ajustarea unui LLM pentru înțelegerea layout-ului documentului și pentru înțelegerea sensului textului în funcție de context oferă o metodă robustă pentru extragerea perechilor cheie-valoare și a articolelor. Utilizând învățarea zero-shot și few-shot, un model ajustat poate adapta diverse layout-uri de documente, asigurând o extragere eficientă și precisă a datelor nestructurate în diverse domenii.