Tankeledere

At giver mening i rod: LLMs rolle i udtrækning af ukontroleret data

Published May 29, 2024

Updated April 27, 2026

Jay Mishra, COO at Astera

Seneste fremgang i hardware som f.eks. Nvidia H100 GPU, har betydeligt forbedret beregningskapaciteterne. Med ni gange hastigheden af Nvidia A100, er disse GPU’er uovertrufne til at håndtere dybe læringsskærmprocesser. Denne fremgang har fremmet den kommercielle brug af generativ AI i naturlig sprogbehandling (NLP) og computerseende, og muliggjort automatiseret og intelligent dataudtrækning. Virksomheder kan nu let omdanne ukontroleret data til værdifulde indsigt, og markerer et betydeligt skridt fremad i teknologiintegration.

Traditionelle metoder til dataudtrækning

Manuel dataindtastning

Forbløffende nok afhænger mange virksomheder stadig af manuel dataindtastning, på trods af tilgængeligheden af mere avancerede teknologier. Denne metode indebærer at taste informationer direkte ind i målsystemet. Det er ofte lettere at tilpasse på grund af de lavere initialomkostninger. Men manuel dataindtastning er ikke kun kedelig og tidskrævende, men også meget fejlbehæftet. Derudover udgør det en sikkerhedsrisiko, når der håndteres følsomme data, hvilket gør det til en mindre ønskværdig mulighed i automationens og digitale sikkerheds tidsalder.

Optisk tegnkendelse (OCR)

OCR-teknologien, der konverterer billeder og håndskrevne indhold til maskinlæsbart data, tilbyder en hurtigere og mere omkostningseffektiv løsning til dataudtrækning. Men kvaliteten kan være utilstrækkelig. F.eks. kan tegn som “S” misfortolkes som “8” og omvendt.

OCR’s præstation er betydeligt påvirket af kompleksiteten og egenskaberne hos inputdataen; det fungerer godt med højopløselige scannede billeder fri for problemer som f.eks. orienteringsvinkler, vandmærker eller overskrivning. Men det støder på udfordringer med håndskrevne tekster, især når visualiseringerne er komplekse eller svære at bearbejde. Tilpasninger kan være nødvendige for at forbedre resultaterne, når der håndteres tekstindtastninger. Dataudtrækningværktøjerne på markedet med OCR som grundlæggende teknologi lægger ofte lag på lag af efterbehandling for at forbedre nøjagtigheden af den udtrukne data. Men disse løsninger kan ikke garantere 100% nøjagtige resultater.

Tekst mønstermatchning

Tekst mønstermatchning er en metode til at identificere og udtrække specifik information fra tekst ved hjælp af foruddefinerede regler eller mønstre. Det er hurtigere og tilbyder en højere ROI end andre metoder. Det er effektivt på alle niveauer af kompleksitet og opnår 100% nøjagtighed for filer med lignende layout.

Men dets rigiditet i ord-for-ord-matches kan begrænse tilpasningen, og kræver en 100% præcis match for succesfuld udtrækning. Udfordringer med synonymer kan føre til vanskeligheder ved at identificere ækvivalente termer, som f.eks. at skelne mellem “vejr” og “klima.”Desuden viser Tekst Mønstermatchning kontekstfølsomhed, og manglede bevidsthed om multiple betydninger i forskellige kontekster. At finde den rette balance mellem rigiditet og tilpasning er en konstant udfordring i at anvende denne metode effektivt.

Navngivet enhedsigenkendelse (NER)

Navngivet enhedsigenkendelse (NER), en NLP-teknik, identificerer og kategoriserer nøgleinformation i tekst.

NER’s udtrækninger er begrænsede til foruddefinerede enheder som f.eks. organisationsnavne, lokaliteter, personnavne og datoer. Med andre ord mangler NER-systemer i øjeblikket den indbyggede evne til at udtrække brugerdefinerede enheder ud over denne foruddefinerede sæt, som kunne være specifikke for en bestemt domæne eller brugsform. For det andet er NER’s fokus på nøgleværdier forbundet med erkendte enheder ikke udvidet til dataudtrækning fra tabeller, hvilket begrænser dets anvendelighed til mere komplekse eller strukturerede datatyper.

Da organisationer har at gøre med en stigende mængde ukontroleret data, fremhæver disse udfordringer behovet for en omfattende og skalerbar tilgang til udtrækmetoder.

At låse op ukontroleret data med LLMs

At udnytte store sprogmodeller (LLMs) til ukontroleret dataudtrækning er en overbevisende løsning med distinkte fordele, der tilgår kritiske udfordringer.

Kontekstbevidt dataudtrækning

LLMs besidder en stærk kontekstforståelse, der er udviklet gennem omfattende træning på store datasæt. Deres evne til at gå ud over overfladen og forstå kontekstens kompleksiteter gør dem værdifulde i håndtering af diverse informationsudtrækopgaver. F.eks. når de er opgaven at udtrække vejrværdier, fanger de den ønskede information og tager hensyn til relaterede elementer som f.eks. klimaværdier, og integrerer på en naturlig måde synonymer og semantik. Denne avancerede niveau af forståelse etablerer LLMs som en dynamisk og tilpasningsdygtig valgmulighed i domænet for dataudtrækning.

At udnytte parallel proceskapaciteter

LLMs anvender parallel procesering, hvilket gør opgaverne hurtigere og mere effektive. I modsætning til sekventielle modeller optimerer LLMs resourcedistributionen, hvilket resulterer i accelererede dataudtrækopgaver. Dette forbedrer hastigheden og bidrager til dataudtrækprocessens samlede præstation.

At tilpasse sig forskellige datatyper

Mens nogle modeller som f.eks. Recurrent Neural Networks (RNNs) er begrænsede til bestemte sekvenser, kan LLMs håndtere ikke-sekvensspecifik data, og kan omgående håndtere diverse sætningsstrukturer. Denne fleksibilitet omfatter diverse dataformer som f.eks. tabeller og billeder.

At forbedre procespipeliner

Anvendelsen af LLMs markerer en betydelig skift i automatiseringen af både forarbejdnings- og efterarbejdningsfaser. LLMs reducerer behovet for manuel indsats ved at automatisere udtrækprocesser nøjagtigt, og strømliner håndtering af ukontroleret data. Deres omfattende træning på diverse datasæt giver dem mulighed for at identificere mønstre og korrelationer, som traditionelle metoder ikke kan nå.

Kilde: En pipeline på Generative AI

Denne figur af en generativ AI-pipeline illustrerer anvendeligheden af modeller som f.eks. BERT, GPT og OPT i dataudtrækning. Disse LLMs kan udføre forskellige NLP-operationer, herunder dataudtrækning. Typisk giver den generative AI-model en prompt, der beskriver den ønskede data, og den efterfølgende respons indeholder den udtrukne data. F.eks. kan en prompt som “Udtræk alle leverandørnavne fra denne købsordre” give en respons, der indeholder alle leverandørnavne i den semistrukturerede rapport. Herefter kan den udtrukne data parses og indlæses i en database eller en flad fil, hvilket muliggør en problemfri integration i virksomhedens arbejdsprocesser.

Udviklingen af AI-rammer: RNNs til Transformers i moderne dataudtrækning

Generativ AI opererer inden for en encoder-decoder-ramme, der består af to samarbejdende neurale netværk. Encoderen behandler inputdata og kondenserer væsentlige funktioner i en “kontekstvektor”. Denne vektor anvendes herefter af decoderen til generative opgaver, såsom sprogoversættelse. Denne arkitektur, der udnytter neurale netværk som f.eks. RNNs og Transformers, finder anvendelser i diverse domæner, herunder maskinoversættelse, billedegenerering, tale syntese og dataentitetsudtrækning. Disse netværk excellerer i at modelere komplekse relationer og afhængigheder inden for datasekvenser.

Recurrent Neural Networks

Recurrent Neural Networks (RNNs) er designet til at tackle sekvensopgaver som f.eks. oversættelse og sammenfatning, og excellerer i visse kontekster. Men de kæmper med nøjagtighed i opgaver, der indebærer lange afhængigheder.

RNNs excellerer i at udtrække nøgle-værdi-par fra sætninger, men har svært ved at håndtere tabel-lignende strukturer. Dette kræver omhyggelig overvejelse af sekvens og position, og kræver specialiserede tilgange til at optimere dataudtrækning fra tabeller. Men deres anvendelse var begrænset på grund af lav ROI og undermiddelbar præstation på de fleste tekstbehandlingsopgaver, selv efter at have været trænet på store mængder data.

Long Short-Term Memory Networks

Long Short-Term Memory (LSTMs) netværk opstår som en løsning, der adresserer begrænsningerne af RNNs, især gennem en selektiv opdatering og glemselmechanisme. Ligesom RNNs excellerer LSTMs i at udtrække nøgle-værdi-par fra sætninger,. Men de støder på lignende udfordringer med tabel-lignende strukturer, og kræver en strategisk overvejelse af sekvens og positionselementer.

GPU’er blev først brugt til dyb læring i 2012 til at udvikle den berømte AlexNet CNN-model. Herefter blev nogle RNNs også trænet ved hjælp af GPU’er, selv om de ikke gav gode resultater. I dag, på trods af tilgængeligheden af GPU’er, er disse modeller stort set gået af brug og er blevet erstattet af transformer-baserede LLMs.

Transformer – Attention Mechanism

Introduktionen af transformers, især i den banebrydende “Attention is All You Need” artikel (2017), revolutionerede NLP ved at foreslå ‘transformer’-arkitekturen. Denne arkitektur muliggør parallel beregning og fanger på en dygtig måde lange afhængigheder, og åbner nye muligheder for sprogmodeller. LLMs som f.eks. GPT, BERT og OPT har udnyttet transformer-teknologi. I hjertet af transformers ligger “opmærksomheds”-mekanismen, en nøglebidrager til forbedret præstation i sekvens-til-sekvens databehandling.

“Opmærksomheds”-mekanismen i transformers beregner en vægtet sum af værdier baseret på kompatibiliteten mellem ‘spørgsmål’ (prompt) og ‘nøgle’ (modellens forståelse af hvert ord). Denne tilgang tillader fokuseret opmærksomhed under sekvensgenerering, og sikrer præcis udtrækning. To centrale komponenter inden for opmærksomheds-mekanismen er Selv-Opmærksomhed, der fanger vigtigheden mellem ord i inputsekvensen, og Multi-Hoved-Opmærksomhed, der muliggør diverse opmærksomheds-mønstre for specifikke relationer.

I konteksten af fakturaudtrækning genkender Selv-Opmærksomhed relevansen af en tidligere nævnt dato, når der udtrækkes betalingsbeløb, mens Multi-Hoved-Opmærksomhed fokuserer uafhængigt på numeriske værdier (beløb) og tekstlige mønstre (leverandørnavne). I modsætning til RNNs forstår transformers ikke inherent rækkefølgen af ord. For at adressere dette anvender de positionskodning til at spore hver ordets plads i en sekvens. Denne teknik anvendes til både input- og output-embedding, og hjælper med at identificere nøgler og deres korresponderende værdier inden for en dokument.

Kombinationen af opmærksomheds-mekanismer og positionskodning er afgørende for en stor sprogmodels evne til at genkende en struktur som tabel-lignende, og tage hensyn til dens indhold, afstand og tekstmarkører. Denne færdighed adskiller dem fra andre ukontroleret dataudtrækmetoder.

Nuværende tendenser og udviklinger

AI-rummet udvikler sig med lovende tendenser og udviklinger, der omformulerer måden, vi udtrækker information fra ukontroleret data. Lad os dykke ned i de centrale aspekter, der former fremtiden for dette felt.

Fremgang i store sprogmodeller (LLMs)

Generativ AI oplever en transformerende fase, hvor LLMs tager centerpladsen i håndtering af komplekse og diverse datasæt til ukontroleret dataudtrækning. To bemærkelsesværdige strategier driver disse fremgang:

Multimodal læring: LLMs udvider deres kapaciteter ved samtidigt at behandle forskellige typer data, herunder tekst, billeder og lyd. Denne udvikling forbedrer deres evne til at udtrække værdifuld information fra diverse kilder, og øger deres anvendelighed i ukontroleret dataudtrækning. Forskere udforsker effektive måder at anvende disse modeller på, og sigter mod at eliminere behovet for GPU’er og muliggøre drift af store modeller med begrænsede ressourcer.

RAG-Anvendelser: Retrieval Augmented Generation (RAG) er en opstående tendens, der kombinerer store forudtrænede sprogmodeller med eksterne søgemekanismer for at forbedre deres kapaciteter. Ved at få adgang til et stort korpus af dokumenter under generationsprocessen, transformerer RAG grundlæggende sprogmodeller til dynamiske værktøjer tilpasset til både forretnings- og forbrugeranvendelser.

At evaluere LLM-præstation

Udfordringen med at evaluere LLMs’ præstation mødes med en strategisk tilgang, der inkorporerer opgave-specifikke metrikker og innovative evalueringmetoder. Centrale udviklinger i dette område omfatter:

Fine-tuned metrikker: Tilpassede evalueringmetrikker opstår for at vurdere kvaliteten af informationsudtrækopgaver. Præcision, genkald og F1-score metrikker viser sig at være effektive, især i opgaver som f.eks. enhedsudtrækning.

Menneskelig evaluering: Menneskelig vurdering forbliver afgørende sammen med automatiserede metrikker, og sikrer en omfattende evaluering af LLMs. Integration af automatiserede metrikker med menneskelig vurdering giver en nuanceret vurdering af kontekstuel korrekthed og relevans i den udtrukne information.

Billede- og dokumentbehandling

Multimodale LLMs har fuldstændigt erstattet OCR. Brugere kan konvertere scannet tekst fra billeder og dokumenter til maskinlæsbart tekst, og kan identificere og udtrække information direkte fra visuelt indhold ved hjælp af vision-baserede moduler.

Dataudtrækning fra links og websteder

LLMs udvikler sig for at møde den stigende efterspørgsel efter dataudtrækning fra websteder og web-links. Disse modeller bliver mere dygtige til web-skrapning, og kan konvertere data fra websteder til strukturerede formater. Denne tendens er uvurderlig for opgaver som f.eks. nyhedsaggregering, e-handelsdataindsamling og konkurrencedygtig intelligens, og forbedrer kontekstuel forståelse og udtrækning af relationel data fra websteder.

Opkomsten af små kæmper i generativ AI

Første halvår af 2023 så en fokus på udvikling af enorme sprogmodeller baseret på antagelsen “jo større, jo bedre”. Men senere resultater viser, at mindre modeller som f.eks. TinyLlama og Dolly-v2-3B, med færre end 3 milliarder parametre, excellerer i opgaver som f.eks. resonnering og sammenfatning, og har fortjent titlen “små kæmper”. Disse modeller anvender mindre beregningskraft og lagring, og gør AI mere tilgængelig for mindre virksomheder uden behov for dyre GPU’er.

Konklusion

Tidlige generative AI-modeller, herunder generative adversarial networks (GANs) og variational auto encoders (VAEs), introducerede nye tilgange til håndtering af billede-baseret data. Men den egentlige gennembrud kom med transformer-baserede store sprogmodeller. Disse modeller overgik alle tidligere teknikker i ukontroleret databehandling på grund af deres encoder-decoder-struktur, selv-opmærksomhed og multi-hoved-opmærksomheds-mekanismer, og gav dem en dyb forståelse af sprog og mulighed for menneske-lignende resonneringskapaciteter.

Men generativ AI, tilbyder en lovende start på at udtrække tekstbaseret data fra rapporter, er skalerbarheden af disse tilgange begrænset. De første skridt indebærer ofte OCR-behandling, som kan resultere i fejl, og udfordringer består i at udtrække tekst fra billeder inden for rapporter.

At udtrække tekst inde i billeder i rapporter er en anden udfordring. At acceptere løsninger som multimodal databehandling og token-grænse-udvidelser i GPT-4, Claud3, Gemini tilbyder en lovende vej fremad. Men det er vigtigt at bemærke, at disse modeller kun er tilgængelige gennem API’er. Selv om brug af API’er til dataudtrækning fra dokumenter er både effektivt og omkostningseffektivt, kommer det med sine egne begrænsninger som f.eks. latency, begrænset kontrol og sikkerhedsrisici.

En mere sikker og tilpasset løsning ligger i at tilpasse en intern LLM. Denne tilgang eliminerer ikke kun data-integritets- og sikkerhedsbekymringer, men forbedrer også kontrollen over dataudtrækprocessen. At tilpasse en LLM til dokument-layout-forståelse og til at fatte meningen af tekst baseret på dens kontekst tilbyder en robust metode til at udtrække nøgle-værdi-par og linje-artikler. Ved at udnytte zero-shot og few-shot læring kan en tilpasset model tilpasse sig diverse dokument-layouts, og sikre en effektiv og præcis udtrækning af ukontroleret data på tværs af forskellige domæner.

Related Topics:data extraction thought leaders