Anslut dig till vÄrt nÀtverk!

Att förstÄ röran: LLM:s roll i ostrukturerad dataextraktion

Tanke ledare

Att förstÄ röran: LLM:s roll i ostrukturerad dataextraktion

mm

publicerade

 on

Senaste framsteg inom hĂ„rdvara som Nvidia H100 GPU, har avsevĂ€rt förbĂ€ttrade berĂ€kningsmöjligheter. Med nio gĂ„nger hastigheten hos Nvidia A100, dessa GPU:er utmĂ€rker sig nĂ€r det gĂ€ller att hantera djupinlĂ€rningsarbetsbelastningar. Detta framsteg har sporrat den kommersiella anvĂ€ndningen av generativ AI i naturlig sprĂ„kbehandling (NLP) och datorseende, vilket möjliggör automatiserad och intelligent dataextraktion. Företag kan nu enkelt omvandla ostrukturerad data till vĂ€rdefulla insikter, vilket markerar ett betydande steg framĂ„t i teknikintegration. 

Traditionella metoder för dataextraktion 

Manuell datainmatning 

Överraskande nog förlitar sig mĂ„nga företag fortfarande pĂ„ manuell datainmatning, trots tillgĂ„ngen till mer avancerad teknik. Denna metod involverar handinmatning av information direkt i mĂ„lsystemet. Det Ă€r ofta lĂ€ttare att anvĂ€nda pĂ„ grund av dess lĂ€gre initiala kostnader. Manuell datainmatning Ă€r dock inte bara trĂ„kig och tidskrĂ€vande utan ocksĂ„ mycket risk för fel. Dessutom utgör det en sĂ€kerhetsrisk vid hantering av kĂ€nsliga data, vilket gör det till ett mindre önskvĂ€rt alternativ i en tid av automatisering och digital sĂ€kerhet. 

Optisk teckenigenkĂ€nning (OCR)  

OCR-teknik, som omvandlar bilder och handskrivet innehĂ„ll till maskinlĂ€sbar data, erbjuder en snabbare och mer kostnadseffektiv lösning för dataextraktion. Kvaliteten kan dock vara opĂ„litlig. Till exempel kan tecken som "S" misstolkas som "8" och vice versa.  

OCR:s prestanda pĂ„verkas avsevĂ€rt av komplexiteten och egenskaperna hos indata; det fungerar bra med högupplösta skannade bilder utan problem som orienteringsvinklar, vattenstĂ€mplar eller överskrivning. Den möter dock utmaningar med handskriven text, sĂ€rskilt nĂ€r det visuella Ă€r invecklat eller svĂ„rt att bearbeta. Anpassningar kan vara nödvĂ€ndiga för förbĂ€ttrade resultat vid hantering av textinmatningar. Dataextraktionsverktygen pĂ„ marknaden med OCR som basteknik lĂ€gger ofta lager och lager av efterbearbetning för att förbĂ€ttra noggrannheten hos den extraherade datan. Men dessa lösningar kan inte garantera 100 % korrekta resultat.  

Matchning av textmönster 

Textmönstermatchning Ă€r en metod för att identifiera och extrahera specifik information frĂ„n text med hjĂ€lp av fördefinierade regler eller mönster. Det Ă€r snabbare och erbjuder en högre ROI Ă€n andra metoder. Det Ă€r effektivt pĂ„ alla nivĂ„er av komplexitet och uppnĂ„r 100 % noggrannhet för filer med liknande layouter.  

Emellertid kan dess stelhet i ord-för-ord-matchningar begrĂ€nsa anpassningsförmĂ„gan, vilket krĂ€ver en 100% exakt matchning för framgĂ„ngsrik extraktion. Utmaningar med synonymer kan leda till svĂ„righeter att identifiera likvĂ€rdiga termer, som att skilja "vĂ€der" frĂ„n "klimat". Dessutom uppvisar textmönstermatchning kontextuell kĂ€nslighet, utan medvetenhet om flera betydelser i olika sammanhang. Att hitta den rĂ€tta balansen mellan stelhet och anpassningsförmĂ„ga Ă€r fortfarande en stĂ€ndig utmaning nĂ€r det gĂ€ller att anvĂ€nda denna metod effektivt. 

Named Entity Recognition (NER)  

Named entity recognition (NER), en NLP-teknik, identifierar och kategoriserar nyckelinformation i text. 

NER:s extraktioner Ă€r begrĂ€nsade till fördefinierade enheter som organisationsnamn, platser, personnamn och datum. Med andra ord saknar NER-system för nĂ€rvarande den inneboende förmĂ„gan att extrahera anpassade enheter utöver denna fördefinierade uppsĂ€ttning, som kan vara specifik för en viss domĂ€n eller anvĂ€ndningsfall. För det andra strĂ€cker sig NER:s fokus pĂ„ nyckelvĂ€rden förknippade med erkĂ€nda enheter inte till dataextraktion frĂ„n tabeller, vilket begrĂ€nsar dess tillĂ€mpbarhet till mer komplexa eller strukturerade datatyper. 

 NĂ€r organisationer hanterar ökande mĂ€ngder ostrukturerad data, belyser dessa utmaningar behovet av ett heltĂ€ckande och skalbart tillvĂ€gagĂ„ngssĂ€tt för utvinningsmetoder. 

LĂ„sa upp ostrukturerad data med LLM 

Att utnyttja stora sprĂ„kmodeller (LLM) för ostrukturerad dataextraktion Ă€r en övertygande lösning med distinkta fördelar som hanterar kritiska utmaningar. 

Kontextmedveten dataextraktion 

LLM:er har en stark kontextuell förstĂ„else, finslipad genom omfattande utbildning i stora datamĂ€ngder. Deras förmĂ„ga att gĂ„ bortom ytan och förstĂ„ kontextens krĂ„ngligheter gör dem vĂ€rdefulla för att hantera olika uppgifter för informationsutvinning. Till exempel, nĂ€r de har till uppgift att extrahera vĂ€dervĂ€rden, fĂ„ngar de den avsedda informationen och övervĂ€ger relaterade element som klimatvĂ€rden, och integrerar sömlöst synonymer och semantik. Denna avancerade nivĂ„ av förstĂ„else etablerar LLM som ett dynamiskt och adaptivt val inom omrĂ„det för dataextraktion.  

Utnyttja funktionerna för parallell bearbetning 

LLM:er anvĂ€nder parallell bearbetning, vilket gör uppgifter snabbare och mer effektiva. Till skillnad frĂ„n sekventiella modeller optimerar LLM:er resursfördelning, vilket resulterar i snabbare dataextraktionsuppgifter. Detta ökar hastigheten och bidrar till utvinningsprocessens övergripande prestanda.  

Anpassning till olika datatyper 

Medan vissa modeller som Recurrent Neural Networks (RNN) Ă€r begrĂ€nsade till specifika sekvenser, hanterar LLM:er icke-sekvensspecifika data, och tar emot varierande meningsstrukturer utan anstrĂ€ngning. Denna mĂ„ngsidighet omfattar olika dataformer som tabeller och bilder. 

FörbĂ€ttring av processrörledningar 

AnvĂ€ndningen av LLM markerar en betydande förĂ€ndring i automatiseringen av bĂ„de förbearbetnings- och efterbearbetningsstegen. LLM:er minskar behovet av manuell anstrĂ€ngning genom att automatisera extraheringsprocesser exakt, vilket effektiviserar hanteringen av ostrukturerad data. Deras omfattande utbildning i olika datamĂ€ngder gör det möjligt för dem att identifiera mönster och samband som missas av traditionella metoder. 

Denna figur av en generativ AI-pipeline illustrerar tillĂ€mpbarheten av modeller som BERT, GPT och OPT i dataextraktion. Dessa LLM:er kan utföra olika NLP-operationer, inklusive dataextraktion. Vanligtvis ger den generativa AI-modellen en prompt som beskriver önskad data, och det efterföljande svaret innehĂ„ller de extraherade data. Till exempel kan en prompt som "Extrahera namnen pĂ„ alla leverantörer frĂ„n denna inköpsorder" ge ett svar som innehĂ„ller alla leverantörsnamn som finns i den semistrukturerade rapporten. DĂ€refter kan extraherade data analyseras och laddas in i en databastabell eller en platt fil, vilket underlĂ€ttar sömlös integrering i organisatoriska arbetsflöden. 

Evolving AI Frameworks: RNNs to Transformers in Modern Data Extraction 

Generativ AI arbetar inom ett ramverk för kodare-avkodare med tvĂ„ samverkande neurala nĂ€tverk. Kodaren bearbetar indata och kondenserar viktiga funktioner till en "Context Vector". Denna vektor anvĂ€nds sedan av avkodaren för generativa uppgifter, sĂ„som sprĂ„köversĂ€ttning. Denna arkitektur, som utnyttjar neurala nĂ€tverk som RNN:er och Transformers, hittar applikationer inom olika domĂ€ner, inklusive maskinöversĂ€ttning, bildgenerering, talsyntes och extrahering av dataenheter. Dessa nĂ€tverk utmĂ€rker sig i att modellera intrikata relationer och beroenden inom datasekvenser. 

Återkommande neurala nĂ€tverk 

Återkommande neurala nĂ€tverk (RNN) har utformats för att ta itu med sekvensuppgifter som översĂ€ttning och sammanfattning, som utmĂ€rker sig i vissa sammanhang. Men de kĂ€mpar med noggrannhet i uppgifter som involverar lĂ„ngvĂ€ga beroenden.  

 RNN:er utmĂ€rker sig i att extrahera nyckel-vĂ€rdepar frĂ„n meningar, men har svĂ„righeter med tabellliknande strukturer. Att Ă„tgĂ€rda detta krĂ€ver noggrant övervĂ€gande av sekvens och positionsplacering, vilket krĂ€ver specialiserade metoder för att optimera dataextraktion frĂ„n tabeller. Men deras adoption var begrĂ€nsad pĂ„ grund av lĂ„g ROI och undermĂ„liga prestanda för de flesta textbearbetningsuppgifter, Ă€ven efter att ha trĂ€nats pĂ„ stora datamĂ€ngder. 

LĂ„nga korttidsminnesnĂ€tverk 

LĂ„ngt korttidsminne (LSTM)-nĂ€tverk uppstĂ„r som en lösning som tar itu med begrĂ€nsningarna hos RNN, sĂ€rskilt genom en selektiv uppdaterings- och glömningsmekanism. Liksom RNN:er utmĂ€rker sig LSTM:er i att extrahera nyckel-vĂ€rdepar frĂ„n meningar. Men de möter liknande utmaningar med bordsliknande strukturer, vilket krĂ€ver en strategisk övervĂ€gande av sekvens och positionella element.  

 GPU:er anvĂ€ndes först för djupinlĂ€rning i 2012 att utveckla den berömda AlexNet CNN-modellen. DĂ€refter trĂ€nades Ă€ven vissa RNN:er med GPU:er, Ă€ven om de inte gav bra resultat. Idag, trots tillgĂ€ngligheten av GPU:er, har dessa modeller till stor del gĂ„tt ur bruk och har ersatts av transformatorbaserade LLM:er. 

Transformator – Attention Mechanism 

Introduktionen av transformatorer, sĂ€rskilt med i det banbrytande dokumentet "Attention is All You Need" Lagring, revolutionerade NLP genom att föreslĂ„ "transformator"-arkitekturen. Den hĂ€r arkitekturen möjliggör parallella berĂ€kningar och fĂ„ngar pĂ„ ett skickligt sĂ€tt lĂ„ngvĂ€ga beroenden, vilket lĂ„ser upp nya möjligheter för sprĂ„kmodeller. LLM som GPT, BERT och OPT har utnyttjat transformatorteknik. I hjĂ€rtat av transformatorer ligger "uppmĂ€rksamhetsmekanismen", en viktig bidragande orsak till förbĂ€ttrad prestanda i sekvens-till-sekvens databehandling. 

"Attention"-mekanismen i transformatorer berĂ€knar en viktad summa av vĂ€rden baserat pĂ„ kompatibiliteten mellan "frĂ„gan" (frĂ„gan) och "nyckeln" (modellens förstĂ„else av varje ord). Detta tillvĂ€gagĂ„ngssĂ€tt tillĂ„ter fokuserad uppmĂ€rksamhet under sekvensgenerering, vilket sĂ€kerstĂ€ller exakt extraktion. TvĂ„ centrala komponenter inom uppmĂ€rksamhetsmekanismen Ă€r sjĂ€lvuppmĂ€rksamhet, som fĂ„ngar betydelsen mellan orden i inmatningssekvensen, och multihuvuduppmĂ€rksamhet, vilket möjliggör olika uppmĂ€rksamhetsmönster för specifika relationer.  

I samband med fakturautvinning inser Self-Attention relevansen av ett tidigare nĂ€mnt datum vid utvinning av betalningsbelopp, medan Multi-Head Attention fokuserar oberoende pĂ„ numeriska vĂ€rden (belopp) och textmönster (leverantörsnamn). Till skillnad frĂ„n RNN, förstĂ„r transformatorer inte i sig ordens ordning. För att ta itu med detta anvĂ€nder de positionell kodning för att spĂ„ra varje ords plats i en sekvens. Denna teknik tillĂ€mpas pĂ„ bĂ„de in- och utmatningsinbĂ€ddningar, vilket hjĂ€lper till att identifiera nycklar och deras motsvarande vĂ€rden i ett dokument.  

Kombinationen av uppmÀrksamhetsmekanismer och positionskodningar Àr avgörande för en stor sprÄkmodells förmÄga att kÀnna igen en struktur som tabellform, med tanke pÄ dess innehÄll, avstÄnd och textmarkörer. Denna fÀrdighet skiljer den frÄn andra ostrukturerade dataextraktionstekniker.

Aktuella trender och utvecklingar 

AI-utrymmet utvecklas med lovande trender och utvecklingar och omformar hur vi extraherar information frĂ„n ostrukturerad data. LĂ„t oss fördjupa oss i de viktigaste aspekterna som formar detta omrĂ„des framtid. 

Framsteg inom stora sprĂ„kmodeller (LLMs) 

Generativ AI bevittnar en transformativ fas, dĂ€r LLM:er stĂ„r i centrum för att hantera komplexa och mĂ„ngsidiga datauppsĂ€ttningar för ostrukturerad dataextraktion. TvĂ„ anmĂ€rkningsvĂ€rda strategier driver fram dessa framsteg: 

  1. Multimodalt lÀrande: LLM:er utökar sina möjligheter genom att samtidigt bearbeta olika typer av data, inklusive text, bilder och ljud. Denna utveckling förbÀttrar deras förmÄga att extrahera vÀrdefull information frÄn olika kÀllor, vilket ökar deras anvÀndbarhet i ostrukturerad dataextraktion. Forskare undersöker effektiva sÀtt att anvÀnda dessa modeller i syfte att eliminera behovet av GPU:er och möjliggöra driften av stora modeller med begrÀnsade resurser.
  1. RAG-applikationer: Retrieval Augmented Generation (RAG) Àr en framvÀxande trend som kombinerar stora förtrÀnade sprÄkmodeller med externa sökmekanismer för att förbÀttra deras kapacitet. Genom att fÄ tillgÄng till en stor mÀngd dokument under genereringsprocessen förvandlar RAG grundlÀggande sprÄkmodeller till dynamiska verktyg skrÀddarsydda för bÄde affÀrs- och konsumentapplikationer.

UtvĂ€rdera LLM-prestanda 

Utmaningen med att utvĂ€rdera LLM:s prestationer möts av ett strategiskt tillvĂ€gagĂ„ngssĂ€tt, som inkluderar uppgiftsspecifika mĂ€tvĂ€rden och innovativa utvĂ€rderingsmetoder. Viktiga utvecklingar inom detta omrĂ„de inkluderar: 

  1. Finjusterade mÀtvÀrden: SkrÀddarsydda utvÀrderingsmÄtt vÀxer fram för att bedöma kvaliteten pÄ informationsutvinningsuppgifter. Precision, Äterkallelse och F1-poÀng mÀtvÀrden har visat sig vara effektiva, sÀrskilt i uppgifter som utvinning av enheter.
  1. MÀnsklig utvÀrdering: MÀnsklig utvÀrdering förblir avgörande vid sidan av automatiserade mÀtvÀrden, vilket sÀkerstÀller en omfattande utvÀrdering av LLM. Genom att integrera automatiserade mÀtvÀrden med mÀnskligt omdöme, erbjuder hybridutvÀrderingsmetoder en nyanserad bild av kontextuell korrekthet och relevans i extraherad information.

Bild- och dokumentbehandling  

Multimodala LLM:er har helt ersatt OCR. AnvĂ€ndare kan konvertera skannad text frĂ„n bilder och dokument till maskinlĂ€sbar text, med möjligheten att identifiera och extrahera information direkt frĂ„n visuellt innehĂ„ll med hjĂ€lp av visionbaserade moduler. 

Dataextraktion frĂ„n lĂ€nkar och webbplatser 

LLM:er utvecklas för att möta den ökande efterfrĂ„gan pĂ„ dataextraktion frĂ„n webbplatser och webblĂ€nkar. Dessa modeller Ă€r allt skickligare pĂ„ webbskrapa och konverterar data frĂ„n webbsidor till strukturerade format. Denna trend Ă€r ovĂ€rderlig för uppgifter som nyhetsaggregering, e-handelsdatainsamling och konkurrenskraftig intelligens, vilket förbĂ€ttrar kontextuell förstĂ„else och extraherar relationsdata frĂ„n webben. 

Uppkomsten av smĂ„ jĂ€ttar i generativ AI 

Första halvĂ„ret 2023 fokuserades pĂ„ att utveckla enorma sprĂ„kmodeller baserade pĂ„ antagandet om "större Ă€r bĂ€ttre". ÄndĂ„ visar de senaste resultaten att mindre modeller som TinyLlama och Dolly-v2-3B, med mindre Ă€n 3 miljarder parametrar, utmĂ€rker sig i uppgifter som resonemang och sammanfattningar, vilket ger dem titeln "smĂ„ jĂ€ttar". Dessa modeller anvĂ€nder mindre datorkraft och lagring, vilket gör AI mer tillgĂ€nglig för mindre företag utan behov av dyra GPU:er. 

Slutsats 

Tidiga generativa AI-modeller, inklusive generativa motstridiga nĂ€tverk (GAN) och variationsautomatiska kodare (VAE), introducerade nya metoder för att hantera bildbaserad data. Det verkliga genombrottet kom dock med transformatorbaserade stora sprĂ„kmodeller. Dessa modeller övertrĂ€ffade alla tidigare tekniker inom ostrukturerad databehandling pĂ„ grund av deras kodar-avkodarstruktur, sjĂ€lvuppmĂ€rksamhet och uppmĂ€rksamhetsmekanismer med flera huvuden, vilket ger dem en djup förstĂ„else av sprĂ„k och möjliggör mĂ€nskliga resonemangsförmĂ„ga. 

 Ă„ven om generativ AI erbjuder en lovande start pĂ„ att utvinna textdata frĂ„n rapporter, Ă€r skalbarheten för sĂ„dana tillvĂ€gagĂ„ngssĂ€tt begrĂ€nsad. De första stegen involverar ofta OCR-bearbetning, vilket kan resultera i fel, och utmaningar kvarstĂ„r med att extrahera text frĂ„n bilder i rapporter.  

 Att extrahera text i bilderna i rapporter Ă€r en annan utmaning. Omfamning av lösningar som multimodal databehandling och token limit-förlĂ€ngningar i GPT-4, Claud3, Gemini erbjuder en lovande vĂ€g framĂ„t. Det Ă€r dock viktigt att notera att dessa modeller Ă€r tillgĂ€ngliga endast via API:er. Även om det Ă€r bĂ„de effektivt och kostnadseffektivt att anvĂ€nda API:er för dataextraktion frĂ„n dokument, har det sina egna begrĂ€nsningar som latens, begrĂ€nsad kontroll och sĂ€kerhetsrisker.  

 En sĂ€krare och anpassningsbar lösning ligger i att finjustera en intern LLM. Detta tillvĂ€gagĂ„ngssĂ€tt mildrar inte bara datasekretess och sĂ€kerhetsproblem utan förbĂ€ttrar ocksĂ„ kontrollen över datautvinningsprocessen. Att finjustera en LLM för förstĂ„else av dokumentlayout och för att förstĂ„ innebörden av text baserat pĂ„ dess sammanhang erbjuder en robust metod för att extrahera nyckel-vĂ€rdepar och rader. Med hjĂ€lp av noll- och fĂ„-shot-inlĂ€rning kan en finjusterad modell anpassa sig till olika dokumentlayouter, vilket sĂ€kerstĂ€ller effektiv och korrekt ostrukturerad dataextraktion över olika domĂ€ner. 

Jay Mishra, COO pÄ astera, en ledande leverantör av kodfria datalösningar, Àr en erfaren data- och analysledare med 20+ Ärs erfarenhet av att driva transformativa strategier för att stÀrka organisationer genom AI-driven data lösningar.