Tanke ledare

Att förstå röran: LLM:s roll i ostrukturerad dataextraktion

publicerade

1 år sedan

May 29, 2024

Jay Mishra, COO på Astera

Senaste framsteg inom hårdvara som Nvidia H100 GPU, har avsevärt förbättrade beräkningsmöjligheter. Med nio gånger hastigheten hos Nvidia A100, dessa GPU:er utmärker sig när det gäller att hantera djupinlärningsarbetsbelastningar. Detta framsteg har sporrat den kommersiella användningen av generativ AI i naturlig språkbehandling (NLP) och datorseende, vilket möjliggör automatiserad och intelligent dataextraktion. Företag kan nu enkelt omvandla ostrukturerad data till värdefulla insikter, vilket markerar ett betydande steg framåt i teknikintegration.

Traditionella metoder för dataextraktion

Manuell datainmatning

Överraskande nog förlitar sig många företag fortfarande på manuell datainmatning, trots tillgången till mer avancerad teknik. Denna metod involverar handinmatning av information direkt i målsystemet. Det är ofta lättare att använda på grund av dess lägre initiala kostnader. Manuell datainmatning är dock inte bara tråkig och tidskrävande utan också mycket risk för fel. Dessutom utgör det en säkerhetsrisk vid hantering av känsliga data, vilket gör det till ett mindre önskvärt alternativ i en tid av automatisering och digital säkerhet.

Optisk teckenigenkänning (OCR)

OCR-teknik, som omvandlar bilder och handskrivet innehåll till maskinläsbar data, erbjuder en snabbare och mer kostnadseffektiv lösning för dataextraktion. Kvaliteten kan dock vara opålitlig. Till exempel kan tecken som "S" misstolkas som "8" och vice versa.

OCR:s prestanda påverkas avsevärt av komplexiteten och egenskaperna hos indata; det fungerar bra med högupplösta skannade bilder utan problem som orienteringsvinklar, vattenstämplar eller överskrivning. Den möter dock utmaningar med handskriven text, särskilt när det visuella är invecklat eller svårt att bearbeta. Anpassningar kan vara nödvändiga för förbättrade resultat vid hantering av textinmatningar. Dataextraktionsverktygen på marknaden med OCR som basteknik lägger ofta lager och lager av efterbearbetning för att förbättra noggrannheten hos den extraherade datan. Men dessa lösningar kan inte garantera 100 % korrekta resultat.

Matchning av textmönster

Textmönstermatchning är en metod för att identifiera och extrahera specifik information från text med hjälp av fördefinierade regler eller mönster. Det är snabbare och erbjuder en högre ROI än andra metoder. Det är effektivt på alla nivåer av komplexitet och uppnår 100 % noggrannhet för filer med liknande layouter.

Emellertid kan dess stelhet i ord-för-ord-matchningar begränsa anpassningsförmågan, vilket kräver en 100% exakt matchning för framgångsrik extraktion. Utmaningar med synonymer kan leda till svårigheter att identifiera likvärdiga termer, som att skilja "väder" från "klimat". Dessutom uppvisar textmönstermatchning kontextuell känslighet, utan medvetenhet om flera betydelser i olika sammanhang. Att hitta den rätta balansen mellan stelhet och anpassningsförmåga är fortfarande en ständig utmaning när det gäller att använda denna metod effektivt.

Named Entity Recognition (NER)

Named entity recognition (NER), en NLP-teknik, identifierar och kategoriserar nyckelinformation i text.

NER:s extraktioner är begränsade till fördefinierade enheter som organisationsnamn, platser, personnamn och datum. Med andra ord saknar NER-system för närvarande den inneboende förmågan att extrahera anpassade enheter utöver denna fördefinierade uppsättning, som kan vara specifik för en viss domän eller användningsfall. För det andra sträcker sig NER:s fokus på nyckelvärden förknippade med erkända enheter inte till dataextraktion från tabeller, vilket begränsar dess tillämpbarhet till mer komplexa eller strukturerade datatyper.

När organisationer hanterar ökande mängder ostrukturerad data, belyser dessa utmaningar behovet av ett heltäckande och skalbart tillvägagångssätt för utvinningsmetoder.

Låsa upp ostrukturerad data med LLM

Att utnyttja stora språkmodeller (LLM) för ostrukturerad dataextraktion är en övertygande lösning med distinkta fördelar som hanterar kritiska utmaningar.

Kontextmedveten dataextraktion

LLM:er har en stark kontextuell förståelse, finslipad genom omfattande utbildning i stora datamängder. Deras förmåga att gå bortom ytan och förstå kontextens krångligheter gör dem värdefulla för att hantera olika uppgifter för informationsutvinning. Till exempel, när de har till uppgift att extrahera vädervärden, fångar de den avsedda informationen och överväger relaterade element som klimatvärden, och integrerar sömlöst synonymer och semantik. Denna avancerade nivå av förståelse etablerar LLM som ett dynamiskt och adaptivt val inom området för dataextraktion.

Utnyttja funktionerna för parallell bearbetning

LLM:er använder parallell bearbetning, vilket gör uppgifter snabbare och mer effektiva. Till skillnad från sekventiella modeller optimerar LLM:er resursfördelning, vilket resulterar i snabbare dataextraktionsuppgifter. Detta ökar hastigheten och bidrar till utvinningsprocessens övergripande prestanda.

Anpassning till olika datatyper

Medan vissa modeller som Recurrent Neural Networks (RNN) är begränsade till specifika sekvenser, hanterar LLM:er icke-sekvensspecifika data, och tar emot varierande meningsstrukturer utan ansträngning. Denna mångsidighet omfattar olika dataformer som tabeller och bilder.

Förbättring av processrörledningar

Användningen av LLM markerar en betydande förändring i automatiseringen av både förbearbetnings- och efterbearbetningsstegen. LLM:er minskar behovet av manuell ansträngning genom att automatisera extraheringsprocesser exakt, vilket effektiviserar hanteringen av ostrukturerad data. Deras omfattande utbildning i olika datamängder gör det möjligt för dem att identifiera mönster och samband som missas av traditionella metoder.

Källa: En pipeline på Generativ AI

Denna figur av en generativ AI-pipeline illustrerar tillämpbarheten av modeller som BERT, GPT och OPT i dataextraktion. Dessa LLM:er kan utföra olika NLP-operationer, inklusive dataextraktion. Vanligtvis ger den generativa AI-modellen en prompt som beskriver önskad data, och det efterföljande svaret innehåller de extraherade data. Till exempel kan en prompt som "Extrahera namnen på alla leverantörer från denna inköpsorder" ge ett svar som innehåller alla leverantörsnamn som finns i den semistrukturerade rapporten. Därefter kan extraherade data analyseras och laddas in i en databastabell eller en platt fil, vilket underlättar sömlös integrering i organisatoriska arbetsflöden.

Evolving AI Frameworks: RNNs to Transformers in Modern Data Extraction

Generativ AI arbetar inom ett ramverk för kodare-avkodare med två samverkande neurala nätverk. Kodaren bearbetar indata och kondenserar viktiga funktioner till en "Context Vector". Denna vektor används sedan av avkodaren för generativa uppgifter, såsom språköversättning. Denna arkitektur, som utnyttjar neurala nätverk som RNN:er och Transformers, hittar applikationer inom olika domäner, inklusive maskinöversättning, bildgenerering, talsyntes och extrahering av dataenheter. Dessa nätverk utmärker sig i att modellera intrikata relationer och beroenden inom datasekvenser.

Återkommande neurala nätverk

Återkommande neurala nätverk (RNN) har utformats för att ta itu med sekvensuppgifter som översättning och sammanfattning, som utmärker sig i vissa sammanhang. Men de kämpar med noggrannhet i uppgifter som involverar långväga beroenden.

RNN:er utmärker sig i att extrahera nyckel-värdepar från meningar, men har svårigheter med tabellliknande strukturer. Att åtgärda detta kräver noggrant övervägande av sekvens och positionsplacering, vilket kräver specialiserade metoder för att optimera dataextraktion från tabeller. Men deras adoption var begränsad på grund av låg ROI och undermåliga prestanda för de flesta textbearbetningsuppgifter, även efter att ha tränats på stora datamängder.

Långa korttidsminnesnätverk

Långt korttidsminne (LSTM)-nätverk uppstår som en lösning som tar itu med begränsningarna hos RNN, särskilt genom en selektiv uppdaterings- och glömningsmekanism. Liksom RNN:er utmärker sig LSTM:er i att extrahera nyckel-värdepar från meningar. Men de möter liknande utmaningar med bordsliknande strukturer, vilket kräver en strategisk övervägande av sekvens och positionella element.

GPU:er användes först för djupinlärning i 2012 att utveckla den berömda AlexNet CNN-modellen. Därefter tränades även vissa RNN:er med GPU:er, även om de inte gav bra resultat. Idag, trots tillgängligheten av GPU:er, har dessa modeller till stor del gått ur bruk och har ersatts av transformatorbaserade LLM:er.

Transformator – Attention Mechanism

Introduktionen av transformatorer, särskilt med i det banbrytande dokumentet "Attention is All You Need" Lagring, revolutionerade NLP genom att föreslå "transformator"-arkitekturen. Den här arkitekturen möjliggör parallella beräkningar och fångar på ett skickligt sätt långväga beroenden, vilket låser upp nya möjligheter för språkmodeller. LLM som GPT, BERT och OPT har utnyttjat transformatorteknik. I hjärtat av transformatorer ligger "uppmärksamhetsmekanismen", en viktig bidragande orsak till förbättrad prestanda i sekvens-till-sekvens databehandling.

"Attention"-mekanismen i transformatorer beräknar en viktad summa av värden baserat på kompatibiliteten mellan "frågan" (frågan) och "nyckeln" (modellens förståelse av varje ord). Detta tillvägagångssätt tillåter fokuserad uppmärksamhet under sekvensgenerering, vilket säkerställer exakt extraktion. Två centrala komponenter inom uppmärksamhetsmekanismen är självuppmärksamhet, som fångar betydelsen mellan orden i inmatningssekvensen, och multihuvuduppmärksamhet, vilket möjliggör olika uppmärksamhetsmönster för specifika relationer.

I samband med fakturautvinning inser Self-Attention relevansen av ett tidigare nämnt datum vid utvinning av betalningsbelopp, medan Multi-Head Attention fokuserar oberoende på numeriska värden (belopp) och textmönster (leverantörsnamn). Till skillnad från RNN, förstår transformatorer inte i sig ordens ordning. För att ta itu med detta använder de positionell kodning för att spåra varje ords plats i en sekvens. Denna teknik tillämpas på både in- och utmatningsinbäddningar, vilket hjälper till att identifiera nycklar och deras motsvarande värden i ett dokument.

Kombinationen av uppmärksamhetsmekanismer och positionskodningar är avgörande för en stor språkmodells förmåga att känna igen en struktur som tabellform, med tanke på dess innehåll, avstånd och textmarkörer. Denna färdighet skiljer den från andra ostrukturerade dataextraktionstekniker.

Aktuella trender och utvecklingar

AI-utrymmet utvecklas med lovande trender och utvecklingar och omformar hur vi extraherar information från ostrukturerad data. Låt oss fördjupa oss i de viktigaste aspekterna som formar detta områdes framtid.

Framsteg inom stora språkmodeller (LLMs)

Generativ AI bevittnar en transformativ fas, där LLM:er står i centrum för att hantera komplexa och mångsidiga datauppsättningar för ostrukturerad dataextraktion. Två anmärkningsvärda strategier driver fram dessa framsteg:

Multimodalt lärande: LLM:er utökar sina möjligheter genom att samtidigt bearbeta olika typer av data, inklusive text, bilder och ljud. Denna utveckling förbättrar deras förmåga att extrahera värdefull information från olika källor, vilket ökar deras användbarhet i ostrukturerad dataextraktion. Forskare undersöker effektiva sätt att använda dessa modeller i syfte att eliminera behovet av GPU:er och möjliggöra driften av stora modeller med begränsade resurser.

RAG-applikationer: Retrieval Augmented Generation (RAG) är en framväxande trend som kombinerar stora förtränade språkmodeller med externa sökmekanismer för att förbättra deras kapacitet. Genom att få tillgång till en stor mängd dokument under genereringsprocessen förvandlar RAG grundläggande språkmodeller till dynamiska verktyg skräddarsydda för både affärs- och konsumentapplikationer.

Utvärdera LLM-prestanda

Utmaningen med att utvärdera LLM:s prestationer möts av ett strategiskt tillvägagångssätt, som inkluderar uppgiftsspecifika mätvärden och innovativa utvärderingsmetoder. Viktiga utvecklingar inom detta område inkluderar:

Finjusterade mätvärden: Skräddarsydda utvärderingsmått växer fram för att bedöma kvaliteten på informationsutvinningsuppgifter. Precision, återkallelse och F1-poäng mätvärden har visat sig vara effektiva, särskilt i uppgifter som utvinning av enheter.

Mänsklig utvärdering: Mänsklig utvärdering förblir avgörande vid sidan av automatiserade mätvärden, vilket säkerställer en omfattande utvärdering av LLM. Genom att integrera automatiserade mätvärden med mänskligt omdöme, erbjuder hybridutvärderingsmetoder en nyanserad bild av kontextuell korrekthet och relevans i extraherad information.

Bild- och dokumentbehandling

Multimodala LLM:er har helt ersatt OCR. Användare kan konvertera skannad text från bilder och dokument till maskinläsbar text, med möjligheten att identifiera och extrahera information direkt från visuellt innehåll med hjälp av visionbaserade moduler.

Dataextraktion från länkar och webbplatser

LLM:er utvecklas för att möta den ökande efterfrågan på dataextraktion från webbplatser och webblänkar. Dessa modeller är allt skickligare på webbskrapa och konverterar data från webbsidor till strukturerade format. Denna trend är ovärderlig för uppgifter som nyhetsaggregering, e-handelsdatainsamling och konkurrenskraftig intelligens, vilket förbättrar kontextuell förståelse och extraherar relationsdata från webben.

Uppkomsten av små jättar i generativ AI

Första halvåret 2023 fokuserades på att utveckla enorma språkmodeller baserade på antagandet om "större är bättre". Ändå visar de senaste resultaten att mindre modeller som TinyLlama och Dolly-v2-3B, med mindre än 3 miljarder parametrar, utmärker sig i uppgifter som resonemang och sammanfattningar, vilket ger dem titeln "små jättar". Dessa modeller använder mindre datorkraft och lagring, vilket gör AI mer tillgänglig för mindre företag utan behov av dyra GPU:er.

Slutsats

Tidiga generativa AI-modeller, inklusive generativa motstridiga nätverk (GAN) och variationsautomatiska kodare (VAE), introducerade nya metoder för att hantera bildbaserad data. Det verkliga genombrottet kom dock med transformatorbaserade stora språkmodeller. Dessa modeller överträffade alla tidigare tekniker inom ostrukturerad databehandling på grund av deras kodar-avkodarstruktur, självuppmärksamhet och uppmärksamhetsmekanismer med flera huvuden, vilket ger dem en djup förståelse av språk och möjliggör mänskliga resonemangsförmåga.

Även om generativ AI erbjuder en lovande start på att utvinna textdata från rapporter, är skalbarheten för sådana tillvägagångssätt begränsad. De första stegen involverar ofta OCR-bearbetning, vilket kan resultera i fel, och utmaningar kvarstår med att extrahera text från bilder i rapporter.

Att extrahera text i bilderna i rapporter är en annan utmaning. Omfamning av lösningar som multimodal databehandling och token limit-förlängningar i GPT-4, Claud3, Gemini erbjuder en lovande väg framåt. Det är dock viktigt att notera att dessa modeller är tillgängliga endast via API:er. Även om det är både effektivt och kostnadseffektivt att använda API:er för dataextraktion från dokument, har det sina egna begränsningar som latens, begränsad kontroll och säkerhetsrisker.

En säkrare och anpassningsbar lösning ligger i att finjustera en intern LLM. Detta tillvägagångssätt mildrar inte bara datasekretess och säkerhetsproblem utan förbättrar också kontrollen över datautvinningsprocessen. Att finjustera en LLM för förståelse av dokumentlayout och för att förstå innebörden av text baserat på dess sammanhang erbjuder en robust metod för att extrahera nyckel-värdepar och rader. Med hjälp av noll- och få-shot-inlärning kan en finjusterad modell anpassa sig till olika dokumentlayouter, vilket säkerställer effektiv och korrekt ostrukturerad dataextraktion över olika domäner.

Relaterade ämnen:datauttag tänkte ledare

Strax

Varför CPG-ledare måste separera vetet från agnarna för äkta AI-driven intäktstillväxtoptimering

Missa inte

Banking on AI: Fraud Detection, Credit Risk Analysis, and the Future of Financial Services