Thought leaders
Zin maken van de chaos: de rol van LLM’s bij het extraheren van ongestructureerde data
Recente vooruitgang in hardware zoals de Nvidia H100 GPU, hebben de computationele mogelijkheden aanzienlijk verbeterd. Met negen keer de snelheid van de Nvidia A100, zijn deze GPUs uitstekend geschikt voor het verwerken van deep learning-workloads. Deze vooruitgang heeft het commerciële gebruik van generatieve AI in natuurlijke taalverwerking (NLP) en computerzicht aangewakkerd, waardoor geautomatiseerde en intelligente gegevensextractie mogelijk is. Bedrijven kunnen nu gemakkelijk ongestructureerde gegevens omzetten in waardevolle inzichten, wat een significante stap voorwaarts betekent in technologie-integratie.
Traditionele methoden van gegevensextractie
Handmatige gegevensinvoer
Verwonderlijk genoeg vertrouwen veel bedrijven nog steeds op handmatige gegevensinvoer, ondanks de beschikbaarheid van geavanceerdere technologieën. Deze methode houdt in dat informatie rechtstreeks in het doelsysteem wordt ingevoerd. Het is vaak gemakkelijker om deze methode te gebruiken vanwege de lagere initiële kosten. Handmatige gegevensinvoer is echter niet alleen saai en tijdrovend, maar ook zeer gevoelig voor fouten. Bovendien vormt het een beveiligingsrisico bij het omgaan met gevoelige gegevens, waardoor het een minder gewenste optie is in het tijdperk van automatisering en digitale beveiliging.
Optical Character Recognition (OCR)
OCR-technologie, die afbeeldingen en handgeschreven inhoud omzet in machineleesbare gegevens, biedt een snellere en kosteneffectievere oplossing voor gegevensextractie. De kwaliteit kan echter onbetrouwbaar zijn. Bijvoorbeeld kunnen tekens zoals “S” verkeerd worden geïnterpreteerd als “8” en vice versa.
De prestaties van OCR worden aanzienlijk beïnvloed door de complexiteit en kenmerken van de invoergegevens; het werkt goed met hoge-resolutiescans zonder problemen zoals oriëntatiekanteling, watermerken of overschrijving. Het ondervindt echter moeilijkheden met handgeschreven tekst, vooral wanneer de visuals ingewikkeld of moeilijk te verwerken zijn. Aanpassingen kunnen nodig zijn voor verbeterde resultaten bij het omgaan met tekstuele invoer. De gegevensextractiehulpmiddelen op de markt met OCR als basistechnologie leggen vaak laag na laag post-processing toe om de nauwkeurigheid van de geëxtraheerde gegevens te verbeteren. Deze oplossingen kunnen echter geen 100% nauwkeurige resultaten garanderen.
Tekstpatroonherkenning
Tekstpatroonherkenning is een methode voor het identificeren en extraheren van specifieke informatie uit tekst met behulp van vooraf gedefinieerde regels of patronen. Het is sneller en biedt een hogere ROI dan andere methoden. Het is effectief op alle niveaus van complexiteit en bereikt 100% nauwkeurigheid voor bestanden met vergelijkbare lay-outs.
Echter, de starheid in woord-voor-woord-overeenkomsten kan de aanpasbaarheid beperken, waardoor een 100% exacte overeenkomst nodig is voor een succesvolle extractie. Uitdagingen met synoniemen kunnen leiden tot moeilijkheden bij het identificeren van equivalente termen, zoals het onderscheiden tussen “weer” en “klimaat”. Bovendien vertoont Tekstpatroonherkenning contextuele gevoeligheid, met een gebrek aan bewustzijn van meerdere betekenissen in verschillende contexten. Het vinden van het juiste evenwicht tussen starheid en aanpasbaarheid blijft een constante uitdaging bij het effectief gebruiken van deze methode.
Named Entity Recognition (NER)
Named entity recognition (NER), een NLP-techniek, identificeert en categoriseert belangrijke informatie in tekst.
De extracties van NER zijn beperkt tot vooraf gedefinieerde entiteiten zoals organisatienamen, locaties, persoonlijke namen en datums. Met andere woorden, NER-systemen missen momenteel de inherente mogelijkheid om aangepaste entiteiten te extraheren buiten deze vooraf gedefinieerde set, die specifiek kan zijn voor een bepaald domein of gebruiksscenario. Ten tweede, de focus van NER op sleutelwaarden die zijn gekoppeld aan herkende entiteiten, strekt zich niet uit tot gegevensextractie uit tabellen, waardoor de toepasbaarheid wordt beperkt tot meer complexe of gestructureerde gegevenstypen.
Aangezien organisaties te maken krijgen met een toenemende hoeveelheid ongestructureerde gegevens, benadrukken deze uitdagingen de behoefte aan een omvattende en schaalbare benadering van extractiemethoden.
Ongestructureerde gegevens ontgrendelen met LLM’s
Het gebruik van grote taalmodellen (LLM’s) voor het extraheren van ongestructureerde gegevens is een overtuigende oplossing met distincte voordelen die kritische uitdagingen aanpakken.
Contextueel gegevensextractie
LLM’s beschikken over een sterke contextuele begrip, verfijnd door uitgebreide training op grote datasets. Hun vermogen om verder te gaan dan het oppervlak en contextuele nuances te begrijpen, maakt hen waardevol bij het omgaan met diverse informatietaken. Bijvoorbeeld, wanneer ze worden opgedragen om weergegevens te extraheren, vangen ze de bedoelde informatie op en houden ze rekening met verwante elementen zoals klimaatwaarden, waardoor ze naadloos synoniemen en semantiek integreren. Dit geavanceerde niveau van begrip stelt LLM’s in als een dynamische en adaptieve keuze in het domein van gegevensextractie.
Het benutten van parallelle verwerkingsmogelijkheden
LLM’s gebruiken parallelle verwerking, waardoor taken sneller en efficiënter worden. In tegenstelling tot sequentiële modellen, optimaliseren LLM’s de distributie van resources, waardoor gegevensextractietaken worden versneld. Dit verbetert de snelheid en draagt bij aan de algehele prestatie van het extractieproces.
Aanpassen aan uiteenlopende gegevenstypen
Terwijl sommige modellen zoals Recurrent Neural Networks (RNN’s) beperkt zijn tot specifieke sequenties, kunnen LLM’s non-sequence-specifieke gegevens verwerken, waardoor ze gemakkelijk verschillende zinsstructuren kunnen omvatten. Deze veelzijdigheid omvat diverse gegevensvormen, zoals tabellen en afbeeldingen.
Het verbeteren van verwerkingspijplijnen
Het gebruik van LLM’s markeert een significante verschuiving in het automatiseren van zowel voor- als nasynchronisatiefasen. LLM’s verminderen de behoefte aan handmatige inspanning door extractieprocessen nauwkeurig te automatiseren, waardoor het omgaan met ongestructureerde gegevens wordt gestroomlijnd. Hun uitgebreide training op diverse datasets stelt hen in staat om patronen en correlaties te identificeren die door traditionele methoden worden gemist.

Source: A pipeline on Generative AI
Deze afbeelding van een generatieve AI-pijplijn illustreert de toepasbaarheid van modellen zoals BERT, GPT en OPT in gegevensextractie. Deze LLM’s kunnen verschillende NLP-bewerkingen uitvoeren, waaronder gegevensextractie. Typisch voorziet het generatieve AI-model van een prompt met de gewenste gegevens, en de daaropvolgende reactie bevat de geëxtraheerde gegevens. Bijvoorbeeld, een prompt zoals “Extracteer de namen van alle leveranciers uit deze aankooporder” kan een reactie opleveren met alle leveranciersnamen die aanwezig zijn in het semi-gestructureerde rapport. Vervolgens kunnen de geëxtraheerde gegevens worden geparseerd en geladen in een databasetabel of een plat bestand, waardoor een naadloze integratie in organisatorische workflows mogelijk wordt.
Evoluerende AI-kaders: RNN’s naar Transformatoren in moderne gegevensextractie
Generatieve AI werkt binnen een encoder-decoder-kader met twee samenwerkende neurale netwerken. De encoder verwerkt invoergegevens, waardoor essentiële kenmerken worden samengevat in een “Context Vector”. Deze vector wordt vervolgens door de decoder gebruikt voor generatieve taken, zoals taalvertaling. Deze architectuur, die neurale netwerken zoals RNN’s en Transformatoren omvat, vindt toepassingen in diverse domeinen, waaronder machinetaalvertaling, afbeeldingengeneratie, spraaksynthese en gegevensextractie. Deze netwerken excelleren in het modelleren van ingewikkelde relaties en afhankelijkheden binnen gegevenssequenties.
Recurrent Neural Networks
Recurrent Neural Networks (RNN’s) zijn ontworpen om sequentietaak aan te pakken, zoals vertaling en samenvatting, en excelleren in bepaalde contexten. Echter, ze worstelen met nauwkeurigheid in taken die lange-afstandafhankelijkheden betreffen.
RNN’s excelleren in het extraheren van sleutel-waarde-paren uit zinnen, maar hebben moeite met tabel-achtige structuren. Het aanpakken hiervan vereist zorgvuldige overweging van sequentie en positionele plaatsing, waardoor gespecialiseerde benaderingen nodig zijn om gegevensextractie uit tabellen te optimaliseren. Echter, hun adoptie was beperkt vanwege lage ROI en ondermaatse prestaties bij de meeste tekstverwerkingsTaken, zelfs na training op grote hoeveelheden gegevens.
Long Short-Term Memory Networks
Long Short-Term Memory (LSTM) netwerken komen naar voren als een oplossing die de beperkingen van RNN’s aanpakt, met name door middel van een selectieve update- en vergetingsmechanisme. Net als RNN’s, excelleren LSTM’s in het extraheren van sleutel-waarde-paren uit zinnen. Echter, ze ondervinden vergelijkbare uitdagingen met tabel-achtige structuren, waardoor een strategische overweging van sequentie en positionele elementen nodig is.
GPUs werden voor het eerst gebruikt voor diepe leerprocessen in 2012 om het beroemde AlexNet CNN-model te ontwikkelen. Vervolgens werden enkele RNN’s ook getraind met behulp van GPUs, hoewel ze geen goede resultaten opleverden. Tegenwoordig, ondanks de beschikbaarheid van GPUs, zijn deze modellen grotendeels buiten gebruik geraakt en vervangen door transformatoren op basis van LLM’s.
Transformer – Aandachtmechanisme
De introductie van transformatoren, met name in het baanbrekende artikel “Attention is All You Need” (2017), heeft NLP gerevolutioneerd door de ‘transformatoren’-architectuur voor te stellen. Deze architectuur maakt parallelle berekeningen mogelijk en vangt lange-afstandafhankelijkheden adequaat op, waardoor nieuwe mogelijkheden voor taalmodellen ontstaan. LLM’s zoals GPT, BERT en OPT hebben transformatortechnologieën benut transformatortechnologie. Het “aandachtmechanisme” in transformatoren is een sleutelbijdrager aan de verbeterde prestatie in sequentie-tot-sequentie-gegevensverwerking.
Het “aandachtmechanisme” in transformatoren berekent een gewogen som van waarden op basis van de compatibiliteit tussen de ‘vraag’ (prompt) en de ‘sleutel’ (het model zijn begrip van elk woord). Deze aanpak stelt gefocust aandacht tijdens sequentiegeneratie mogelijk, waardoor nauwkeurige extractie wordt gewaarborgd. Twee belangrijke componenten binnen het aandachtmechanisme zijn Self-Attention, dat de belangrijkheid tussen woorden in de invoersequentie vastlegt, en Multi-Head Attention, dat diverse aandachtpatronen voor specifieke relaties mogelijk maakt.
In de context van factuurextractie, herkent Self-Attention de relevantie van een eerder genoemde datum bij het extraheren van betalingsbedragen, terwijl Multi-Head Attention onafhankelijk focust op numerieke waarden (bedragen) en tekstuele patronen (leveranciersnamen). In tegenstelling tot RNN’s, begrijpen transformatoren niet inherent de volgorde van woorden. Om dit aan te pakken, gebruiken ze positionele codering om elke woordpositie in een sequentie te volgen. Deze techniek wordt toegepast op zowel invoer- als uitvoerembeddings, waardoor het identificeren van sleutels en hun overeenkomstige waarden binnen een document wordt vergemakkelijkt.
De combinatie van aandachtmecanismen en positionele codering is cruciaal voor de mogelijkheid van een groot taalmodel om een structuur als tabulair te herkennen, rekening houdend met de inhoud, spacing en tekstmarkers. Deze vaardigheid onderscheidt hen van andere ongestructureerde gegevensextractietechnieken.
Huidige trends en ontwikkelingen
De AI-ruimte ontwikkelt zich met veelbelovende trends en ontwikkelingen, die de manier waarop we informatie uit ongestructureerde gegevens extraheren, veranderen. Laten we de belangrijkste aspecten onderzoeken die de toekomst van dit veld vormgeven.
Vooruitgang in grote taalmodellen (LLM’s)
Generatieve AI ondergaat een transformatiefase, waarin LLM’s centraal staan bij het omgaan met complexe en diverse datasets voor ongestructureerde gegevensextractie. Twee opvallende strategieën drijven deze vooruitgang aan:
- Multimodale leren: LLM’s breiden hun mogelijkheden uit door gelijktijdig verschillende soorten gegevens te verwerken, waaronder tekst, afbeeldingen en audio. Deze ontwikkeling verbetert hun vermogen om waardevolle informatie te extraheren uit diverse bronnen, waardoor hun nut in ongestructureerde gegevensextractie toeneemt. Onderzoekers onderzoeken efficiënte manieren om deze modellen te gebruiken, met als doel de behoefte aan GPUs en andere versneltechnologieën te elimineren.
- RAG-toepassingen: Retrieval Augmented Generation (RAG) is een opkomende trend die grote voorgetrainde taalmodellen combineert met externe zoekmechanismen om hun mogelijkheden te vergroten. Door toegang te krijgen tot een enorme verzameling documenten tijdens het generatieproces, transformeert RAG basistaalmodellen in dynamische tools die zijn aangepast voor zowel bedrijfs- als consumententoepassingen.
Evaluatie van LLM-prestaties
De uitdaging van het evalueren van LLM-prestaties wordt aangepakt met een strategische aanpak, waarin taakspecifieke metrics en innovatieve evaluatiemethoden zijn opgenomen. Belangrijke ontwikkelingen in deze ruimte zijn:
- Gefine-tune metrics: Aangepaste evaluatiemetrics ontwikkelen zich om de kwaliteit van informatietaken te beoordelen. Precisie, recall en F1-score metrics bewijzen effectief te zijn, met name in taken zoals entiteitsextractie.
- Menselijke evaluatie: Menselijke beoordeling blijft essentieel naast geautomatiseerde metrics, om een algehele evaluatie van LLM’s te waarborgen. Het integreren van geautomatiseerde metrics met menselijke beoordeling, biedt hybride evaluatiemethoden een genuanceerd beeld van contextuele correctheid en relevantie in geëxtraheerde informatie.
Afbeelding- en documentverwerking
Multimodale LLM’s hebben OCR volledig vervangen. Gebruikers kunnen gescande tekst uit afbeeldingen en documenten omzetten in machineleesbare tekst, met de mogelijkheid om informatie rechtstreeks uit visuele inhoud te identificeren en extraheren met behulp van visiegebaseerde modules.
Gegevensextractie uit links en websites
LLM’s evolueren om te voldoen aan de toenemende vraag naar gegevensextractie uit websites en weblinks. Deze modellen zijn steeds beter in staat om webinhoud te scannen en gegevens van webpagina’s om te zetten in gestructureerde formaten. Deze trend is van onschatbare waarde voor taken zoals nieuwsaggregatie, e-commercegegevensverzameling en concurrentieanalyse, waardoor contextueel begrip en relationele gegevensextractie van het web worden verbeterd.
De opkomst van kleine reuzen in generatieve AI
Het eerste halfjaar van 2023 zag een focus op het ontwikkelen van enorme taalmodellen op basis van de “hoe groter, hoe beter”-aanname. Toch laten recente resultaten zien dat kleinere modellen zoals TinyLlama en Dolly-v2-3B, met minder dan 3 miljard parameters, uitblinken in taken zoals redeneren en samenvatten, waardoor ze de titel van “kleine reuzen” verdienen. Deze modellen gebruiken minder rekenkracht en opslag, waardoor AI toegankelijker wordt voor kleinere bedrijven zonder de noodzaak van dure GPUs.
Conclusie
Vroege generatieve AI-modellen, waaronder generatieve tegenstellingennetwerken (GAN’s) en variatie-auto-encoders (VAE’s), introduceerden nieuwe benaderingen voor het beheren van afbeeldingsgebaseerde gegevens. Echter, de echte doorbraak kwam met transformatoren op basis van grote taalmodellen. Deze modellen overtroffen alle eerdere technieken in ongestructureerde gegevensverwerking vanwege hun encoder-decoderstructuur, self-aandacht en multi-head aandachtmecanismen, waardoor ze een diep begrip van taal en menselijke redeneervaardigheden kregen.
Terwijl generatieve AI een veelbelovende start biedt voor het delven van tekstuele gegevens uit rapporten, is de schaalbaarheid van dergelijke benaderingen beperkt. Initiële stappen omvatten vaak OCR-verwerking, die tot fouten kan leiden, en uitdagingen blijven bestaan bij het extraheren van tekst uit afbeeldingen in rapporten.
Terwijl het extraheren van tekst binnen afbeeldingen in rapporten een andere uitdaging vormt. Het omarmen van oplossingen zoals multimodale gegevensverwerking en tokenlimietuitbreidingen in GPT-4, Claud3, Gemini biedt een veelbelovende weg voorwaarts. Echter, het is belangrijk op te merken dat deze modellen alleen toegankelijk zijn via API’s. Terwijl het gebruik van API’s voor gegevensextractie uit documenten zowel effectief als kostenefficiënt is, komt het met zijn eigen set van beperkingen, zoals latentie, beperkte controle en beveiligingsrisico’s.
Een meer beveiligde en aanpasbare oplossing ligt in het fijnafstemmen van een in-house LLM. Deze aanpak niet alleen mitigeert gegevensprivacy- en beveiligingszorgen, maar verhoogt ook de controle over het gegevensextractieproces. Het fijnafstemmen van een LLM voor documentlay-outbegrip en voor het begrijpen van de betekenis van tekst op basis van de context biedt een robuuste methode voor het extraheren van sleutel-waarde-paren en regelitems. Door zero-shot en few-shot learning te benutten, kan een gefinetuned model zich aanpassen aan diverse documentlay-outs, waardoor efficiënte en nauwkeurige ongestructureerde gegevensextractie mogelijk wordt gemaakt in verschillende domeinen.












