Suivez nous sur

Donner du sens au dĂ©sordre : le rĂ´le des LLM dans l'extraction de donnĂ©es non structurĂ©es

Des leaders d'opinion

Donner du sens au dĂ©sordre : le rĂ´le des LLM dans l'extraction de donnĂ©es non structurĂ©es

mm

Articles de progrès dans le matĂ©riel tels que le GPU Nvidia H100, ont des capacitĂ©s de calcul considĂ©rablement amĂ©liorĂ©es. Avec neuf fois Avec la vitesse du Nvidia A100, ces GPU excellent dans la gestion des charges de travail d'apprentissage en profondeur. Cette avancĂ©e a stimulĂ© l’utilisation commerciale de l’IA gĂ©nĂ©rative dans le traitement du langage naturel (NLP) et la vision par ordinateur, permettant une extraction de donnĂ©es automatisĂ©e et intelligente. Les entreprises peuvent dĂ©sormais facilement convertir des donnĂ©es non structurĂ©es en informations prĂ©cieuses, marquant ainsi un pas en avant significatif dans l'intĂ©gration technologique. 

MĂ©thodes traditionnelles d'extraction de donnĂ©es 

Saisie manuelle des donnĂ©es 

Étonnamment, de nombreuses entreprises s’appuient encore sur la saisie manuelle des donnĂ©es, malgrĂ© la disponibilitĂ© de technologies plus avancĂ©es. Cette mĂ©thode implique la saisie manuelle des informations directement dans le système cible. Il est souvent plus facile Ă  adopter en raison de ses coĂ»ts initiaux infĂ©rieurs. Cependant, la saisie manuelle des donnĂ©es est non seulement fastidieuse et prend du temps, mais elle est Ă©galement très sujette aux erreurs. De plus, cela prĂ©sente un risque de sĂ©curitĂ© lors du traitement de donnĂ©es sensibles, ce qui en fait une option moins souhaitable Ă  l’ère de l’automatisation et de la sĂ©curitĂ© numĂ©rique. 

Reconnaissance optique de caractères (OCR)  

La technologie OCR, qui convertit les images et le contenu manuscrit en donnĂ©es lisibles par machine, offre une solution plus rapide et plus rentable pour l'extraction de donnĂ©es. Cependant, la qualitĂ© peut ĂŞtre peu fiable. Par exemple, des caractères comme « S » peuvent ĂŞtre interprĂ©tĂ©s Ă  tort comme « 8 » et vice versa.  

Les performances de l'OCR sont considĂ©rablement influencĂ©es par la complexitĂ© et les caractĂ©ristiques des donnĂ©es d'entrĂ©e ; il fonctionne bien avec des images numĂ©risĂ©es haute rĂ©solution exemptes de problèmes tels que l'inclinaison de l'orientation, les filigranes ou l'Ă©crasement. Cependant, le texte manuscrit se heurte Ă  des difficultĂ©s, en particulier lorsque les visuels sont complexes ou difficiles Ă  traiter. Des adaptations peuvent ĂŞtre nĂ©cessaires pour amĂ©liorer les rĂ©sultats lors de la gestion des entrĂ©es textuelles. Les outils d'extraction de donnĂ©es sur le marchĂ© avec OCR comme technologie de base mettent souvent des couches et des couches de post-traitement pour amĂ©liorer la prĂ©cision des donnĂ©es extraites. Mais ces solutions ne peuvent pas garantir des rĂ©sultats prĂ©cis Ă  100 %.  

Correspondance de motifs de texte 

La correspondance de modèles de texte est une mĂ©thode permettant d'identifier et d'extraire des informations spĂ©cifiques d'un texte Ă  l'aide de règles ou de modèles prĂ©dĂ©finis. C'est plus rapide et offre un retour sur investissement plus Ă©levĂ© que les autres mĂ©thodes. Il est efficace Ă  tous les niveaux de complexitĂ© et atteint une prĂ©cision de 100 % pour les fichiers prĂ©sentant des mises en page similaires.  

Cependant, sa rigiditĂ© dans les correspondances mot Ă  mot peut limiter l'adaptabilitĂ©, nĂ©cessitant une correspondance exacte Ă  100 % pour une extraction rĂ©ussie. Les problèmes de synonymes peuvent entraĂ®ner des difficultĂ©s Ă  identifier des termes Ă©quivalents, comme diffĂ©rencier « mĂ©tĂ©o » de « climat ». De plus, la correspondance de modèles de texte fait preuve d'une sensibilitĂ© contextuelle, manquant de conscience des multiples significations dans diffĂ©rents contextes. Trouver le juste Ă©quilibre entre rigiditĂ© et adaptabilitĂ© reste un dĂ©fi constant pour utiliser efficacement cette mĂ©thode. 

Reconnaissance d'entitĂ© nommĂ©e (TNS)  

La reconnaissance d'entitĂ©s nommĂ©es (NER), une technique PNL, identifie et catĂ©gorise les informations clĂ©s dans le texte. 

Les extractions de NER se limitent Ă  des entitĂ©s prĂ©dĂ©finies telles que les noms d'organisations, les lieux, les noms de personnes et les dates. En d’autres termes, les systèmes NER n’ont actuellement pas la capacitĂ© inhĂ©rente d’extraire des entitĂ©s personnalisĂ©es au-delĂ  de cet ensemble prĂ©dĂ©fini, qui pourraient ĂŞtre spĂ©cifiques Ă  un domaine ou Ă  un cas d’utilisation particulier. Deuxièmement, l'accent mis par le NER sur les valeurs clĂ©s associĂ©es aux entitĂ©s reconnues ne s'Ă©tend pas Ă  l'extraction de donnĂ©es Ă  partir de tables, limitant son applicabilitĂ© Ă  des types de donnĂ©es plus complexes ou structurĂ©s. 

 Alors que les organisations traitent des quantitĂ©s croissantes de donnĂ©es non structurĂ©es, ces dĂ©fis mettent en Ă©vidence la nĂ©cessitĂ© d’une approche globale et Ă©volutive des mĂ©thodologies d’extraction. 

LibĂ©rer des donnĂ©es non structurĂ©es avec les LLM 

L’exploitation de grands modèles de langage (LLM) pour l’extraction de donnĂ©es non structurĂ©es est une solution convaincante prĂ©sentant des avantages distincts qui rĂ©pondent Ă  des dĂ©fis critiques. 

Extraction de donnĂ©es contextuelles 

Les LLM possèdent une solide comprĂ©hension contextuelle, perfectionnĂ©e grâce Ă  une formation approfondie sur de grands ensembles de donnĂ©es. Leur capacitĂ© Ă  aller au-delĂ  de la surface et Ă  comprendre les subtilitĂ©s du contexte les rend prĂ©cieux pour gĂ©rer diverses tâches d’extraction d’informations. Par exemple, lorsqu'ils sont chargĂ©s d'extraire des valeurs mĂ©tĂ©orologiques, ils capturent les informations souhaitĂ©es et prennent en compte des Ă©lĂ©ments connexes tels que les valeurs climatiques, en intĂ©grant de manière transparente synonymes et sĂ©mantiques. Ce niveau avancĂ© de comprĂ©hension fait des LLM un choix dynamique et adaptatif dans le domaine de l'extraction de donnĂ©es.  

Exploiter les capacitĂ©s de traitement parallèle 

Les LLM utilisent un traitement parallèle, rendant les tâches plus rapides et plus efficaces. Contrairement aux modèles sĂ©quentiels, les LLM optimisent la distribution des ressources, ce qui accĂ©lère les tâches d'extraction de donnĂ©es. Cela amĂ©liore la vitesse et contribue aux performances globales du processus d’extraction.  

Adaptation Ă  des types de donnĂ©es variĂ©s 

Alors que certains modèles comme les rĂ©seaux neuronaux rĂ©currents (RNN) sont limitĂ©s Ă  des sĂ©quences spĂ©cifiques, les LLM gèrent des donnĂ©es non spĂ©cifiques Ă  une sĂ©quence, s'adaptant sans effort Ă  des structures de phrases variĂ©es. Cette polyvalence englobe diverses formes de donnĂ©es telles que des tableaux et des images. 

AmĂ©liorer les pipelines de traitement 

L'utilisation des LLM marque un changement significatif dans l'automatisation des Ă©tapes de prĂ©traitement et de post-traitement. Les LLM rĂ©duisent le besoin d’efforts manuels en automatisant avec prĂ©cision les processus d’extraction, rationalisant ainsi la gestion des donnĂ©es non structurĂ©es. Leur formation approfondie sur divers ensembles de donnĂ©es leur permet d'identifier des modèles et des corrĂ©lations manquĂ©s par les mĂ©thodes traditionnelles. 

Cette figure d'un pipeline d'IA gĂ©nĂ©rative illustre l'applicabilitĂ© de modèles tels que BERT, GPT et OPT dans l'extraction de donnĂ©es. Ces LLM peuvent effectuer diverses opĂ©rations NLP, y compris l'extraction de donnĂ©es. En règle gĂ©nĂ©rale, le modèle d'IA gĂ©nĂ©rative fournit une invite dĂ©crivant les donnĂ©es souhaitĂ©es, et la rĂ©ponse qui en rĂ©sulte contient les donnĂ©es extraites. Par exemple, une invite telle que « Extraire les noms de tous les fournisseurs de ce bon de commande Â» peut donner une rĂ©ponse contenant tous les noms de fournisseurs prĂ©sents dans le rapport semi-structurĂ©. Par la suite, les donnĂ©es extraites peuvent ĂŞtre analysĂ©es et chargĂ©es dans une table de base de donnĂ©es ou un fichier plat, facilitant ainsi une intĂ©gration transparente dans les flux de travail organisationnels. 

Évolution des cadres d'IA : des RNN aux transformateurs dans l'extraction de donnĂ©es moderne 

L'IA gĂ©nĂ©rative fonctionne dans un cadre d'encodeur-dĂ©codeur comportant deux rĂ©seaux de neurones collaboratifs. L'encodeur traite les donnĂ©es d'entrĂ©e, condensant les caractĂ©ristiques essentielles dans un « vecteur de contexte ». Ce vecteur est ensuite utilisĂ© par le dĂ©codeur pour des tâches gĂ©nĂ©ratives, telles que la traduction linguistique. Cette architecture, tirant parti des rĂ©seaux neuronaux tels que les RNN et les Transformers, trouve des applications dans divers domaines, notamment la traduction automatique, la gĂ©nĂ©ration d'images, la synthèse vocale et l'extraction d'entitĂ©s de donnĂ©es. Ces rĂ©seaux excellent dans la modĂ©lisation de relations et de dĂ©pendances complexes au sein de sĂ©quences de donnĂ©es. 

RĂ©seaux neuronaux rĂ©currents 

RĂ©seaux neuronaux rĂ©currents (RNN) ont Ă©tĂ© conçus pour aborder des tâches de sĂ©quence telles que la traduction et le rĂ©sumĂ©, excellant dans certains contextes. Cependant, ils ont du mal Ă  ĂŞtre prĂ©cis dans les tâches impliquant des dĂ©pendances Ă  longue portĂ©e.  

 Les RNN excellent dans l'extraction de paires clĂ©-valeur Ă  partir de phrases, mais ils rencontrent des difficultĂ©s avec les structures de type tableau. Pour rĂ©soudre ce problème, il faut examiner attentivement la sĂ©quence et le placement, ce qui nĂ©cessite des approches spĂ©cialisĂ©es pour optimiser l'extraction des donnĂ©es Ă  partir des tables. Cependant, leur adoption a Ă©tĂ© limitĂ© en raison d'un faible retour sur investissement et de performances mĂ©diocres sur la plupart des tâches de traitement de texte, mĂŞme après avoir Ă©tĂ© formĂ© sur de gros volumes de donnĂ©es. 

RĂ©seaux de mĂ©moire longue Ă  court terme 

MĂ©moire longue durĂ©e (LSTM) apparaissent comme une solution qui rĂ©pond aux limites des RNN, notamment via un mĂ©canisme de mise Ă  jour et d’oubli sĂ©lectif. Comme les RNN, les LSTM excellent dans l'extraction de paires clĂ©-valeur Ă  partir de phrases. Cependant, ils sont confrontĂ©s Ă  des dĂ©fis similaires avec des structures de type table, exigeant une prise en compte stratĂ©gique des Ă©lĂ©ments de sĂ©quence et de position.  

 Les GPU ont Ă©tĂ© utilisĂ©s pour la première fois pour l'apprentissage profond en 2012 pour dĂ©velopper le fameux modèle AlexNet CNN. Par la suite, certains RNN ont Ă©galement Ă©tĂ© entraĂ®nĂ©s Ă  l’aide de GPU, mĂŞme s’ils n’ont pas donnĂ© de bons rĂ©sultats. Aujourd'hui, malgrĂ© la disponibilitĂ© des GPU, ces modèles sont en grande partie tombĂ©s en dĂ©suĂ©tude et ont Ă©tĂ© remplacĂ©s par des LLM basĂ©s sur des transformateurs. 

Transformateur – MĂ©canisme d’attention 

L’introduction des transformateurs, notamment prĂ©sentĂ©e dans le document rĂ©volutionnaire « L’attention est tout ce dont vous avez besoin » (2017), a rĂ©volutionnĂ© la PNL en proposant l'architecture « transformateur ». Cette architecture permet des calculs parallèles et capture habilement les dĂ©pendances Ă  longue portĂ©e, ouvrant ainsi de nouvelles possibilitĂ©s pour les modèles de langage. Les LLM comme GPT, BERT et OPT ont exploitĂ© technologie des transformateurs. Au cĹ“ur des transformateurs se trouve le mĂ©canisme « d’attention », un contributeur clĂ© Ă  l’amĂ©lioration des performances dans le traitement des donnĂ©es sĂ©quence Ă  sĂ©quence. 

Le mĂ©canisme « attention » dans les transformateurs calcule une somme pondĂ©rĂ©e de valeurs basĂ©e sur la compatibilitĂ© entre la « requĂŞte » (invite de question) et la « clĂ© » (comprĂ©hension de chaque mot par le modèle). Cette approche permet une attention ciblĂ©e lors de la gĂ©nĂ©ration de sĂ©quences, garantissant une extraction prĂ©cise. Deux composants essentiels du mĂ©canisme d'attention sont l'auto-attention, qui capture l'importance entre les mots dans la sĂ©quence de saisie, et l'attention multi-tĂŞtes, permettant divers modèles d'attention pour des relations spĂ©cifiques.  

Dans le contexte de l'extraction de factures, Self-Attention reconnaĂ®t la pertinence d'une date mentionnĂ©e prĂ©cĂ©demment lors de l'extraction des montants de paiement, tandis que Multi-Head Attention se concentre indĂ©pendamment sur les valeurs numĂ©riques (montants) et les modèles textuels (noms des fournisseurs). Contrairement aux RNN, les transformateurs ne comprennent pas intrinsèquement l’ordre des mots. Pour rĂ©soudre ce problème, ils utilisent le codage positionnel pour suivre la place de chaque mot dans une sĂ©quence. Cette technique est appliquĂ©e aux intĂ©grations d'entrĂ©e et de sortie, aidant Ă  identifier les clĂ©s et leurs valeurs correspondantes dans un document.  

La combinaison de mécanismes d'attention et d'encodages de position est vitale pour la capacité d'un grand modèle de langage à reconnaître une structure comme tabulaire, en tenant compte de son contenu, de son espacement et de ses marqueurs de texte. Cette compétence le distingue des autres techniques d'extraction de données non structurées.

Tendances et dĂ©veloppements actuels 

L’espace de l’IA se dĂ©veloppe avec des tendances et des dĂ©veloppements prometteurs, remodelant la façon dont nous extrayons des informations Ă  partir de donnĂ©es non structurĂ©es. Examinons les principales facettes qui façonnent l'avenir de ce domaine. 

AvancĂ©es dans les grands modèles de langage (LLM) 

L'IA gĂ©nĂ©rative connaĂ®t une phase de transformation, les LLM occupant une place centrale dans la gestion d'ensembles de donnĂ©es complexes et diversifiĂ©s pour l'extraction de donnĂ©es non structurĂ©es. Deux stratĂ©gies notables propulsent ces avancĂ©es : 

  1. Apprentissage multimodal : les LLM Ă©tendent leurs capacitĂ©s en traitant simultanĂ©ment divers types de donnĂ©es, notamment le texte, les images et l'audio. Ce dĂ©veloppement amĂ©liore leur capacitĂ© Ă  extraire des informations prĂ©cieuses de diverses sources, augmentant ainsi leur utilitĂ© dans l'extraction de donnĂ©es non structurĂ©es. Chercheurs explorent des moyens efficaces d’utiliser ces modèles, dans le but d’éliminer le besoin de GPU et de permettre le fonctionnement de grands modèles avec des ressources limitĂ©es.
  1. Applications RAG : RĂ©cupĂ©ration GĂ©nĂ©ration AugmentĂ©e (RAG) est une tendance Ă©mergente qui combine de grands modèles linguistiques prĂ©-entraĂ®nĂ©s avec des mĂ©canismes de recherche externes pour amĂ©liorer leurs capacitĂ©s. En accĂ©dant Ă  un vaste corpus de documents pendant le processus de gĂ©nĂ©ration, RAG transforme les modèles linguistiques de base en outils dynamiques adaptĂ©s aux applications commerciales et grand public.

Évaluation des performances LLM 

Le dĂ©fi de l'Ă©valuation des performances des LLM est relevĂ© grâce Ă  une approche stratĂ©gique, intĂ©grant des mesures spĂ©cifiques aux tâches et des mĂ©thodologies d'Ă©valuation innovantes. Les principaux dĂ©veloppements dans ce domaine comprennent : 

  1. MĂ©triques affinĂ©es : des mĂ©triques d'Ă©valuation sur mesure Ă©mergent pour Ă©valuer la qualitĂ© des tâches d'extraction d'informations. PrĂ©cision, rappel et score F1 les mĂ©triques s'avèrent efficaces, en particulier dans des tâches telles que l'extraction d'entitĂ©s.
  1. Évaluation humaine : l'Ă©valuation humaine reste essentielle aux cĂ´tĂ©s des mesures automatisĂ©es, garantissant une Ă©valuation complète des LLM. IntĂ©grant des mĂ©triques automatisĂ©es au jugement humain, les mĂ©thodes d'Ă©valuation hybrides offrent une vision nuancĂ©e de l'exactitude contextuelle et de la pertinence des informations extraites.

Traitement d'images et de documents  

Les LLM multimodaux ont complètement remplacĂ© l'OCR. Les utilisateurs peuvent convertir le texte numĂ©risĂ© Ă  partir d'images et de documents en texte lisible par machine, avec la possibilitĂ© d'identifier et d'extraire des informations directement du contenu visuel Ă  l'aide de modules basĂ©s sur la vision. 

Extraction de donnĂ©es Ă  partir de liens et de sites Web 

Les LLM Ă©voluent pour rĂ©pondre Ă  la demande croissante d'extraction de donnĂ©es Ă  partir de sites Web et de liens Web. Ces modèles sont de plus en plus adeptes du web scraping, convertissant les donnĂ©es des pages Web en formats structurĂ©s. Cette tendance est inestimable pour des tâches telles que l'agrĂ©gation d'actualitĂ©s, la collecte de donnĂ©es sur le commerce Ă©lectronique et la veille concurrentielle, en amĂ©liorant la comprĂ©hension contextuelle et en extrayant des donnĂ©es relationnelles du Web. 

L’essor des petits gĂ©ants de l’IA gĂ©nĂ©rative 

Au cours du premier semestre 2023, l’accent a Ă©tĂ© mis sur le dĂ©veloppement d’énormes modèles de langage basĂ©s sur l’hypothèse « plus c’est gros, mieux c’est ». Pourtant, des rĂ©sultats rĂ©cents montrent que des modèles plus petits comme TinyLlama et Dolly-v2-3B, avec moins de 3 milliards de paramètres, excellent dans des tâches telles que le raisonnement et la synthèse, ce qui leur vaut le titre de « petits gĂ©ants ». Ces modèles utilisent moins de puissance de calcul et de stockage, ce qui rend l'IA plus accessible aux petites entreprises sans avoir besoin de GPU coĂ»teux. 

Conclusion 

Les premiers modèles d’IA gĂ©nĂ©rative, notamment rĂ©seaux contradictoires gĂ©nĂ©ratifs (GAN) et encodeurs automatiques variationnels (VAE), a introduit de nouvelles approches pour gĂ©rer les donnĂ©es basĂ©es sur des images. Cependant, la vĂ©ritable avancĂ©e est venue des grands modèles de langage basĂ©s sur des transformateurs. Ces modèles ont surpassĂ© toutes les techniques antĂ©rieures de traitement de donnĂ©es non structurĂ©es en raison de leur structure d'encodeur-dĂ©codeur, de leurs mĂ©canismes d'auto-attention et d'attention multi-tĂŞtes, leur accordant une comprĂ©hension approfondie du langage et permettant des capacitĂ©s de raisonnement semblables Ă  celles des humains. 

 Bien que l’IA gĂ©nĂ©rative offre un dĂ©but prometteur pour extraire des donnĂ©es textuelles Ă  partir de rapports, l’évolutivitĂ© de ces approches est limitĂ©e. Les premières Ă©tapes impliquent souvent un traitement OCR, qui peut entraĂ®ner des erreurs, et des difficultĂ©s persistent pour extraire le texte des images contenues dans les rapports.  

 Tandis que l’extraction du texte Ă  l’intĂ©rieur des images dans les rapports constitue un autre dĂ©fi. En adoptant des solutions telles que le traitement des donnĂ©es multimodales et les extensions de limite de jetons dans GPT-4, Claud3, Gemini offre une voie prometteuse. Cependant, il est important de noter que ces modèles sont accessibles uniquement via des API. Bien que l’utilisation d’API pour l’extraction de donnĂ©es Ă  partir de documents soit Ă  la fois efficace et rentable, elle comporte son propre ensemble de limitations telles que la latence, un contrĂ´le limitĂ© et des risques de sĂ©curitĂ©.  

 Une solution plus sĂ©curisĂ©e et personnalisable rĂ©side dans la mise au point d’un LLM interne. Cette approche attĂ©nue non seulement les problèmes de confidentialitĂ© et de sĂ©curitĂ© des donnĂ©es, mais amĂ©liore Ă©galement le contrĂ´le sur le processus d'extraction des donnĂ©es. Affiner un LLM pour comprendre la mise en page du document et saisir la signification du texte en fonction de son contexte offre une mĂ©thode robuste pour extraire des paires clĂ©-valeur et des Ă©lĂ©ments de campagne. Tirant parti de l’apprentissage zĂ©ro et quelques coups, un modèle affinĂ© peut s’adapter Ă  diverses mises en page de documents, garantissant une extraction efficace et prĂ©cise des donnĂ©es non structurĂ©es dans divers domaines. 

Jay Mishra, directeur de l'exploitation chez Astera, l'un des principaux fournisseurs de solutions de données sans code, est un leader chevronné en matière de données et d'analyse avec plus de 20 ans d'expérience dans la conduite de stratégies de transformation pour responsabiliser les organisations grâce à des données alimentées par l'IA. de Red Lion