Suivez nous sur

Donner du sens au dĂ©sordre : le rĂ´le des LLM dans l'extraction de donnĂ©es non structurĂ©es

Des leaders d'opinion

Donner du sens au dĂ©sordre : le rĂ´le des LLM dans l'extraction de donnĂ©es non structurĂ©es

mm

Articles de progrès dans le matĂ©riel tels que le GPU Nvidia H100, ont des capacitĂ©s de calcul considĂ©rablement amĂ©liorĂ©es. Avec neuf fois Avec la vitesse du Nvidia A100, ces GPU excellent dans la gestion des charges de travail d'apprentissage en profondeur. Cette avancĂ©e a stimulĂ© l’utilisation commerciale de l’IA gĂ©nĂ©rative dans le traitement du langage naturel (NLP) et la vision par ordinateur, permettant une extraction de donnĂ©es automatisĂ©e et intelligente. Les entreprises peuvent dĂ©sormais facilement convertir des donnĂ©es non structurĂ©es en informations prĂ©cieuses, marquant ainsi un pas en avant significatif dans l'intĂ©gration technologique. 

MĂ©thodes traditionnelles d'extraction de donnĂ©es 

Saisie manuelle des donnĂ©es 

Étonnamment, de nombreuses entreprises s’appuient encore sur la saisie manuelle des donnĂ©es, malgrĂ© la disponibilitĂ© de technologies plus avancĂ©es. Cette mĂ©thode implique la saisie manuelle des informations directement dans le système cible. Il est souvent plus facile Ă  adopter en raison de ses coĂ»ts initiaux infĂ©rieurs. Cependant, la saisie manuelle des donnĂ©es est non seulement fastidieuse et prend du temps, mais elle est Ă©galement très sujette aux erreurs. De plus, cela prĂ©sente un risque de sĂ©curitĂ© lors du traitement de donnĂ©es sensibles, ce qui en fait une option moins souhaitable Ă  l’ère de l’automatisation et de la sĂ©curitĂ© numĂ©rique. 

Reconnaissance optique de caractères (OCR)  

La technologie OCR, qui convertit les images et le contenu manuscrit en donnĂ©es lisibles par machine, offre une solution plus rapide et plus rentable pour l'extraction de donnĂ©es. Cependant, la qualitĂ© peut ĂŞtre peu fiable. Par exemple, des caractères comme « S » peuvent ĂŞtre interprĂ©tĂ©s Ă  tort comme « 8 » et vice versa.  

Les performances de l'OCR dĂ©pendent fortement de la complexitĂ© et des caractĂ©ristiques des donnĂ©es d'entrĂ©e ; il fonctionne parfaitement avec des images numĂ©risĂ©es haute rĂ©solution, exemptes de problèmes tels que l'inclinaison de l'orientation, les filigranes ou l'Ă©crasement. Cependant, il rencontre des difficultĂ©s avec le texte manuscrit, notamment lorsque les Ă©lĂ©ments visuels sont complexes ou difficiles Ă  traiter. Des adaptations peuvent ĂŞtre nĂ©cessaires pour amĂ©liorer les rĂ©sultats lors du traitement des donnĂ©es textuelles. Les outils d'extraction de donnĂ©es du marchĂ© utilisant l'OCR comme technologie de base appliquent souvent de nombreuses couches de post-traitement pour amĂ©liorer la prĂ©cision des donnĂ©es extraites. Cependant, ces solutions ne peuvent garantir des rĂ©sultats prĂ©cis Ă  100 %.  

Correspondance de motifs de texte 

La correspondance de modèles textuels est une mĂ©thode permettant d'identifier et d'extraire des informations spĂ©cifiques d'un texte Ă  l'aide de règles ou de modèles prĂ©dĂ©finis. Plus rapide et offrant un meilleur retour sur investissement que les autres mĂ©thodes, elle est efficace Ă  tous les niveaux de complexitĂ© et atteint une prĂ©cision de 100 % pour les fichiers prĂ©sentant des mises en page similaires.  

Cependant, sa rigiditĂ© dans les correspondances mot Ă  mot peut limiter l'adaptabilitĂ©, nĂ©cessitant une correspondance exacte Ă  100 % pour une extraction rĂ©ussie. Les problèmes de synonymes peuvent entraĂ®ner des difficultĂ©s Ă  identifier des termes Ă©quivalents, comme diffĂ©rencier « mĂ©tĂ©o » de « climat ». De plus, la correspondance de modèles de texte fait preuve d'une sensibilitĂ© contextuelle, manquant de conscience des multiples significations dans diffĂ©rents contextes. Trouver le juste Ă©quilibre entre rigiditĂ© et adaptabilitĂ© reste un dĂ©fi constant pour utiliser efficacement cette mĂ©thode. 

Reconnaissance d'entitĂ© nommĂ©e (TNS)  

La reconnaissance d'entitĂ©s nommĂ©es (NER), une technique PNL, identifie et catĂ©gorise les informations clĂ©s dans le texte. 

Les extractions NER se limitent Ă  des entitĂ©s prĂ©dĂ©finies telles que les noms d'organisations, les lieux, les noms de personnes et les dates. Autrement dit, les systèmes NER ne disposent pas actuellement de la capacitĂ© inhĂ©rente Ă  extraire des entitĂ©s personnalisĂ©es au-delĂ  de cet ensemble prĂ©dĂ©fini, qui pourraient ĂŞtre spĂ©cifiques Ă  un domaine ou Ă  un cas d'utilisation particulier. Deuxièmement, l'accent mis par NER sur les valeurs clĂ©s associĂ©es aux entitĂ©s reconnues ne s'Ă©tend pas Ă  l'extraction de donnĂ©es Ă  partir de tables, ce qui limite son applicabilitĂ© Ă  des types de donnĂ©es plus complexes ou structurĂ©s. 

 Alors que les organisations traitent des quantitĂ©s croissantes de donnĂ©es non structurĂ©es, ces dĂ©fis mettent en Ă©vidence la nĂ©cessitĂ© d’une approche globale et Ă©volutive des mĂ©thodologies d’extraction. 

LibĂ©rer des donnĂ©es non structurĂ©es avec les LLM 

L’exploitation de grands modèles de langage (LLM) pour l’extraction de donnĂ©es non structurĂ©es est une solution convaincante prĂ©sentant des avantages distincts qui rĂ©pondent Ă  des dĂ©fis critiques. 

Extraction de donnĂ©es contextuelles 

Les LLM possèdent une solide comprĂ©hension contextuelle, perfectionnĂ©e grâce Ă  une formation approfondie sur de grands ensembles de donnĂ©es. Leur capacitĂ© Ă  aller au-delĂ  de la surface et Ă  comprendre les subtilitĂ©s du contexte les rend prĂ©cieux pour gĂ©rer diverses tâches d’extraction d’informations. Par exemple, lorsqu'ils sont chargĂ©s d'extraire des valeurs mĂ©tĂ©orologiques, ils capturent les informations souhaitĂ©es et prennent en compte des Ă©lĂ©ments connexes tels que les valeurs climatiques, en intĂ©grant de manière transparente synonymes et sĂ©mantiques. Ce niveau avancĂ© de comprĂ©hension fait des LLM un choix dynamique et adaptatif dans le domaine de l'extraction de donnĂ©es.  

Exploiter les capacitĂ©s de traitement parallèle 

Les LLM utilisent le traitement parallèle, ce qui rend les tâches plus rapides et plus efficaces. Contrairement aux modèles sĂ©quentiels, les LLM optimisent la rĂ©partition des ressources, ce qui accĂ©lère les tâches d'extraction de donnĂ©es. Cela amĂ©liore la rapiditĂ© et contribue Ă  la performance globale du processus d'extraction.  

Adaptation Ă  des types de donnĂ©es variĂ©s 

Alors que certains modèles comme les rĂ©seaux neuronaux rĂ©currents (RNN) sont limitĂ©s Ă  des sĂ©quences spĂ©cifiques, les LLM gèrent des donnĂ©es non spĂ©cifiques Ă  une sĂ©quence, s'adaptant sans effort Ă  des structures de phrases variĂ©es. Cette polyvalence englobe diverses formes de donnĂ©es telles que des tableaux et des images. 

AmĂ©liorer les pipelines de traitement 

L'utilisation des LLM marque un changement significatif dans l'automatisation des Ă©tapes de prĂ©traitement et de post-traitement. Les LLM rĂ©duisent le besoin d’efforts manuels en automatisant avec prĂ©cision les processus d’extraction, rationalisant ainsi la gestion des donnĂ©es non structurĂ©es. Leur formation approfondie sur divers ensembles de donnĂ©es leur permet d'identifier des modèles et des corrĂ©lations manquĂ©s par les mĂ©thodes traditionnelles. 

Cette figure d'un pipeline d'IA gĂ©nĂ©rative illustre l'applicabilitĂ© de modèles tels que BERT, GPT et OPT dans l'extraction de donnĂ©es. Ces LLM peuvent effectuer diverses opĂ©rations NLP, y compris l'extraction de donnĂ©es. En règle gĂ©nĂ©rale, le modèle d'IA gĂ©nĂ©rative fournit une invite dĂ©crivant les donnĂ©es souhaitĂ©es, et la rĂ©ponse qui en rĂ©sulte contient les donnĂ©es extraites. Par exemple, une invite telle que « Extraire les noms de tous les fournisseurs de ce bon de commande Â» peut donner une rĂ©ponse contenant tous les noms de fournisseurs prĂ©sents dans le rapport semi-structurĂ©. Par la suite, les donnĂ©es extraites peuvent ĂŞtre analysĂ©es et chargĂ©es dans une table de base de donnĂ©es ou un fichier plat, facilitant ainsi une intĂ©gration transparente dans les flux de travail organisationnels. 

Évolution des cadres d'IA : des RNN aux transformateurs dans l'extraction de donnĂ©es moderne 

L'IA gĂ©nĂ©rative fonctionne dans un cadre d'encodeur-dĂ©codeur comportant deux rĂ©seaux de neurones collaboratifs. L'encodeur traite les donnĂ©es d'entrĂ©e, condensant les caractĂ©ristiques essentielles dans un « vecteur de contexte ». Ce vecteur est ensuite utilisĂ© par le dĂ©codeur pour des tâches gĂ©nĂ©ratives, telles que la traduction linguistique. Cette architecture, tirant parti des rĂ©seaux neuronaux tels que les RNN et les Transformers, trouve des applications dans divers domaines, notamment la traduction automatique, la gĂ©nĂ©ration d'images, la synthèse vocale et l'extraction d'entitĂ©s de donnĂ©es. Ces rĂ©seaux excellent dans la modĂ©lisation de relations et de dĂ©pendances complexes au sein de sĂ©quences de donnĂ©es. 

RĂ©seaux neuronaux rĂ©currents 

RĂ©seaux neuronaux rĂ©currents (RNN) ont Ă©tĂ© conçus pour aborder des tâches de sĂ©quence telles que la traduction et le rĂ©sumĂ©, excellant dans certains contextes. Cependant, ils ont du mal Ă  ĂŞtre prĂ©cis dans les tâches impliquant des dĂ©pendances Ă  longue portĂ©e.  

 Les RNN excellent dans l'extraction de paires clĂ©-valeur Ă  partir de phrases, mais ils rencontrent des difficultĂ©s avec les structures de type tableau. Pour rĂ©soudre ce problème, il faut examiner attentivement la sĂ©quence et le placement, ce qui nĂ©cessite des approches spĂ©cialisĂ©es pour optimiser l'extraction des donnĂ©es Ă  partir des tables. Cependant, leur adoption a Ă©tĂ© limitĂ© en raison d'un faible retour sur investissement et de performances mĂ©diocres sur la plupart des tâches de traitement de texte, mĂŞme après avoir Ă©tĂ© formĂ© sur de gros volumes de donnĂ©es. 

RĂ©seaux de mĂ©moire longue Ă  court terme 

MĂ©moire longue durĂ©e (LSTM) apparaissent comme une solution qui rĂ©pond aux limites des RNN, notamment via un mĂ©canisme de mise Ă  jour et d’oubli sĂ©lectif. Comme les RNN, les LSTM excellent dans l'extraction de paires clĂ©-valeur Ă  partir de phrases. Cependant, ils sont confrontĂ©s Ă  des dĂ©fis similaires avec des structures de type table, exigeant une prise en compte stratĂ©gique des Ă©lĂ©ments de sĂ©quence et de position.  

 Les GPU ont Ă©tĂ© utilisĂ©s pour la première fois pour l'apprentissage profond en 2012 pour dĂ©velopper le fameux modèle AlexNet CNN. Par la suite, certains RNN ont Ă©galement Ă©tĂ© entraĂ®nĂ©s Ă  l’aide de GPU, mĂŞme s’ils n’ont pas donnĂ© de bons rĂ©sultats. Aujourd'hui, malgrĂ© la disponibilitĂ© des GPU, ces modèles sont en grande partie tombĂ©s en dĂ©suĂ©tude et ont Ă©tĂ© remplacĂ©s par des LLM basĂ©s sur des transformateurs. 

Transformateur – MĂ©canisme d’attention 

L’introduction des transformateurs, notamment prĂ©sentĂ©e dans le document rĂ©volutionnaire « L’attention est tout ce dont vous avez besoin » a rĂ©volutionnĂ© le traitement du langage naturel (TALN) en proposant l'architecture « transformateur Â». Cette architecture permet des calculs parallèles et capture habilement les dĂ©pendances Ă  longue portĂ©e, ouvrant ainsi de nouvelles possibilitĂ©s pour les modèles de langage. Des LLM comme GPT, BERT et OPT ont exploitĂ© cette architecture. technologie des transformateurs. Au cĹ“ur des transformateurs se trouve le mĂ©canisme « d’attention », un contributeur clĂ© Ă  l’amĂ©lioration des performances dans le traitement des donnĂ©es sĂ©quence Ă  sĂ©quence. 

Le mĂ©canisme d'attention des transformateurs calcule une somme pondĂ©rĂ©e de valeurs en fonction de la compatibilitĂ© entre la « requĂŞte Â» (question posĂ©e) et la « clĂ© Â» (comprĂ©hension de chaque mot par le modèle). Cette approche permet une attention focalisĂ©e lors de la gĂ©nĂ©ration de la sĂ©quence, garantissant une extraction prĂ©cise. Deux Ă©lĂ©ments clĂ©s du mĂ©canisme d'attention sont l'auto-attention, qui capture l'importance des mots dans la sĂ©quence d'entrĂ©e, et l'attention multi-tĂŞtes, qui permet divers schĂ©mas d'attention pour des relations spĂ©cifiques.  

Dans le contexte de l'extraction de factures, l'auto-attention reconnaĂ®t la pertinence d'une date mentionnĂ©e prĂ©cĂ©demment lors de l'extraction des montants de paiement, tandis que l'attention multi-tĂŞtes se concentre indĂ©pendamment sur les valeurs numĂ©riques (montants) et les modèles textuels (noms des fournisseurs). Contrairement aux RNN, les transformateurs ne comprennent pas intrinsèquement l'ordre des mots. Pour y remĂ©dier, ils utilisent le codage positionnel pour suivre la place de chaque mot dans une sĂ©quence. Cette technique s'applique aux intĂ©grations d'entrĂ©e et de sortie, facilitant l'identification des clĂ©s et de leurs valeurs correspondantes dans un document.  

La combinaison des mécanismes d'attention et des codages positionnels est essentielle pour qu'un modèle linguistique de grande taille puisse reconnaître une structure comme tabulaire, compte tenu de son contenu, de son espacement et de ses marqueurs textuels. Cette compétence le distingue des autres techniques d'extraction de données non structurées.

Tendances et dĂ©veloppements actuels 

L’espace de l’IA se dĂ©veloppe avec des tendances et des dĂ©veloppements prometteurs, remodelant la façon dont nous extrayons des informations Ă  partir de donnĂ©es non structurĂ©es. Examinons de plus près les principales facettes qui façonnent l’avenir de ce domaine. 

AvancĂ©es dans les grands modèles de langage (LLM) 

L'IA gĂ©nĂ©rative connaĂ®t une phase de transformation, les LLM occupant une place centrale dans la gestion d'ensembles de donnĂ©es complexes et diversifiĂ©s pour l'extraction de donnĂ©es non structurĂ©es. Deux stratĂ©gies notables propulsent ces avancĂ©es : 

  1. Apprentissage multimodal : les LLM Ă©tendent leurs capacitĂ©s en traitant simultanĂ©ment divers types de donnĂ©es, notamment le texte, les images et l'audio. Ce dĂ©veloppement amĂ©liore leur capacitĂ© Ă  extraire des informations prĂ©cieuses de diverses sources, augmentant ainsi leur utilitĂ© dans l'extraction de donnĂ©es non structurĂ©es. et de recherche explorent des moyens efficaces d’utiliser ces modèles, dans le but d’éliminer le besoin de GPU et de permettre le fonctionnement de grands modèles avec des ressources limitĂ©es.
  1. Applications RAG : RĂ©cupĂ©ration GĂ©nĂ©ration AugmentĂ©e (RAG) est une tendance Ă©mergente qui combine de grands modèles linguistiques prĂ©-entraĂ®nĂ©s avec des mĂ©canismes de recherche externes pour amĂ©liorer leurs capacitĂ©s. En accĂ©dant Ă  un vaste corpus de documents pendant le processus de gĂ©nĂ©ration, RAG transforme les modèles linguistiques de base en outils dynamiques adaptĂ©s aux applications commerciales et grand public.

Évaluation des performances LLM 

L'Ă©valuation de la performance des LLM est un dĂ©fi relevĂ© grâce Ă  une approche stratĂ©gique intĂ©grant des indicateurs spĂ©cifiques aux tâches et des mĂ©thodologies d'Ă©valuation innovantes. Parmi les principales avancĂ©es dans ce domaine, on peut citer : 

  1. MĂ©triques affinĂ©es : des mĂ©triques d'Ă©valuation sur mesure Ă©mergent pour Ă©valuer la qualitĂ© des tâches d'extraction d'informations. PrĂ©cision, rappel et score F1 les mĂ©triques s'avèrent efficaces, en particulier dans des tâches telles que l'extraction d'entitĂ©s.
  1. Évaluation humaine : l'Ă©valuation humaine reste essentielle aux cĂ´tĂ©s des mesures automatisĂ©es, garantissant une Ă©valuation complète des LLM. IntĂ©grant des mĂ©triques automatisĂ©es au jugement humain, les mĂ©thodes d'Ă©valuation hybrides offrent une vision nuancĂ©e de l'exactitude contextuelle et de la pertinence des informations extraites.

Traitement d'images et de documents  

Les LLM multimodaux ont complètement remplacĂ© l'OCR. Les utilisateurs peuvent convertir le texte numĂ©risĂ© Ă  partir d'images et de documents en texte lisible par machine, avec la possibilitĂ© d'identifier et d'extraire des informations directement du contenu visuel Ă  l'aide de modules basĂ©s sur la vision. 

Extraction de donnĂ©es Ă  partir de liens et de sites Web 

Les LLM Ă©voluent pour rĂ©pondre Ă  la demande croissante d'extraction de donnĂ©es Ă  partir de sites Web et de liens Web. Ces modèles sont de plus en plus adeptes du web scraping, convertissant les donnĂ©es des pages Web en formats structurĂ©s. Cette tendance est inestimable pour des tâches telles que l'agrĂ©gation d'actualitĂ©s, la collecte de donnĂ©es sur le commerce Ă©lectronique et la veille concurrentielle, en amĂ©liorant la comprĂ©hension contextuelle et en extrayant des donnĂ©es relationnelles du Web. 

L’essor des petits gĂ©ants de l’IA gĂ©nĂ©rative 

Au cours du premier semestre 2023, l’accent a Ă©tĂ© mis sur le dĂ©veloppement d’énormes modèles de langage basĂ©s sur l’hypothèse « plus c’est gros, mieux c’est ». Pourtant, des rĂ©sultats rĂ©cents montrent que des modèles plus petits comme TinyLlama et Dolly-v2-3B, avec moins de 3 milliards de paramètres, excellent dans des tâches telles que le raisonnement et la synthèse, ce qui leur vaut le titre de « petits gĂ©ants ». Ces modèles utilisent moins de puissance de calcul et de stockage, ce qui rend l'IA plus accessible aux petites entreprises sans avoir besoin de GPU coĂ»teux. 

Conclusion 

Les premiers modèles d’IA gĂ©nĂ©rative, notamment rĂ©seaux contradictoires gĂ©nĂ©ratifs (GAN) et encodeurs automatiques variationnels (VAE), a introduit de nouvelles approches pour gĂ©rer les donnĂ©es basĂ©es sur des images. Cependant, la vĂ©ritable avancĂ©e est venue des grands modèles de langage basĂ©s sur des transformateurs. Ces modèles ont surpassĂ© toutes les techniques antĂ©rieures de traitement de donnĂ©es non structurĂ©es en raison de leur structure d'encodeur-dĂ©codeur, de leurs mĂ©canismes d'auto-attention et d'attention multi-tĂŞtes, leur accordant une comprĂ©hension approfondie du langage et permettant des capacitĂ©s de raisonnement semblables Ă  celles des humains. 

 Bien que l’IA gĂ©nĂ©rative offre un dĂ©but prometteur pour extraire des donnĂ©es textuelles Ă  partir de rapports, l’évolutivitĂ© de ces approches est limitĂ©e. Les premières Ă©tapes impliquent souvent un traitement OCR, qui peut entraĂ®ner des erreurs, et des difficultĂ©s persistent pour extraire le texte des images contenues dans les rapports.  

 L'extraction de texte Ă  l'intĂ©rieur des images des rapports reprĂ©sente un autre dĂ©fi. L'adoption de solutions telles que le traitement multimodal des donnĂ©es et les extensions de limites de jetons dans GPT-4, Claud3 et Gemini offre une voie prometteuse. Cependant, il est important de noter que ces modèles sont accessibles uniquement via des API. Si l'utilisation d'API pour l'extraction de donnĂ©es Ă  partir de documents est Ă  la fois efficace et rentable, elle comporte Ă©galement des limitations telles que la latence, un contrĂ´le limitĂ© et des risques de sĂ©curitĂ©.  

 Une solution plus sĂ©curisĂ©e et personnalisable rĂ©side dans la mise au point d’un LLM interne. Cette approche attĂ©nue non seulement les problèmes de confidentialitĂ© et de sĂ©curitĂ© des donnĂ©es, mais amĂ©liore Ă©galement le contrĂ´le sur le processus d'extraction des donnĂ©es. Affiner un LLM pour comprendre la mise en page du document et saisir la signification du texte en fonction de son contexte offre une mĂ©thode robuste pour extraire des paires clĂ©-valeur et des Ă©lĂ©ments de campagne. Tirant parti de l’apprentissage zĂ©ro et quelques coups, un modèle affinĂ© peut s’adapter Ă  diverses mises en page de documents, garantissant une extraction efficace et prĂ©cise des donnĂ©es non structurĂ©es dans divers domaines. 

Jay Mishra, directeur de l'exploitation chez Astera, l'un des principaux fournisseurs de solutions de données sans code, est un leader chevronné en matière de données et d'analyse avec plus de 20 ans d'expérience dans la conduite de stratégies de transformation pour responsabiliser les organisations grâce à des données alimentées par l'IA. de Red Lion