Des leaders d'opinion
Donner du sens au désordre : le rôle des LLM dans l'extraction de données non structurées

Articles de progrès dans le matériel tels que le GPU Nvidia H100, ont des capacités de calcul considérablement améliorées. Avec neuf fois Avec la vitesse du Nvidia A100, ces GPU excellent dans la gestion des charges de travail d'apprentissage en profondeur. Cette avancée a stimulé l’utilisation commerciale de l’IA générative dans le traitement du langage naturel (NLP) et la vision par ordinateur, permettant une extraction de données automatisée et intelligente. Les entreprises peuvent désormais facilement convertir des données non structurées en informations précieuses, marquant ainsi un pas en avant significatif dans l'intégration technologique.
Méthodes traditionnelles d'extraction de données
Saisie manuelle des données
Étonnamment, de nombreuses entreprises s’appuient encore sur la saisie manuelle des données, malgré la disponibilité de technologies plus avancées. Cette méthode implique la saisie manuelle des informations directement dans le système cible. Il est souvent plus facile à adopter en raison de ses coûts initiaux inférieurs. Cependant, la saisie manuelle des données est non seulement fastidieuse et prend du temps, mais elle est également très sujette aux erreurs. De plus, cela présente un risque de sécurité lors du traitement de données sensibles, ce qui en fait une option moins souhaitable à l’ère de l’automatisation et de la sécurité numérique.
Reconnaissance optique de caractères (OCR)
La technologie OCR, qui convertit les images et le contenu manuscrit en données lisibles par machine, offre une solution plus rapide et plus rentable pour l'extraction de données. Cependant, la qualité peut être peu fiable. Par exemple, des caractères comme « S » peuvent être interprétés à tort comme « 8 » et vice versa.
Les performances de l'OCR sont considérablement influencées par la complexité et les caractéristiques des données d'entrée ; il fonctionne bien avec des images numérisées haute résolution exemptes de problèmes tels que l'inclinaison de l'orientation, les filigranes ou l'écrasement. Cependant, le texte manuscrit se heurte à des difficultés, en particulier lorsque les visuels sont complexes ou difficiles à traiter. Des adaptations peuvent être nécessaires pour améliorer les résultats lors de la gestion des entrées textuelles. Les outils d'extraction de données sur le marché avec OCR comme technologie de base mettent souvent des couches et des couches de post-traitement pour améliorer la précision des données extraites. Mais ces solutions ne peuvent pas garantir des résultats précis à 100 %.
Correspondance de motifs de texte
La correspondance de modèles de texte est une méthode permettant d'identifier et d'extraire des informations spécifiques d'un texte à l'aide de règles ou de modèles prédéfinis. C'est plus rapide et offre un retour sur investissement plus élevé que les autres méthodes. Il est efficace à tous les niveaux de complexité et atteint une précision de 100 % pour les fichiers présentant des mises en page similaires.
Cependant, sa rigidité dans les correspondances mot à mot peut limiter l'adaptabilité, nécessitant une correspondance exacte à 100 % pour une extraction réussie. Les problèmes de synonymes peuvent entraîner des difficultés à identifier des termes équivalents, comme différencier « météo » de « climat ». De plus, la correspondance de modèles de texte fait preuve d'une sensibilité contextuelle, manquant de conscience des multiples significations dans différents contextes. Trouver le juste équilibre entre rigidité et adaptabilité reste un défi constant pour utiliser efficacement cette méthode.
Reconnaissance d'entité nommée (TNS)
La reconnaissance d'entités nommées (NER), une technique PNL, identifie et catégorise les informations clés dans le texte.
Les extractions de NER se limitent à des entités prédéfinies telles que les noms d'organisations, les lieux, les noms de personnes et les dates. En d’autres termes, les systèmes NER n’ont actuellement pas la capacité inhérente d’extraire des entités personnalisées au-delà de cet ensemble prédéfini, qui pourraient être spécifiques à un domaine ou à un cas d’utilisation particulier. Deuxièmement, l'accent mis par le NER sur les valeurs clés associées aux entités reconnues ne s'étend pas à l'extraction de données à partir de tables, limitant son applicabilité à des types de données plus complexes ou structurés.
Alors que les organisations traitent des quantités croissantes de données non structurées, ces défis mettent en évidence la nécessité d’une approche globale et évolutive des méthodologies d’extraction.
Libérer des données non structurées avec les LLM
L’exploitation de grands modèles de langage (LLM) pour l’extraction de données non structurées est une solution convaincante présentant des avantages distincts qui répondent à des défis critiques.
Extraction de données contextuelles
Les LLM possèdent une solide compréhension contextuelle, perfectionnée grâce à une formation approfondie sur de grands ensembles de données. Leur capacité à aller au-delà de la surface et à comprendre les subtilités du contexte les rend précieux pour gérer diverses tâches d’extraction d’informations. Par exemple, lorsqu'ils sont chargés d'extraire des valeurs météorologiques, ils capturent les informations souhaitées et prennent en compte des éléments connexes tels que les valeurs climatiques, en intégrant de manière transparente synonymes et sémantiques. Ce niveau avancé de compréhension fait des LLM un choix dynamique et adaptatif dans le domaine de l'extraction de données.
Exploiter les capacités de traitement parallèle
Les LLM utilisent un traitement parallèle, rendant les tâches plus rapides et plus efficaces. Contrairement aux modèles séquentiels, les LLM optimisent la distribution des ressources, ce qui accélère les tâches d'extraction de données. Cela améliore la vitesse et contribue aux performances globales du processus d’extraction.
Adaptation à des types de données variés
Alors que certains modèles comme les réseaux neuronaux récurrents (RNN) sont limités à des séquences spécifiques, les LLM gèrent des données non spécifiques à une séquence, s'adaptant sans effort à des structures de phrases variées. Cette polyvalence englobe diverses formes de données telles que des tableaux et des images.
Améliorer les pipelines de traitement
L'utilisation des LLM marque un changement significatif dans l'automatisation des étapes de prétraitement et de post-traitement. Les LLM réduisent le besoin d’efforts manuels en automatisant avec précision les processus d’extraction, rationalisant ainsi la gestion des données non structurées. Leur formation approfondie sur divers ensembles de données leur permet d'identifier des modèles et des corrélations manqués par les méthodes traditionnelles.
Cette figure d'un pipeline d'IA générative illustre l'applicabilité de modèles tels que BERT, GPT et OPT dans l'extraction de données. Ces LLM peuvent effectuer diverses opérations NLP, y compris l'extraction de données. En règle générale, le modèle d'IA générative fournit une invite décrivant les données souhaitées, et la réponse qui en résulte contient les données extraites. Par exemple, une invite telle que « Extraire les noms de tous les fournisseurs de ce bon de commande » peut donner une réponse contenant tous les noms de fournisseurs présents dans le rapport semi-structuré. Par la suite, les données extraites peuvent être analysées et chargées dans une table de base de données ou un fichier plat, facilitant ainsi une intégration transparente dans les flux de travail organisationnels.
Évolution des cadres d'IA : des RNN aux transformateurs dans l'extraction de données moderne
L'IA générative fonctionne dans un cadre d'encodeur-décodeur comportant deux réseaux de neurones collaboratifs. L'encodeur traite les données d'entrée, condensant les caractéristiques essentielles dans un « vecteur de contexte ». Ce vecteur est ensuite utilisé par le décodeur pour des tâches génératives, telles que la traduction linguistique. Cette architecture, tirant parti des réseaux neuronaux tels que les RNN et les Transformers, trouve des applications dans divers domaines, notamment la traduction automatique, la génération d'images, la synthèse vocale et l'extraction d'entités de données. Ces réseaux excellent dans la modélisation de relations et de dépendances complexes au sein de séquences de données.
Réseaux neuronaux récurrents
Réseaux neuronaux récurrents (RNN) ont été conçus pour aborder des tâches de séquence telles que la traduction et le résumé, excellant dans certains contextes. Cependant, ils ont du mal à être précis dans les tâches impliquant des dépendances à longue portée.
Les RNN excellent dans l'extraction de paires clé-valeur à partir de phrases, mais ils rencontrent des difficultés avec les structures de type tableau. Pour résoudre ce problème, il faut examiner attentivement la séquence et le placement, ce qui nécessite des approches spécialisées pour optimiser l'extraction des données à partir des tables. Cependant, leur adoption a été limité en raison d'un faible retour sur investissement et de performances médiocres sur la plupart des tâches de traitement de texte, même après avoir été formé sur de gros volumes de données.
Réseaux de mémoire longue à court terme
Mémoire longue durée (LSTM) apparaissent comme une solution qui répond aux limites des RNN, notamment via un mécanisme de mise à jour et d’oubli sélectif. Comme les RNN, les LSTM excellent dans l'extraction de paires clé-valeur à partir de phrases. Cependant, ils sont confrontés à des défis similaires avec des structures de type table, exigeant une prise en compte stratégique des éléments de séquence et de position.
Les GPU ont été utilisés pour la première fois pour l'apprentissage profond en 2012 pour développer le fameux modèle AlexNet CNN. Par la suite, certains RNN ont également été entraînés à l’aide de GPU, même s’ils n’ont pas donné de bons résultats. Aujourd'hui, malgré la disponibilité des GPU, ces modèles sont en grande partie tombés en désuétude et ont été remplacés par des LLM basés sur des transformateurs.
Transformateur – Mécanisme d’attention
L’introduction des transformateurs, notamment présentée dans le document révolutionnaire « L’attention est tout ce dont vous avez besoin » (2017), a révolutionné la PNL en proposant l'architecture « transformateur ». Cette architecture permet des calculs parallèles et capture habilement les dépendances à longue portée, ouvrant ainsi de nouvelles possibilités pour les modèles de langage. Les LLM comme GPT, BERT et OPT ont exploité technologie des transformateurs. Au cœur des transformateurs se trouve le mécanisme « d’attention », un contributeur clé à l’amélioration des performances dans le traitement des données séquence à séquence.
Le mécanisme « attention » dans les transformateurs calcule une somme pondérée de valeurs basée sur la compatibilité entre la « requête » (invite de question) et la « clé » (compréhension de chaque mot par le modèle). Cette approche permet une attention ciblée lors de la génération de séquences, garantissant une extraction précise. Deux composants essentiels du mécanisme d'attention sont l'auto-attention, qui capture l'importance entre les mots dans la séquence de saisie, et l'attention multi-têtes, permettant divers modèles d'attention pour des relations spécifiques.
Dans le contexte de l'extraction de factures, Self-Attention reconnaît la pertinence d'une date mentionnée précédemment lors de l'extraction des montants de paiement, tandis que Multi-Head Attention se concentre indépendamment sur les valeurs numériques (montants) et les modèles textuels (noms des fournisseurs). Contrairement aux RNN, les transformateurs ne comprennent pas intrinsèquement l’ordre des mots. Pour résoudre ce problème, ils utilisent le codage positionnel pour suivre la place de chaque mot dans une séquence. Cette technique est appliquée aux intégrations d'entrée et de sortie, aidant à identifier les clés et leurs valeurs correspondantes dans un document.
La combinaison de mécanismes d'attention et d'encodages de position est vitale pour la capacité d'un grand modèle de langage à reconnaître une structure comme tabulaire, en tenant compte de son contenu, de son espacement et de ses marqueurs de texte. Cette compétence le distingue des autres techniques d'extraction de données non structurées.
Tendances et développements actuels
L’espace de l’IA se développe avec des tendances et des développements prometteurs, remodelant la façon dont nous extrayons des informations à partir de données non structurées. Examinons les principales facettes qui façonnent l'avenir de ce domaine.
Avancées dans les grands modèles de langage (LLM)
L'IA générative connaît une phase de transformation, les LLM occupant une place centrale dans la gestion d'ensembles de données complexes et diversifiés pour l'extraction de données non structurées. Deux stratégies notables propulsent ces avancées :
- Apprentissage multimodal : les LLM étendent leurs capacités en traitant simultanément divers types de données, notamment le texte, les images et l'audio. Ce développement améliore leur capacité à extraire des informations précieuses de diverses sources, augmentant ainsi leur utilité dans l'extraction de données non structurées. Chercheurs explorent des moyens efficaces d’utiliser ces modèles, dans le but d’éliminer le besoin de GPU et de permettre le fonctionnement de grands modèles avec des ressources limitées.
- Applications RAG : Récupération Génération Augmentée (RAG) est une tendance émergente qui combine de grands modèles linguistiques pré-entraînés avec des mécanismes de recherche externes pour améliorer leurs capacités. En accédant à un vaste corpus de documents pendant le processus de génération, RAG transforme les modèles linguistiques de base en outils dynamiques adaptés aux applications commerciales et grand public.
Évaluation des performances LLM
Le défi de l'évaluation des performances des LLM est relevé grâce à une approche stratégique, intégrant des mesures spécifiques aux tâches et des méthodologies d'évaluation innovantes. Les principaux développements dans ce domaine comprennent :
- Métriques affinées : des métriques d'évaluation sur mesure émergent pour évaluer la qualité des tâches d'extraction d'informations. Précision, rappel et score F1 les métriques s'avèrent efficaces, en particulier dans des tâches telles que l'extraction d'entités.
- Évaluation humaine : l'évaluation humaine reste essentielle aux côtés des mesures automatisées, garantissant une évaluation complète des LLM. Intégrant des métriques automatisées au jugement humain, les méthodes d'évaluation hybrides offrent une vision nuancée de l'exactitude contextuelle et de la pertinence des informations extraites.
Traitement d'images et de documents
Les LLM multimodaux ont complètement remplacé l'OCR. Les utilisateurs peuvent convertir le texte numérisé à partir d'images et de documents en texte lisible par machine, avec la possibilité d'identifier et d'extraire des informations directement du contenu visuel à l'aide de modules basés sur la vision.
Extraction de données à partir de liens et de sites Web
Les LLM évoluent pour répondre à la demande croissante d'extraction de données à partir de sites Web et de liens Web. Ces modèles sont de plus en plus adeptes du web scraping, convertissant les données des pages Web en formats structurés. Cette tendance est inestimable pour des tâches telles que l'agrégation d'actualités, la collecte de données sur le commerce électronique et la veille concurrentielle, en améliorant la compréhension contextuelle et en extrayant des données relationnelles du Web.
L’essor des petits géants de l’IA générative
Au cours du premier semestre 2023, l’accent a été mis sur le développement d’énormes modèles de langage basés sur l’hypothèse « plus c’est gros, mieux c’est ». Pourtant, des résultats récents montrent que des modèles plus petits comme TinyLlama et Dolly-v2-3B, avec moins de 3 milliards de paramètres, excellent dans des tâches telles que le raisonnement et la synthèse, ce qui leur vaut le titre de « petits géants ». Ces modèles utilisent moins de puissance de calcul et de stockage, ce qui rend l'IA plus accessible aux petites entreprises sans avoir besoin de GPU coûteux.
Conclusion
Les premiers modèles d’IA générative, notamment réseaux contradictoires génératifs (GAN) et encodeurs automatiques variationnels (VAE), a introduit de nouvelles approches pour gérer les données basées sur des images. Cependant, la véritable avancée est venue des grands modèles de langage basés sur des transformateurs. Ces modèles ont surpassé toutes les techniques antérieures de traitement de données non structurées en raison de leur structure d'encodeur-décodeur, de leurs mécanismes d'auto-attention et d'attention multi-têtes, leur accordant une compréhension approfondie du langage et permettant des capacités de raisonnement semblables à celles des humains.
Bien que l’IA générative offre un début prometteur pour extraire des données textuelles à partir de rapports, l’évolutivité de ces approches est limitée. Les premières étapes impliquent souvent un traitement OCR, qui peut entraîner des erreurs, et des difficultés persistent pour extraire le texte des images contenues dans les rapports.
Tandis que l’extraction du texte à l’intérieur des images dans les rapports constitue un autre défi. En adoptant des solutions telles que le traitement des données multimodales et les extensions de limite de jetons dans GPT-4, Claud3, Gemini offre une voie prometteuse. Cependant, il est important de noter que ces modèles sont accessibles uniquement via des API. Bien que l’utilisation d’API pour l’extraction de données à partir de documents soit à la fois efficace et rentable, elle comporte son propre ensemble de limitations telles que la latence, un contrôle limité et des risques de sécurité.
Une solution plus sécurisée et personnalisable réside dans la mise au point d’un LLM interne. Cette approche atténue non seulement les problèmes de confidentialité et de sécurité des données, mais améliore également le contrôle sur le processus d'extraction des données. Affiner un LLM pour comprendre la mise en page du document et saisir la signification du texte en fonction de son contexte offre une méthode robuste pour extraire des paires clé-valeur et des éléments de campagne. Tirant parti de l’apprentissage zéro et quelques coups, un modèle affiné peut s’adapter à diverses mises en page de documents, garantissant une extraction efficace et précise des données non structurées dans divers domaines.