Des leaders d'opinion
Utilisation de l'OCR pour les dessins techniques complexes

La reconnaissance optique de caractères (OCR) a révolutionné la façon dont les entreprises automatisent le traitement des documents. Cependant, la qualité et la précision de la technologie ne suffisent pas à toutes les applications. Plus le document traité est complexe, moins il devient précis. Cela est particulièrement vrai pour les dessins techniques. Bien que les technologies OCR prêtes à l'emploi ne soient pas adaptées à cette tâche, il existe d'autres moyens d'atteindre vos objectifs de traitement de documents avec l'OCR. Dans ce qui suit, j'explorerai plusieurs solutions viables pour vous donner une idée générale sans entrer dans trop de détails techniques.
Défis de la reconnaissance des dessins techniques
Lorsqu'il s'agit de dessins techniques, l'OCR a du mal à comprendre la signification des éléments de texte individuels. La technologie peut lire le texte, mais elle n’en comprend pas le sens. Il existe un certain nombre de possibilités pour les ingénieurs et les fabricants de considérer si la reconnaissance automatique du document technique est correctement configurée. Découvrez ci-dessous les plus significatifs d’entre eux.

Source de l'image: Mobidev
Pour réaliser une analyse complexe de la documentation technique, les ingénieurs doivent former des modèles d’IA. Tout comme les humains, les modèles d’IA ont besoin d’expérience et de formation pour comprendre ces dessins.
L’un des défis de la reconnaissance des plans et des dessins techniques est que le logiciel doit comprendre comment séparer les différentes vues du dessin. Ce sont différentes parties du dessin qui donnent une idée de base de sa disposition. En séparant les vues et en comprenant leurs relations les unes avec les autres, le logiciel peut calculer le cadre de délimitation.
Ce processus peut comporter plusieurs défis :
- Les vues peuvent se chevaucher
- Les vues pourraient être endommagées
- Les étiquettes peuvent être équidistantes par rapport à deux vues
- Les vues peuvent être imbriquées
La relation entre les points de vue est un autre problème possible. Vous devez déterminer si la vue est une partie plate du diagramme, une partie tournée, un bloc ou autre chose. De plus, il peut y avoir d'autres problèmes comme des mesures enchaînées, des annotations manquantes, des hauteurs implicitement définies par référence à une norme ou d'autres problèmes.
Il est important de noter que l’OCR générique ne peut pas comprendre de manière fiable le texte des dessins entouré d’éléments graphiques tels que des lignes, des symboles et des annotations. De ce fait, nous devons approfondir OCR avec apprentissage automatique ce qui sera plus utile pour cette application.
Modèles OCR pré-entraînés et personnalisés
Les logiciels OCR ne manquent pas sur le marché, mais tous ces logiciels ne peuvent pas être formés ou modifiés par l'utilisateur. Comme nous l'avons appris, une formation peut s'avérer nécessaire pour analyser vos dessins techniques. Il existe cependant des outils OCR pour ce type de dessins.
Outils OCR pré-entraînés
Voici quelques options courantes pour la reconnaissance OCR des dessins techniques :
- ABBYY FineReader : ce logiciel polyvalent d'interprétation de plans offre la technologie OCR avec des capacités de reconnaissance de texte. Il prend en charge divers formats d'image, la conservation de la mise en page, l'exportation de données et les intégrations.
- Adobe Acrobat Pro : en plus de fournir l'édition, la visualisation et la gestion de PDF, Acrobat vous permet de numériser des documents et des plans OCR, d'extraire du texte et d'effectuer des recherches. Il prend en charge différentes langues et permet aux utilisateurs de configurer les options.
- Version Bluebeam : Bluebeam Revu, autre application PDF populaire, propose des technologies OCR pour l'extraction de texte de dessins techniques.
- AutoCAD: signifiant Conception Assistée par Ordinateur, AutoCAD prend en charge les plugins OCR pour interpréter les plans et les convertir en éléments CAO modifiables.
- PlanGrid : ce logiciel inclut une interprétation OCR de plan prête à l'emploi. Avec cette fonctionnalité, vous pouvez télécharger des images de plan, puis extraire, organiser, indexer et rechercher le texte.
- Texte : cette fonctionnalité AWS basée sur le cloud permet l'analyse OCR des documents et peut extraire des éléments tels que des tableaux à partir de documents. Il peut également reconnaître des éléments de plans et fournit des API pour l'intégration avec d'autres applications.
- Butler OCR : fournissant aux développeurs des API d'extraction de documents, Butler OCR combine l'apprentissage automatique et l'examen humain pour améliorer la précision de la reconnaissance des documents.
Solutions ROC personnalisées
Si vous recherchez des solutions OCR personnalisées qui peuvent être formées pour obtenir une meilleure extraction automatique des données à partir de dessins techniques et les adapter à votre format de données spécifique, voici quelques options populaires :
- Tesseract : ce moteur OCR flexible et open source géré par Google peut être formé sur des données personnalisées pour reconnaître les caractères et symboles spécifiques au plan.
- OpenCV : La bibliothèque de vision par ordinateur Open Source peut être combinée avec des outils OCR tels que Tesseract pour créer des solutions d'interprétation personnalisées. Ses fonctions de traitement et d'analyse d'images peuvent améliorer la précision de l'OCR sur les dessins techniques lorsqu'elles sont correctement utilisées.
Outre ces outils, il est également possible de développer indépendamment des modèles d’apprentissage automatique personnalisés. En utilisant des modèles de formation sur des ensembles de données étiquetés, des frameworks tels que TensorFlow ou PyTorch, ces solutions peuvent être affinées pour reconnaître des éléments spécifiques du plan et atteindre une plus grande précision pour les besoins d'une organisation.
Les modèles pré-entraînés offrent commodité et facilité d'utilisation, mais peuvent ne pas être aussi efficaces pour interpréter les dessins techniques que les solutions personnalisées. Ces solutions personnalisées nécessitent également des ressources et une expertise supplémentaires pour être développées et maintenues.
Les solutions personnalisées nécessitent des ressources financières et une main-d’œuvre supplémentaires pour être développées. Je recommanderais de commencer par un preuve de concept (PoC) pour valider les capacités techniques et un produit minimum viable (MVP) pour vérifier la perception du marché sur le projet avant d'investir trop massivement dans une solution OCR personnalisée.
Le processus de mise en œuvre d'un module OCR pour la lecture de dessins techniques
Le meilleur endroit pour commencer à créer un logiciel OCR pour les dessins techniques serait d'analyser les outils open source. Si vous épuisez vos options open source, vous devrez peut-être vous tourner vers des options fermées avec des intégrations API.
Construire une solution OCR à partir de zéro n'est pas pratique car cela nécessite un énorme ensemble de données pour la formation. Cette collecte est difficile et coûteuse et nécessite beaucoup de ressources pour la formation du modèle. Dans la plupart des cas, l’ajustement des modèles existants devrait répondre à vos besoins.
Le processus à partir d'ici ressemble à ceci :
- Tenir compte des exigences: vous devez comprendre avec quel type de dessins techniques votre application doit fonctionner et quels types de caractéristiques et de fonctionnalités sont nécessaires pour atteindre cet objectif.
- Capture d'image et prétraitement: réfléchissez aux appareils que vous comptez utiliser pour capturer les images. Des étapes de prétraitement supplémentaires peuvent être nécessaires pour améliorer la qualité de vos résultats. Cela peut inclure le recadrage, le redimensionnement, le débruitage, etc.
- Intégration OCR: réfléchissez au moteur OCR qui fonctionnera le mieux avec votre application. Les bibliothèques OCR disposent d'API qui permettent à votre application d'extraire le texte des images capturées. Il est important d'envisager des solutions OCR open source pour réaliser des économies. Les API tierces peuvent être inconstantes en termes de tarification au fil du temps ou perdre leur support.
- Reconnaissance et traitement de texte: Ensuite, il est temps d'implémenter une logique pour traiter et reconnaître le texte. Certaines tâches possibles que vous pouvez envisager d'ajouter à cette étape sont le nettoyage du texte, la reconnaissance de la langue ou toute autre technique pouvant fournir des résultats de reconnaissance de texte plus clairs.
- Interface utilisateur et expérience: une interface utilisateur facile à utiliser pour l'application est importante afin que l'utilisateur puisse l'utiliser efficacement pour capturer des images et lancer l'OCR. Les résultats doivent être présentés à l'utilisateur d'une manière facile à comprendre.
- Tests: testez minutieusement l’application pour garantir son exactitude et sa convivialité. Les commentaires des utilisateurs sont essentiels à ce processus.
Récapitulation
Face aux défis liés à la création d’un logiciel OCR pour les dessins techniques complexes, les organisations disposent d’un certain nombre d’options pour aborder le problème. À partir d'une gamme de modèles pré-entraînés et d'outils personnalisables pour créer des solutions plus personnalisées, les entreprises peuvent trouver des moyens d'analyser, d'indexer et de rechercher efficacement dans des plans et autres documents complexes. Tout ce qu’il faut, c’est de l’ingéniosité, de la créativité et du temps pour élaborer une solution qui répond à leurs besoins.












