Vordenker

Verwendung von OCR für komplexe technische Zeichnungen

Veröffentlicht September 14, 2023

Liubov Zatolokina

Die optische Zeichenerkennung (OCR) hat die Art und Weise revolutioniert, wie Unternehmen die Dokumentenverarbeitung automatisieren. Allerdings ist die Qualität und Genauigkeit der Technologie nicht für jede Anwendung geeignet. Je komplexer das zu verarbeitende Dokument ist, desto ungenauer wird es. Dies gilt insbesondere für technische Zeichnungen. Obwohl standardmäßige OCR-Technologien für diese Aufgabe möglicherweise nicht geeignet sind, gibt es andere Möglichkeiten, Ihre Ziele bei der Dokumentenverarbeitung mit OCR zu erreichen. Im Folgenden werde ich mehrere praktikable Lösungen untersuchen, um Ihnen einen allgemeinen Überblick zu geben, ohne zu sehr auf technische Details einzugehen.

Herausforderungen bei der Erkennung technischer Zeichnungen

Bei technischen Zeichnungen hat OCR Schwierigkeiten, die Bedeutung einzelner Textelemente zu verstehen. Die Technologie kann den Text lesen, aber sie versteht seine Bedeutung nicht. Für Ingenieure und Hersteller gibt es eine Reihe von Möglichkeiten zu prüfen, ob die automatische Erkennung des technischen Dokuments richtig konfiguriert ist. Nachfolgend finden Sie die wichtigsten davon.

Bildquelle: Mobidev

Um eine komplexe technische Dokumentationsanalyse durchzuführen, müssen Ingenieure KI-Modelle trainieren. Genau wie Menschen benötigen KI-Modelle Erfahrung und Training, um diese Zeichnungen zu verstehen.

Eine Herausforderung bei der Erkennung von Bauplänen und Konstruktionszeichnungen besteht darin, dass die Software verstehen muss, wie die verschiedenen Ansichten der Zeichnung getrennt werden. Dabei handelt es sich um verschiedene Teile der Zeichnung, die eine grundlegende Vorstellung von ihrem Aufbau vermitteln. Durch die Trennung der Ansichten und das Verständnis ihrer Beziehung zueinander kann die Software den Begrenzungsrahmen berechnen.

Dieser Prozess kann mehrere Herausforderungen beinhalten:

Ansichten können sich überschneiden
Ansichten könnten beschädigt sein
Beschriftungen können für zwei Ansichten den gleichen Abstand haben
Ansichten können verschachtelt sein

Die Beziehung zwischen Ansichten ist ein weiteres mögliches Problem. Sie müssen überlegen, ob es sich bei der Ansicht um einen flachen Teil des Diagramms, ein gedrehtes Teil, einen Block oder etwas anderes handelt. Darüber hinaus kann es zu weiteren Problemen wie verketteten Maßen, fehlenden Anmerkungen, implizit definierten Höhen durch Verweis auf eine Norm oder anderen Problemen kommen.

Wichtig ist, dass generisches OCR Text in Zeichnungen, der von grafischen Elementen wie Linien, Symbolen und Anmerkungen umgeben ist, nicht zuverlässig verstehen kann. Aufgrund dieser Tatsache müssen wir tiefer eintauchen OCR mit maschinellem Lernen was für diese Anwendung hilfreicher sein wird.

Vorab trainierte und benutzerdefinierte OCR-Modelle

Es gibt keinen Mangel an OCR-Software auf dem Markt, aber nicht jede dieser Software kann vom Benutzer trainiert oder geändert werden. Wie wir erfahren haben, kann eine Schulung für die Analyse Ihrer Konstruktionszeichnungen erforderlich sein. Es gibt jedoch OCR-Tools für diese Art von Zeichnungen.

Vorgefertigte OCR-Tools

Hier sind einige gängige Optionen für die OCR-Erkennung von Konstruktionszeichnungen:

ABBYY FineReader: Diese vielseitige Blaupausen-Interpretationssoftware bietet OCR-Technologie mit Erkennungsfunktionen für Text. Es unterstützt verschiedene Bildformate, Layout-Beibehaltung, Datenexport und Integrationen.
Adobe Acrobat Pro: Acrobat ermöglicht nicht nur die Bearbeitung, Anzeige und Verwaltung von PDF-Dateien, sondern ermöglicht Ihnen auch das Scannen von OCR-Dokumenten und Blaupausen, das Extrahieren von Text und das Durchführen von Suchvorgängen. Es unterstützt verschiedene Sprachen und ermöglicht Benutzern die Konfiguration von Optionen.
Bluebeam-Revu: Bluebeam Revu, eine weitere beliebte PDF-Anwendung, bietet OCR-Technologien für die Textextraktion in technischen Zeichnungen.
AutoCAD: AutoCAD steht für Computer Aided Design und unterstützt OCR-Plugins zur Interpretation von Bauplänen und deren Umwandlung in bearbeitbare CAD-Elemente.
PlanGrid: Diese Software beinhaltet standardmäßig die OCR-Interpretation von Blaupausen. Mit dieser Funktion können Sie Blaupausenbilder hochladen und dann den Text extrahieren, organisieren, indizieren und durchsuchen.
Textauszug: Diese cloudbasierte AWS-Funktion ermöglicht die OCR-Analyse von Dokumenten und kann Elemente wie Tabellen aus Dokumenten extrahieren. Es kann auch Elemente aus Blaupausen erkennen und stellt APIs für die Integration mit anderen Anwendungen bereit.
Butler OCR: Butler OCR stellt Entwicklern APIs zur Dokumentenextraktion zur Verfügung und kombiniert maschinelles Lernen mit menschlicher Überprüfung, um die Genauigkeit der Dokumentenerkennung zu verbessern.

Benutzerdefinierte OCR-Lösungen

Wenn Sie nach benutzerdefinierten OCR-Lösungen suchen, die trainiert werden können, um eine bessere automatische Datenextraktion aus Konstruktionszeichnungen zu erreichen und diese an Ihr spezifisches Datenformat anzupassen, finden Sie hier einige beliebte Optionen:

Tesserakt: Diese flexible, von Google verwaltete Open-Source-OCR-Engine kann anhand benutzerdefinierter Daten trainiert werden, um bauplanspezifische Zeichen und Symbole zu erkennen.
OpenCV: Die Open-Source-Computer-Vision-Bibliothek kann mit OCR-Tools wie Tesseract kombiniert werden, um benutzerdefinierte Interpretationslösungen zu erstellen. Seine Bildverarbeitungs- und Analysefunktionen können bei richtiger Verwendung die Genauigkeit der OCR auf technischen Zeichnungen verbessern.

Abgesehen von diesen Tools ist es auch möglich, eigenständig benutzerdefinierte Modelle für maschinelles Lernen zu entwickeln. Durch die Verwendung von Trainingsmodellen für gekennzeichnete Datensätze und Frameworks wie TensorFlow oder PyTorch können diese Lösungen so optimiert werden, dass sie bestimmte Blaupausenelemente erkennen und eine höhere Genauigkeit für die Anforderungen einer Organisation erreichen.

Vorab trainierte Modelle bieten Komfort und Benutzerfreundlichkeit, sind jedoch bei der Interpretation technischer Zeichnungen möglicherweise nicht so effektiv wie kundenspezifische Lösungen. Diese kundenspezifischen Lösungen erfordern außerdem zusätzliche Ressourcen und Fachwissen für die Entwicklung und Wartung.

Für die Entwicklung kundenspezifischer Lösungen sind zusätzliche finanzielle Ressourcen und Arbeitskräfte erforderlich. Ich würde empfehlen, mit einem zu beginnen Proof of Concept (PoC) um technische Fähigkeiten und ein Minimum Viable Product (MVP) zu validieren, um die Wahrnehmung des Projekts durch den Markt zu überprüfen, bevor zu viel in eine benutzerdefinierte OCR-Lösung investiert wird.

Der Prozess der Implementierung eines OCR-Moduls zum Lesen von technischen Zeichnungen

Der beste Ausgangspunkt für die Entwicklung einer OCR-Software für Konstruktionszeichnungen wäre die Analyse verfügbarer Dokumente Open-Source-Tools. Wenn Sie Ihre Open-Source-Optionen ausgeschöpft haben, müssen Sie möglicherweise auf Closed-Source-Optionen mit API-Integrationen zurückgreifen.

Der Aufbau einer OCR-Lösung von Grund auf ist unpraktisch, da für das Training ein riesiger Datensatz erforderlich ist. Dies ist schwierig und teuer zu erfassen und erfordert viele Ressourcen für das Modelltraining. In den meisten Fällen sollte die Feinabstimmung vorhandener Modelle Ihren Anforderungen entsprechen.

Von hier aus sieht der Prozess in etwa so aus:

Berücksichtigen Sie die Anforderungen: Sie müssen verstehen, mit welchen technischen Zeichnungen Ihre Anwendung arbeiten soll und welche Merkmale und Funktionen erforderlich sind, um dieses Ziel zu erreichen.
Bilderfassung und Vorverarbeitung: Überlegen Sie, mit welchen Geräten Sie die Bilder aufnehmen möchten. Möglicherweise sind zusätzliche Vorverarbeitungsschritte erforderlich, um die Qualität Ihrer Ergebnisse zu verbessern. Dies kann Zuschneiden, Größenänderung, Rauschunterdrückung und mehr umfassen.
OCR-Integration: Erwägen Sie die OCR-Engine, die am besten zu Ihrer Anwendung passt. OCR-Bibliotheken verfügen über APIs, die es Ihrer Anwendung ermöglichen, Text aus erfassten Bildern zu extrahieren. Um Kosten zu sparen, ist es wichtig, Open-Source-OCR-Lösungen in Betracht zu ziehen. APIs von Drittanbietern können im Laufe der Zeit hinsichtlich der Preisgestaltung schwanken oder den Support verlieren.
Texterkennung und -verarbeitung: Als nächstes ist es an der Zeit, Logik zum Verarbeiten und Erkennen von Text zu implementieren. Mögliche Aufgaben, die Sie in diesem Schritt hinzufügen können, sind Textbereinigung, Spracherkennung oder andere Techniken, die klarere Ergebnisse bei der Texterkennung liefern können.
Benutzeroberfläche und Erfahrung: Eine benutzerfreundliche Benutzeroberfläche für die App ist wichtig, damit der Benutzer sie effektiv zum Erfassen von Bildern und zum Initiieren von OCR verwenden kann. Die Ergebnisse sollten für den Benutzer leicht verständlich dargestellt werden.
Tests: Testen Sie die Anwendung gründlich, um ihre Genauigkeit und Benutzerfreundlichkeit sicherzustellen. Das Feedback der Benutzer ist für diesen Prozess von entscheidender Bedeutung.

Fazit

Angesichts der Herausforderungen bei der Erstellung von OCR-Software für komplexe Konstruktionszeichnungen stehen Unternehmen eine Reihe von Optionen zur Verfügung, um das Problem anzugehen. Mithilfe einer Reihe vorab trainierter Modelle und anpassbarer Tools zur Erstellung personalisierterer Lösungen können Unternehmen Wege finden, Blaupausen und andere komplexe Dokumente effektiv zu analysieren, zu indizieren und zu durchsuchen. Alles, was Sie brauchen, ist etwas Einfallsreichtum, Kreativität und Zeit, um eine Lösung zu entwickeln, die ihren Bedürfnissen entspricht.

Verwandte Themen:OCR Vordenker