ソートリーダー
OCRを使用した複雑なエンジニアリング図面

光学文字認識(OCR)技術は、企業が文書処理を自動化する方法を革命的に変えました。ただし、この技術の品質と精度は、すべてのアプリケーションに適しているわけではありません。処理される文書が複雑になるほど、精度は低下します。これは特にエンジニアリング図面に当てはまります。ただし、オフザシェルフのOCR技術がこのタスクに適していない場合でも、OCRを使用して文書処理の目標を達成する他の方法があります。以下では、技術的な詳細に深く立ち入らずに、OCRを使用して複雑なエンジニアリング図面を処理するためのいくつかの実行可能なソリューションを探ります。
エンジニアリング図面認識の課題
技術図面については、OCRは個々のテキスト要素の意味を理解するのに苦労します。技術はテキストを読み取ることができますが、その意味は理解できません。エンジニアや製造業者は、技術文書の自動認識が正しく設定されている場合に、考慮すべき機会があります。以下に最も重要なものを示します。

Image source: Mobidev
複雑な技術文書分析を実現するには、エンジニアはAIモデルをトレーニングする必要があります。人間と同様に、AIモデルもこれらの図面を理解するために経験とトレーニングが必要です。
ブループリントやエンジニアリング図面の認識の1つの課題は、ソフトウェアが図面の異なるビューを区別する方法を理解する必要があることです。これらは、図面のレイアウトについて基本的なアイデアを提供する図面の異なる部分です。ビューを区別し、それらが互いにどのように関連しているかを理解することで、ソフトウェアはバウンディングボックスを計算できます。
このプロセスには、いくつかの課題が含まれる可能性があります:
- ビューが重なり合う
- ビューが損傷する
- ラベルが2つのビューから等距離にある
- ビューがネストされている
ビュー間の関係も別の問題です。ビューが図の平面部分、回転部分、ブロック、またはその他のものであるかどうかを考慮する必要があります。さらに、連鎖測定、欠落した注釈、参照によって暗黙的に定義された高さ、またはその他の問題などの問題が発生する可能性があります。
重要な点は、ジェネリックOCRは、線、シンボル、注釈などのグラフィカル要素で囲まれた図面内のテキストを信頼性高く理解できないことです。この事実のため、OCRと機械学習についてより深く調査する必要があります。これは、このアプリケーションに役立つでしょう。
事前トレーニング済みおよびカスタムOCRモデル
OCRソフトウェアは市場にたくさんありますが、すべてのソフトウェアがユーザーによってトレーニングまたは変更できるわけではありません。私たちが学んだように、トレーニングはエンジニアリング図面を分析するために必要かもしれません。ただし、エンジニアリング図面用のOCRツールは存在します。
事前トレーニング済みOCRツール
エンジニアリング図面のOCR認識の一般的なオプションは次のとおりです:
- ABBYY FineReader: この多機能なブループリント解釈ソフトウェアは、テキスト認識能力を持つOCR技術を提供します。さまざまな画像形式、レイアウト保持、データエクスポート、統合をサポートします。
- Adobe Acrobat Pro: PDF編集、表示、管理を提供するだけでなく、AcrobatではOCRドキュメントとブループリントをスキャンしてテキストを抽出して検索できます。さまざまな言語をサポートし、ユーザーがオプションを構成できるようにします。
- Bluebeam Revu: もう1つの人気のPDFアプリケーション、Bluebeam Revuは、エンジニアリング図面テキスト抽出用のOCR技術を提供します。
- AutoCAD: コンピューター支援設計を意味するAutoCADは、ブループリントを解釈し、編集可能なCAD要素に変換するためのOCRプラグインをサポートします。
- PlanGrid: このソフトウェアには、オフザシェルフでブループリントOCR解釈が含まれています。この機能を使用すると、ブループリント画像をアップロードしてテキストを抽出し、整理し、インデックスを作成し、検索できます。
- Textract: このクラウドベースのAWS機能により、ドキュメントのOCR分析とドキュメントからのテーブル要素の抽出が可能です。ブループリントからの要素を認識し、他のアプリケーションとの統合用のAPIも提供します。
- Butler OCR: 開発者向けのドキュメント抽出APIを提供するButler OCRは、人間のレビューと組み合わせた機械学習を使用してドキュメント認識の精度を高めます。
カスタムOCRソリューション
エンジニアリング図面から自動データ抽出を改善するためにトレーニングできるカスタムOCRソリューションを探している場合、以下は人気のあるいくつかのオプションです:
- Tesseract: Googleが維持するこの柔軟なオープンソースOCRエンジンは、ブループリント固有の文字とシンボルを認識するためにカスタムデータでトレーニングできます。
- OpenCV: オープンソースコンピュータビジョンライブラリは、TesseractなどのOCRツールと組み合わせて、カスタム解釈ソリューションを構築できます。画像処理と分析機能を適切に使用すると、エンジニアリング図面のOCRの精度を高めることができます。
これらのツール以外に、独自のカスタム機械学習モデルを開発することもできます。ラベル付きデータセットでトレーニングされたモデルを使用して、TensorFlowやPyTorchなどのフレームワークを使用すると、特定のブループリント要素を認識し、組織のニーズに合わせて精度を高めることができます。
事前トレーニング済みモデルは便利で使いやすいですが、カスタムソリューションほどエンジニアリング図面を解釈するのに効果的ではない可能性があります。カスタムソリューションも、開発および維持のために追加のリソースと専門知識が必要です。
カスタムソリューションには、開発と維持のために追加の財務リソースと労力が必要です。私は、技術的な能力を検証し、最小限の実用的な製品(MVP)を作成して、プロジェクトに大量の投資をしてプロジェクトを開始する前に、PoC(概念実証)を開始することをお勧めします。
エンジニアリング図面のOCRモジュールの実装プロセス
エンジニアリング図面用のOCRソフトウェアを構築するための最良の場所は、利用可能なオープンソースツールを分析することです。オープンソースのオプションをすべて使用した場合、API統合を備えたクローズドソースオプションに切り替える必要がある場合があります。
スクラッチからOCRソリューションを構築することは実用的ではありません。大量のトレーニングデータセットが必要であり、これは収集とモデルトレーニングのリソースが多く必要です。ほとんどの場合、既存のモデルを微調整することでニーズを満たすことができます。
ここからのプロセスは次のようになります:
- 要件の検討: アプリケーションがどのようなエンジニアリング図面とどのような機能と機能で動作する必要があるかを理解する必要があります。
- 画像キャプチャと事前処理: 画像をキャプチャするために使用するデバイスについて考える必要があります。結果の品質を高めるために、追加の事前処理ステップが必要になる場合があります。これには、トリミング、リサイズ、ノイズ除去などが含まれる場合があります。
- OCR統合: アプリケーションに最も適したOCRエンジンを考慮する必要があります。OCRライブラリには、キャプチャされた画像からテキストを抽出できるAPIがあります。コスト削減のために、オープンソースOCRソリューションを考慮することが重要です。サードパーティAPIは、時間の経過とともに料金やサポートの変更に敏感になる可能性があります。
- テキスト認識と処理: 次に、テキストを処理して認識するためのロジックを実装する時間です。このステップで考慮する可能性のあるタスクのいくつかは、テキストクリーンアップ、言語認識、またはより明確なテキスト認識結果を提供するその他のテクニックです。
- ユーザーインターフェイスとエクスペリエンス: アプリのUIは、ユーザーが画像をキャプチャしてOCRを開始するために使用しやすいものでなければなりません。結果は、ユーザーが理解できるように提示する必要があります。
- テスト: アプリケーションの精度と使いやすさを確保するために、徹底的にテストする必要があります。ユーザーのフィードバックは、このプロセスに不可欠です。
まとめ
複雑なエンジニアリング図面のOCRソフトウェアを作成する課題に直面して、組織にはこの問題に対処するためのさまざまな選択肢があります。事前トレーニング済みモデルやカスタムツールを使用してよりパーソナライズされたソリューションを作成することから、ブループリントや他の複雑な文書を分析してインデックス化して検索するための方法を見つけることができます。必要なのは、少しの工夫、創造性、時間だけです。












