Лідери думок

Використання OCR для складних інженерних креслень

Published September 14, 2023

Updated April 28, 2026

Liubov Zatolokina

Оптичне розпізнавання символів (OCR) революціонізувало спосіб, яким підприємства автоматизують обробку документів. Однак якість і точність цієї технології не підходять для кожної застосування. Чим складніший документ, тим менша точність обробки. Це особливо справедливо для інженерних креслень. Хоча готові технології OCR можуть не підходити для цієї задачі, існують інші способи досягнення цілей обробки документів за допомогою OCR. У тому, що слідує, я розгляну кілька життєздатних рішень, щоб дати вам загальне уявлення без занурення у надто великі технічні деталі.

Виклики розпізнавання інженерних креслень

Коли мова йде про технічні креслення, OCR бореться з розумінням значення окремих текстових елементів. Технологія може читати текст, але не розуміє його значення. Є кілька можливостей для інженерів і виробників розглянути, якщо автоматичне розпізнавання технічного документа налаштовано правильно. Дивіться найбільш значущі з них нижче.

Джерело зображення: Mobidev

Для досягнення складної технічної документації аналіз інженери потребують навчання моделей штучного інтелекту. Як і люди, моделі штучного інтелекту потребують досвіду і навчання для розуміння цих креслень.

Одним з викликів розпізнавання креслень і інженерних креслень є те, що програмне забезпечення повинно зрозуміти, як розділити різні види креслення. Це різні частини креслення, які дають базове уявлення про його макет. Роздільючи види і розуміючи, як вони пов’язані один з одним, програмне забезпечення може розрахувати обмежувальний бокс.

Цей процес може включати кілька викликів:

Види можуть перекриватися
Види можуть бути пошкоджені
Мітки можуть бути однаково віддалені від двох видів
Види можуть бути вкладені

Відношення між видами є ще однією можливою проблемою. Ви повинні розглянути, чи є вид плоскою частиною діаграми, повернутою частиною, блоком або чимось іншим. Крім того, можуть бути інші проблеми, такі як ланцюгові вимірювання, відсутні анотації, неявно визначені висоти через посилання на стандарт або інші проблеми.

Важливо, що загальне OCR не може надійно зрозуміти текст у кресленнях, оточених графічними елементами, такими як лінії, символи та анотації. Через цю обставину нам потрібно глибше зануритися у OCR з машинним навчанням, яке буде більш корисним для цього застосування.

Предварньо натреновані та настраївані моделі OCR

Нема нестачі програмного забезпечення OCR на ринку, але не все це програмне забезпечення можна налаштувати або змінити користувачем. Як ми дізналися, навчання може бути необхідним для аналізу інженерних креслень. Однак інструменти OCR для цих видів креслень існують.

Предварньо натреновані інструменти OCR

Ось кілька загальних варіантів для розпізнавання інженерних креслень OCR:

ABBYY FineReader: це універсальне програмне забезпечення для інтерпретації креслень пропонує технологію OCR з можливостями розпізнавання тексту. Воно підтримує різні формати зображень, збереження макету, експорт даних та інтеграції.
Adobe Acrobat Pro: крім надання можливостей редагування, перегляду та управління PDF, Acrobat дозволяє сканувати документи OCR і креслення, витягувати текст та виконувати пошук. Воно підтримує різні мови та дозволяє користувачам налаштовувати параметри.
Bluebeam Revu: ще одна популярна програма для роботи з PDF, Bluebeam Revu пропонує технологію OCR для витягування тексту з інженерних креслень.
AutoCAD: що означає Комп’ютерний дизайн, AutoCAD підтримує плагіни OCR для інтерпретації креслень та перетворення їх у редаговані елементи CAD.
PlanGrid: це програмне забезпечення включає інтерпретацію креслень OCR з коробки. За допомогою цієї функції ви можете завантажити зображення креслень та витягнути, організувати, індексувати та пошукати текст.
Textract: ця хмарна функція AWS дозволяє здійснювати аналіз документів OCR та витягувати елементи, такі як таблиці з документів. Вона також може розпізнавати елементи з креслень та пропонує API для інтеграції з іншими програмами.
Butler OCR: надаючи розробникам API для витягування документів, Butler OCR поєднує машинне навчання з людською перевіркою для підвищення точності розпізнавання документів.

Настройовані рішення OCR

Якщо ви шукаєте настраївані рішення OCR, які можна налаштувати для досягнення кращої автоматичної витягування даних з інженерних креслень та адаптації до вашого конкретного формату даних, ось кілька популярних варіантів:

Tesseract: цей гнучкий, відкритий двигун OCR, підтримуваний Google, можна налаштувати на основі власних даних для розпізнавання символів і символів, специфічних для креслень.
OpenCV: відкрита бібліотека комп’ютерного зору можна поєднати з інструментами OCR, такими як Tesseract, для створення настраїваних інтерпретативних рішень. Її функції обробки та аналізу зображень можуть підвищити точність OCR на інженерних кресленнях при правильному використанні.

Крім цих інструментів, також можливо розробити незалежні настраївані моделі машинного навчання. Використовуючи навчальні моделі на позначених наборах даних,.frameworks, такі як TensorFlow або PyTorch, ці рішення можна налаштувати для розпізнавання конкретних елементів креслень та досягнення вищої точності для потреб організації.

Предварньо натреновані моделі пропонують зручність і легкість використання, але можуть не бути такими ефективними для інтерпретації інженерних креслень, як настраївані рішення. Ці настраївані рішення також потребують додаткових ресурсів та експертизи для розробки та підтримки.

Настройовані рішення потребують додаткових фінансових ресурсів та праці для розробки. Я б порадив почати з доказу концепції (PoC), щоб підтвердити технічні можливості та мінімально життєздатний продукт (MVP), щоб перевірити сприйняття ринку проєкту перед тим, як вкладати великі кошти у настраїване рішення OCR.

Процес реалізації модуля OCR для читання інженерних креслень

Найкраще місце для початку будівництва програмного забезпечення OCR для інженерних креслень буде аналіз доступних відкритих інструментів. Якщо ви вичерпали свої відкриті варіанти, вам може потрібно звернутися до закритих варіантів з інтеграціями API.

Будівництво рішення OCR з нуля є недоцільним, оскільки воно потребує величезного набору даних для навчання. Це складно і дорого витягнути та потребує великих ресурсів для навчання моделі. У більшості випадків налаштування існуючих моделей повинно відповідати вашим потребам.

Процес далі виглядає наступним чином:

Розглянути вимоги: вам потрібно зрозуміти, з якими інженерними кресленнями ваша програма повинна працювати, та які функції та можливості потрібні для досягнення цієї мети.
Захоплення зображення та попередня обробка: подумайте про те, які пристрої ви плануєте використовувати для захоплення зображень. Додаткові кроки попередньої обробки можуть бути потрібні для підвищення якості результатів. Це може включати обрізання, зміну розміру, шумоподавлення та інше.
Інтеграція OCR: розгляньте, який двигун OCR працюватиме найкраще з вашою програмою. Бібліотеки OCR мають API, які дозволяють вашій програмі витягувати текст з захоплених зображень. Важливо розглянути відкриті рішення OCR для економії коштів. Треті сторони API можуть бути непередбачуваними щодо ціноутворення з часом або втратити підтримку.
Розпізнавання та обробка тексту: далі, час реалізувати логіку для обробки та розпізнавання тексту. Деякі можливі завдання, які ви можете розглянути в цьому кроку, включають очистку тексту, розпізнавання мови або інші техніки, які можуть забезпечити чіткіше розпізнавання тексту.
Інтерфейс користувача та досвід: зручний інтерфейс користувача для програми важливий, щоб користувач міг ефективно використовувати його для захоплення зображень та ініціювання OCR. Результати повинні бути представлені користувачеві у вигляді, який легко зрозуміти.
Тестування: ретельно протестируйте програму, щоб забезпечити її точність та зручність використання. Зворотний зв’язок користувача важливий для цього процесу.

Підсумок

У face викликів створення програмного забезпечення OCR для складних інженерних креслень, організації мають кілька варіантів для підходу до цієї проблеми. Від ряду попередньо натренованих моделей та настраїваних інструментів до створення більш персоналізованих рішень, підприємства можуть знайти способи ефективно аналізувати, індексувати та шукати через креслення та інші складні документи. Все, що потрібно, – це деяка винахідливість, креативність та час для створення рішення, яке відповідає їхнім потребам.