Свяжитесь с нами:

Использование OCR для сложных инженерных чертежей

Лидеры мысли

Использование OCR для сложных инженерных чертежей

mm

Оптическое распознавание символов (OCR) произвело революцию в том, как предприятия автоматизируют обработку документов. Однако качество и точность технологии не подходят для любого применения. Чем сложнее обрабатываемый документ, тем менее точным он становится. Особенно это касается инженерных чертежей. Хотя стандартные технологии оптического распознавания символов могут не подойти для этой задачи, существуют и другие способы достижения ваших целей по обработке документов с помощью оптического распознавания символов. Далее я рассмотрю несколько жизнеспособных решений, чтобы дать вам общее представление, не вдаваясь в слишком много технических подробностей.

Проблемы распознавания инженерных чертежей

Когда дело доходит до технических чертежей, OCR с трудом понимает значение отдельных текстовых элементов. Технология может прочитать текст, но не понимает его смысла. Существует ряд возможностей, которые следует учитывать инженерам и производителям, если правильно настроено автоматическое распознавание технического документа. Самые значимые из них смотрите ниже.

Источник изображения: Мобидев

Чтобы добиться сложного анализа технической документации, инженерам необходимо обучать модели ИИ. Как и люди, модели ИИ нуждаются в опыте и обучении, чтобы понимать эти рисунки.

Одна из проблем распознавания чертежей и технических чертежей заключается в том, что программное обеспечение должно понимать, как разделить различные виды чертежа. Это разные части рисунка, дающие основное представление о его расположении. Разделив виды и поняв, как они связаны друг с другом, программа может рассчитать ограничивающую рамку.

Этот процесс может включать в себя несколько задач:

  • Просмотры могут пересекаться
  • Просмотры могут быть повреждены
  • Метки могут быть на равном расстоянии от двух представлений.
  • Представления могут быть вложенными

Отношения между взглядами — еще одна возможная проблема. Вы должны учитывать, является ли вид плоской частью диаграммы, развернутой частью, блоком или чем-то еще. Кроме того, могут возникнуть другие проблемы, такие как связанные меры, отсутствующие аннотации, неявно определенные высоты посредством ссылки на стандарт или другие проблемы.

Важно отметить, что стандартное OCR не может надежно распознать текст на рисунках, окруженный графическими элементами, такими как линии, символы и аннотации. В связи с этим нам необходимо углубиться в OCR с машинным обучением который будет более полезен для этого приложения.

Предварительно обученные и пользовательские модели OCR

На рынке нет недостатка в программном обеспечении OCR, но не все это программное обеспечение может быть обучено или модифицировано пользователем. Как мы узнали, для анализа ваших инженерных чертежей может потребоваться обучение. Однако инструменты оптического распознавания символов для подобных рисунков существуют.

Предварительно обученные инструменты оптического распознавания символов

Вот несколько распространенных вариантов распознавания инженерных чертежей с помощью оптического распознавания символов:

  • ABBYY FineReader: Это универсальное программное обеспечение для интерпретации чертежей предлагает технологию оптического распознавания символов с возможностями распознавания текста. Он поддерживает различные форматы изображений, сохранение макета, экспорт данных и интеграцию.
  • Adobe Акробат Про: Помимо редактирования, просмотра и управления PDF-файлами, Acrobat позволяет сканировать документы и чертежи OCR, извлекать текст и выполнять поиск. Он поддерживает различные языки и позволяет пользователям настраивать параметры.
  • Голубой луч Реву: Еще одно популярное приложение PDF, Bluebeam Revu, предлагает технологии оптического распознавания символов для инженерного извлечения текста из чертежей.
  • AutoCAD: AutoCAD, обозначающий автоматизированное проектирование, поддерживает плагины OCR для интерпретации чертежей и преобразования их в редактируемые элементы САПР.
  • ПланСетка: это программное обеспечение включает в себя интерпретацию оптического распознавания символов прямо из коробки. С помощью этой функции вы можете загружать изображения чертежей, а затем извлекать, систематизировать, индексировать и искать текст.
  • Тексттракт: Эта облачная функция AWS позволяет анализировать документы с помощью оптического распознавания символов и извлекать из документов такие элементы, как таблицы. Он также может распознавать элементы чертежей и предоставляет API для интеграции с другими приложениями.
  • Butler OCR: предоставляя разработчикам API-интерфейсы для извлечения документов, Butler OCR сочетает машинное обучение с человеческой проверкой для повышения точности распознавания документов.

Индивидуальные решения оптического распознавания символов

Если вы ищете специальные решения оптического распознавания символов, которые можно обучить для более эффективного автоматического извлечения данных из инженерных чертежей и адаптировать их к вашему конкретному формату данных, вот несколько популярных вариантов:

  • Тессеракт: Этот гибкий механизм оптического распознавания символов с открытым исходным кодом, поддерживаемый Google, можно обучить на пользовательских данных распознаванию символов и символов, специфичных для чертежей.
  • ОпенКВ: Библиотеку компьютерного зрения с открытым исходным кодом можно комбинировать с инструментами оптического распознавания символов, такими как Tesseract, для создания индивидуальных интерпретационных решений. Его функции обработки и анализа изображений при правильном использовании могут повысить точность оптического распознавания символов на инженерных чертежах.

Помимо этих инструментов, также можно самостоятельно разрабатывать собственные модели машинного обучения. Используя модели обучения на помеченных наборах данных и такие платформы, как TensorFlow или PyTorch, эти решения можно точно настроить для распознавания конкретных элементов схемы и достижения более высокой точности в соответствии с потребностями организации.

Предварительно обученные модели обеспечивают удобство и простоту использования, но могут быть не столь эффективны при интерпретации инженерных чертежей, как индивидуальные решения. Эти индивидуальные решения также требуют дополнительных ресурсов и опыта для разработки и обслуживания.

Нестандартные решения требуют дополнительных финансовых и трудовых ресурсов для разработки. Я бы рекомендовал начать с доказательство концепции (PoC) для проверки технических возможностей и минимально жизнеспособного продукта (MVP), чтобы проверить восприятие проекта рынком, прежде чем вкладывать слишком большие средства в собственное решение OCR.

Процесс внедрения модуля оптического распознавания символов для чтения инженерных чертежей

Лучшее место для начала создания программного обеспечения OCR для инженерных чертежей — это анализ доступных инструменты с открытым исходным кодом. Если вы исчерпали свои возможности с открытым исходным кодом, вам, возможно, придется обратиться к вариантам с закрытым исходным кодом с интеграцией API.

Создание решения OCR с нуля непрактично, поскольку для обучения требуется огромный набор данных. Собрать это сложно и дорого, и для обучения модели требуется много ресурсов. В большинстве случаев точная настройка существующих моделей должна соответствовать вашим потребностям.

Отсюда процесс выглядит примерно так:

  1. Учитывайте требования: вам необходимо понять, с какими инженерными чертежами должно работать ваше приложение и какие функции и возможности необходимы для достижения этой цели.
  2. Захват изображения и предварительная обработка: подумайте, какие устройства вы планируете использовать для захвата изображений. Для повышения качества результатов могут потребоваться дополнительные этапы предварительной обработки. Это может включать обрезку, изменение размера, шумоподавление и многое другое.
  3. Интеграция OCR: рассмотрите механизм оптического распознавания символов, который лучше всего будет работать с вашим приложением. Библиотеки OCR имеют API, которые позволяют вашему приложению извлекать текст из захваченных изображений. Для экономии средств важно рассмотреть возможность использования решений OCR с открытым исходным кодом. Сторонние API могут со временем меняться в отношении цен или терять поддержку.
  4. Распознавание и обработка текста: Далее пришло время реализовать логику для обработки и распознавания текста. Некоторые возможные задачи, которые вы можете рассмотреть на этом этапе, — это очистка текста, распознавание языка или любые другие методы, которые могут обеспечить более четкие результаты распознавания текста.
  5. Пользовательский интерфейс и опыт: важен простой в использовании пользовательский интерфейс приложения, чтобы пользователь мог эффективно использовать его для захвата изображений и запуска оптического распознавания символов. Результаты должны быть представлены пользователю в понятной форме.
  6. Тестирование: тщательно протестируйте приложение, чтобы убедиться в его точности и удобстве использования. Обратная связь с пользователем важна для этого процесса.

Подводя итог

Столкнувшись с проблемами создания программного обеспечения OCR для сложных инженерных чертежей, у организаций есть ряд вариантов решения этой проблемы. Используя ряд предварительно обученных моделей и настраиваемых инструментов для создания более персонализированных решений, компании могут найти способы эффективного анализа, индексации и поиска в чертежах и других сложных документах. Все, что требуется, — это изобретательность, творческий подход и время, чтобы разработать решение, отвечающее их потребностям.

Руководитель группы искусственного интеллекта в МобиДев, компании по разработке программного обеспечения, которая помогает компаниям по всему миру внедрять инновации с помощью передовых технологий, таких как искусственный интеллект, наука о данных, дополненная реальность и Интернет вещей. Ее профессиональная деятельность — анализ данных, прогнозирование, НЛП и чат-боты. Автор статей по искусственному интеллекту для AiiotTalk, Hackernoon, DevTo. Докладчик на различных конференциях по искусственному интеллекту и технических переговорах.