Líderes de pensamento
Utilizando OCR para Desenhos de Engenharia Complexos

O Reconhecimento Óptico de Caracteres (OCR) revolucionou a forma como as empresas automatizam o processamento de documentos. No entanto, a qualidade e a precisão da tecnologia não são suficientes para todas as aplicações. Quanto mais complexo for o documento sendo processado, menos precisa se torna. Isso é especialmente verdadeiro para desenhos de engenharia. Embora as tecnologias OCR prontas para uso não sejam adequadas para essa tarefa, existem outras maneiras de alcançar seus objetivos de processamento de documentos com OCR. No que segue, explorarei várias soluções viáveis para dar uma ideia geral sem entrar em detalhes técnicos demais.
Desafios do Reconhecimento de Desenhos de Engenharia
Quando se trata de desenhos técnicos, o OCR tem dificuldade em entender o significado de elementos de texto individuais. A tecnologia pode ler o texto, mas não entende seu significado. Existem várias oportunidades para engenheiros e fabricantes considerarem se o reconhecimento automático do documento técnico for configurado corretamente. Veja abaixo as mais significativas delas.

Fonte de imagem: Mobidev
Para alcançar a análise de documentação técnica complexa, os engenheiros precisam treinar modelos de IA. Assim como os humanos, os modelos de IA precisam de experiência e treinamento para entender esses desenhos.
Um desafio do reconhecimento de blueprints e desenhos de engenharia é que o software deve entender como separar as diferentes vistas do desenho. Essas são diferentes partes do desenho que dão uma ideia básica de sua disposição. Ao separar as vistas e entender como elas se relacionam entre si, o software pode calcular a caixa delimitadora.
Esse processo pode incluir vários desafios:
- As vistas podem se sobrepor
- As vistas podem estar danificadas
- As etiquetas podem estar equidistantes de duas vistas
- As vistas podem estar aninhadas
A relação entre as vistas é outro problema possível. Você deve considerar se a vista é uma parte plana do diagrama, uma parte girada, um bloco ou algo mais. Além disso, podem haver outros problemas, como medidas encadeadas, anotações faltantes, alturas implicitamente definidas por referência a um padrão, ou outros problemas.
Importante, o OCR genérico não pode entender confiavelmente o texto em desenhos que é cercado por elementos gráficos, como linhas, símbolos e anotações. Devido a esse fato, precisamos mergulhar mais fundo em OCR com aprendizado de máquina, que será mais útil para essa aplicação.
Modelos OCR Pré-Treinados e Personalizados
Não há falta de software OCR no mercado, mas nem todos esses softwares podem ser treinados ou modificados pelo usuário. Como aprendemos, o treinamento pode ser uma necessidade para analisar seus desenhos de engenharia. No entanto, existem ferramentas OCR para esse tipo de desenho.
Ferramentas OCR Pré-Treinadas
Aqui estão algumas opções comuns para reconhecimento OCR de desenhos de engenharia:
- ABBYY FineReader: esse software de interpretação de blueprint versátil oferece tecnologia OCR com capacidades de reconhecimento de texto. Ele suporta vários formatos de imagem, retenção de layout, exportação de dados e integrações.
- Adobe Acrobat Pro: além de fornecer edição, visualização e gerenciamento de PDF, o Acrobat permite que você digitalize documentos OCR e blueprints, extraia texto e realize buscas. Ele suporta vários idiomas e permite que os usuários configurem opções.
- Bluebeam Revu: outro aplicativo de PDF popular, o Bluebeam Revu oferece tecnologias OCR para extração de texto de desenhos de engenharia.
- AutoCAD: que significa Desenho Auxiliado por Computador, o AutoCAD suporta plugins OCR para interpretar blueprints e convertê-los em elementos CAD editáveis.
- PlanGrid: esse software inclui interpretação de blueprint OCR fora da caixa. Com essa funcionalidade, você pode carregar imagens de blueprints e, em seguida, extrair, organizar, indexar e buscar o texto.
- Textract: essa funcionalidade baseada em nuvem da AWS permite análise OCR de documentos e pode extrair elementos, como tabelas, de documentos. Ele também pode reconhecer elementos de blueprints e fornece APIs para integração com outros aplicativos.
- Butler OCR: fornecendo aos desenvolvedores APIs de extração de documentos, o Butler OCR combina aprendizado de máquina com revisão humana para melhorar a precisão do reconhecimento de documentos.
Soluções OCR Personalizadas
Se você está procurando por soluções OCR personalizadas que possam ser treinadas para alcançar uma extração de dados automática melhor de desenhos de engenharia e adaptá-la ao seu formato de dados específico, aqui estão algumas opções populares:
- Tesseract: esse motor OCR flexível e de código aberto, mantido pelo Google, pode ser treinado em dados personalizados para reconhecer caracteres e símbolos específicos de blueprint.
- OpenCV: a Biblioteca de Visão Computacional de Código Aberto pode ser combinada com ferramentas OCR, como o Tesseract, para construir soluções interpretativas personalizadas. Suas funções de processamento e análise de imagens podem melhorar a precisão do OCR em desenhos de engenharia quando utilizadas corretamente.
Além dessas ferramentas, também é possível desenvolver modelos de aprendizado de máquina personalizados de forma independente. Ao utilizar modelos de treinamento em conjuntos de dados rotulados, frameworks como TensorFlow ou PyTorch, essas soluções podem ser ajustadas para reconhecer elementos de blueprint específicos e alcançar uma precisão mais alta para as necessidades de uma organização.
Os modelos pré-treinados oferecem conveniência e facilidade de uso, mas podem não ser tão eficazes na interpretação de desenhos de engenharia quanto as soluções personalizadas. Essas soluções personalizadas também exigem recursos e expertise adicionais para desenvolver e manter.
As soluções personalizadas exigem recursos financeiros e mão de obra adicionais para desenvolver. Eu recomendaria começar com um prova de conceito (PoC) para validar as capacidades técnicas e um produto mínimo viável (MVP) para verificar a percepção do mercado do projeto antes de investir muito pesadamente em uma solução OCR personalizada.
O Processo de Implementação de um Módulo OCR para Leitura de Desenhos de Engenharia
O melhor lugar para começar a construir um software OCR para desenhos de engenharia seria analisar as ferramentas de código aberto disponíveis. Se você esgotar as opções de código aberto, pode precisar recorrer a opções de código fechado com integrações de API.
Construir uma solução OCR do zero é impraticável, pois requer um conjunto de dados enorme para treinamento. Isso é difícil e caro para coletar e requer muitos recursos para treinamento do modelo. Na maioria dos casos, ajustar modelos existentes deve atender às suas necessidades.
O processo a partir daqui parece algo assim:
- Considerar requisitos: você precisa entender com que tipo de desenhos de engenharia sua aplicação deve trabalhar e quais recursos e funcionalidades são necessários para alcançar esse objetivo.
- Captura e pré-processamento de imagens: pense sobre quais dispositivos você planeja usar para capturar as imagens. Etapas de pré-processamento adicionais podem ser necessárias para melhorar a qualidade dos resultados. Isso pode incluir recorte, redimensionamento, desruído e mais.
- Integração OCR: considere o motor OCR que funcionará melhor com sua aplicação. As bibliotecas OCR têm APIs que permitem que sua aplicação extraia texto de imagens capturadas. É importante considerar soluções OCR de código aberto para economia de custos. As APIs de terceiros podem ser caprichosas em relação aos preços ao longo do tempo ou perder o suporte.
- Reconhecimento e processamento de texto: em seguida, é hora de implementar a lógica para processar e reconhecer texto. Algumas tarefas possíveis que você pode considerar adicionar nessa etapa são limpeza de texto, reconhecimento de idioma ou outras técnicas que possam fornecer resultados de reconhecimento de texto mais claros.
- Interface do usuário e experiência: uma interface do usuário fácil de usar para o aplicativo é importante para que o usuário possa usá-lo efetivamente para capturar imagens e iniciar o OCR. Os resultados devem ser apresentados ao usuário de uma maneira fácil de entender.
- Testes: teste a aplicação minuciosamente para garantir sua precisão e usabilidade. O feedback do usuário é essencial para esse processo.
Conclusão
Diante dos desafios de criar software OCR para desenhos de engenharia complexos, as organizações têm várias opções disponíveis para abordar a questão. Desde uma gama de modelos pré-treinados e ferramentas personalizáveis para criar soluções mais personalizadas, as empresas podem encontrar maneiras de analisar, indexar e buscar efetivamente blueprints e outros documentos complexos. Tudo o que é necessário é um pouco de engenhosidade, criatividade e tempo para criar uma solução que atenda às suas necessidades.












