Líderes de pensamento
Usando OCR para desenhos de engenharia complexos

O reconhecimento óptico de caracteres (OCR) revolucionou a maneira como as empresas automatizam o processamento de documentos. No entanto, a qualidade e a precisão da tecnologia não são suficientes para todas as aplicações. Quanto mais complexo for o documento processado, menos preciso ele se tornará. Isto é especialmente verdadeiro para desenhos de engenharia. Embora as tecnologias de OCR prontas para uso possam não ser adequadas para esta tarefa, existem outras maneiras de atingir seus objetivos de processamento de documentos com OCR. A seguir, explorarei diversas soluções viáveis para lhe dar uma ideia geral sem entrar em muitos detalhes técnicos.
Desafios do reconhecimento de desenhos de engenharia
Quando se trata de desenhos técnicos, o OCR tem dificuldade para compreender o significado de elementos individuais do texto. A tecnologia consegue ler o texto, mas não entende o seu significado. Existem diversas oportunidades para engenheiros e fabricantes considerarem se o reconhecimento automático do documento técnico está configurado corretamente. Veja abaixo os mais significativos deles.

Fonte da imagem: Mobidev
Para realizar análises complexas de documentação técnica, os engenheiros precisam treinar modelos de IA. Assim como os humanos, os modelos de IA precisam de experiência e treinamento para compreender esses desenhos.
Um desafio do reconhecimento de plantas e desenhos de engenharia é que o software deve compreender como separar as diferentes vistas do desenho. São diferentes partes do desenho que dão uma ideia básica do seu layout. Ao separar as visualizações e compreender como elas se relacionam, o software pode calcular a caixa delimitadora.
Este processo pode incluir vários desafios:
- As visualizações podem se sobrepor
- As visualizações podem ser danificadas
- Os rótulos podem ser equidistantes de duas visualizações
- As visualizações podem estar aninhadas
A relação entre pontos de vista é outra questão possível. Você deve considerar se a vista é uma parte plana do diagrama, uma parte torneada, um bloco ou qualquer outra coisa. Além disso, pode haver outros problemas como medidas encadeadas, anotações faltantes, alturas definidas implicitamente através de referência a um padrão ou outros problemas.
É importante ressaltar que o OCR genérico não consegue compreender de forma confiável o texto em desenhos cercados por elementos gráficos como linhas, símbolos e anotações. Devido a esse fato, precisamos nos aprofundar OCR com aprendizado de máquina o que será mais útil para esta aplicação.
Modelos de OCR pré-treinados e personalizados
Não faltam softwares de OCR no mercado, mas nem todos esses softwares podem ser treinados ou modificados pelo usuário. Como aprendemos, o treinamento pode ser uma necessidade para analisar seus desenhos de engenharia. No entanto, existem ferramentas de OCR para esses tipos de desenhos.
Ferramentas de OCR pré-treinadas
Aqui estão algumas opções comuns para reconhecimento OCR de desenhos de engenharia:
- ABBYY FineReader: este versátil software de interpretação de projetos oferece tecnologia OCR com recursos de reconhecimento de texto. Suporta vários formatos de imagem, retenção de layout, exportação de dados e integrações.
- Adobe Acrobat Pro: além de fornecer edição, visualização e gerenciamento de PDF, o Acrobat permite digitalizar documentos e projetos OCR, extrair texto e realizar pesquisas. Suporta vários idiomas e permite aos usuários configurar opções.
- Raio Azul Revu: outro aplicativo PDF popular, o Bluebeam Revu oferece tecnologias OCR para extração de texto de desenhos de engenharia.
- AutoCAD: que significa Computer Aided Design, o AutoCAD oferece suporte a plug-ins de OCR para interpretar projetos e convertê-los em elementos CAD editáveis.
- PlanGrid: este software inclui interpretação de OCR de projeto pronto para uso. Com esse recurso, você pode fazer upload de imagens de projeto e extrair, organizar, indexar e pesquisar o texto.
- Texto: esse recurso da AWS baseado em nuvem permite a análise de OCR de documentos e pode extrair elementos como tabelas de documentos. Ele também pode reconhecer elementos de projetos e fornecer APIs para integração com outros aplicativos.
- Butler OCR: fornecendo aos desenvolvedores APIs de extração de documentos, o Butler OCR combina aprendizado de máquina com revisão humana para aumentar a precisão do reconhecimento de documentos.
Soluções de OCR personalizadas
Se você está procurando soluções de OCR personalizadas que possam ser treinadas para obter uma melhor extração automática de dados de desenhos de engenharia e adotá-los ao seu formato de dados específico, aqui estão algumas opções populares:
- Tesserato: esse mecanismo de OCR flexível e de código aberto mantido pelo Google pode ser treinado em dados personalizados para reconhecer caracteres e símbolos específicos do projeto.
- OpenCV: A biblioteca de visão computacional de código aberto pode ser combinada com ferramentas de OCR como o Tesseract para construir soluções interpretativas personalizadas. Suas funções de processamento e análise de imagens podem aumentar a precisão do OCR em desenhos de engenharia, quando utilizadas corretamente.
Além dessas ferramentas, também é possível desenvolver de forma independente modelos personalizados de aprendizado de máquina. Ao utilizar modelos de treinamento em conjuntos de dados rotulados, estruturas como TensorFlow ou PyTorch, essas soluções podem ser ajustadas para reconhecer elementos específicos do blueprint e alcançar maior precisão para as necessidades de uma organização.
Modelos pré-treinados oferecem conveniência e facilidade de uso, mas podem não ser tão eficazes na interpretação de desenhos de engenharia quanto soluções personalizadas. Essas soluções personalizadas também exigem recursos e conhecimentos adicionais para serem desenvolvidas e mantidas.
Soluções personalizadas requerem recursos financeiros e mão de obra adicionais para serem desenvolvidas. Eu recomendaria começar com um prova de conceito (PoC) validar capacidades técnicas e um produto mínimo viável (MVP) para verificar a percepção do mercado sobre o projeto antes de investir muito em uma solução de OCR personalizada.
O processo de implementação de um módulo OCR para leitura de desenhos de engenharia
O melhor lugar para começar a construir software OCR para desenhos de engenharia seria analisar ferramentas de código aberto. Se você esgotar suas opções de código aberto, talvez seja necessário recorrer a opções de código fechado com integrações de API.
Construir uma solução de OCR do zero é impraticável porque requer um enorme conjunto de dados para treinamento. Isso é difícil e caro de coletar e requer muitos recursos para o treinamento do modelo. Na maioria dos casos, o ajuste fino dos modelos existentes deve atender às suas necessidades.
O processo daqui é mais ou menos assim:
- Considere os requisitos: você precisa entender com que tipo de desenhos de engenharia sua aplicação deve funcionar e quais tipos de recursos e funcionalidades são necessários para atingir esse objetivo.
- Captura e pré-processamento de imagens: pense em quais dispositivos você planeja usar para capturar as imagens. Podem ser necessárias etapas extras de pré-processamento para melhorar a qualidade dos seus resultados. Isso pode incluir corte, redimensionamento, remoção de ruído e muito mais.
- Integração OCR: considere o mecanismo de OCR que funcionará melhor com seu aplicativo. As bibliotecas de OCR possuem APIs que permitem que seu aplicativo extraia texto de imagens capturadas. É importante considerar soluções de OCR de código aberto para economia de custos. APIs de terceiros podem ser instáveis em relação aos preços ao longo do tempo ou perder suporte.
- Reconhecimento e processamento de texto: a seguir, é hora de implementar lógica para processar e reconhecer texto. Algumas tarefas possíveis que você pode considerar adicionar nesta etapa são limpeza de texto, reconhecimento de idioma ou qualquer outra técnica que possa fornecer resultados de reconhecimento de texto mais claros.
- Interface do usuário e experiência: uma interface de usuário fácil de usar para o aplicativo é importante para que o usuário possa usá-lo com eficácia para capturar imagens e iniciar o OCR. Os resultados devem ser apresentados ao usuário de uma forma fácil de entender.
- Ensaios: teste exaustivamente o aplicativo para garantir sua precisão e usabilidade. O feedback do usuário é essencial para este processo.
Resumindo
Diante dos desafios da criação de software OCR para desenhos de engenharia complexos, as organizações têm uma série de opções disponíveis para abordar o problema. A partir de uma variedade de modelos pré-treinados e ferramentas personalizáveis para criar soluções mais personalizadas, as empresas podem encontrar maneiras de analisar, indexar e pesquisar com eficácia projetos e outros documentos complexos. Basta um pouco de engenhosidade, criatividade e tempo para criar uma solução que atenda às suas necessidades.