부본 복잡한 엔지니어링 도면에 OCR 사용 - Unite.AI
Rescale 미팅 예약

사상가

복잡한 엔지니어링 도면에 OCR 사용

mm

게재

 on

광학 문자 인식(OCR)은 기업이 문서 처리를 자동화하는 방식에 혁명을 일으켰습니다. 그러나 기술의 품질과 정확성이 모든 애플리케이션에 적용되는 것은 아닙니다. 처리되는 문서가 복잡할수록 정확성은 떨어집니다. 엔지니어링 도면의 경우 특히 그렇습니다. 기본 OCR 기술은 이 작업에 적합하지 않을 수 있지만 OCR을 사용하여 문서 처리 목표를 달성할 수 있는 다른 방법이 있습니다. 다음에서는 너무 많은 기술적 세부 사항을 다루지 않고도 일반적인 아이디어를 제공할 수 있는 몇 가지 실행 가능한 솔루션을 살펴보겠습니다.

엔지니어링 도면 인식의 과제

기술 도면의 경우 OCR은 개별 텍스트 요소의 의미를 이해하는 데 어려움을 겪습니다. 기술은 텍스트를 읽을 수 있지만 그 의미를 이해하지는 못합니다. 기술 문서의 자동 인식이 올바르게 구성되었는지 엔지니어와 제조업체가 고려할 수 있는 기회가 많이 있습니다. 아래에서 가장 중요한 것을 확인하세요.

이미지 소스 : 모비데프

복잡한 기술 문서 분석을 달성하려면 엔지니어는 AI 모델을 교육해야 합니다. 인간과 마찬가지로 AI 모델도 이러한 그림을 이해하려면 경험과 훈련이 필요합니다.

청사진 및 엔지니어링 도면 인식의 한 가지 과제는 소프트웨어가 도면의 다양한 보기를 분리하는 방법을 이해해야 한다는 것입니다. 이는 레이아웃의 기본 아이디어를 제공하는 도면의 여러 부분입니다. 뷰를 분리하고 뷰가 서로 어떻게 관련되어 있는지 이해함으로써 소프트웨어는 경계 상자를 계산할 수 있습니다.

이 프로세스에는 여러 가지 과제가 포함될 수 있습니다.

  • 뷰가 겹칠 수 있음
  • 뷰가 손상될 수 있습니다.
  • 라벨은 두 뷰에서 등거리에 있을 수 있습니다.
  • 뷰가 중첩될 수 있음

뷰 간의 관계는 또 다른 가능한 문제입니다. 뷰가 다이어그램의 평평한 부분인지, 회전된 부분인지, 블록인지, 아니면 다른 것인지 고려해야 합니다. 또한 연결된 측정값, 주석 누락, 표준 참조를 통해 암시적으로 정의된 높이 또는 기타 문제와 같은 다른 문제가 있을 수 있습니다.

중요한 점은 일반 OCR이 선, 기호, 주석과 같은 그래픽 요소로 둘러싸인 도면의 텍스트를 안정적으로 이해할 수 없다는 점입니다. 이 사실 때문에 우리는 더 깊이 들어가야 합니다. 머신러닝을 이용한 OCR 이 응용 프로그램에 더 도움이 될 것입니다.

사전 훈련된 사용자 정의 OCR 모델

시장에는 OCR 소프트웨어가 부족하지 않지만 사용자가 이 소프트웨어 전체를 교육하거나 수정할 수 있는 것은 아닙니다. 우리가 배운 대로 엔지니어링 도면을 분석하려면 교육이 필요할 수 있습니다. 그러나 이러한 종류의 도면을 위한 OCR 도구가 존재합니다.

사전 훈련된 OCR 도구

엔지니어링 도면의 OCR 인식을 위한 몇 가지 일반적인 옵션은 다음과 같습니다.

  • ABBYY 파인리더: 이 다목적 청사진 해석 소프트웨어는 텍스트 인식 기능을 갖춘 OCR 기술을 제공합니다. 다양한 이미지 형식, 레이아웃 유지, 데이터 내보내기 및 통합을 지원합니다.
  • 어도비 아크로뱃 프로: PDF 편집, 보기 및 관리 기능 외에도 Acrobat을 사용하면 OCR 문서 및 청사진을 스캔하고, 텍스트를 추출하고, 검색을 수행할 수 있습니다. 다양한 언어를 지원하며 사용자가 옵션을 구성할 수 있습니다.
  • Bluebeam Revu: 또 다른 인기 있는 PDF 애플리케이션인 Bluebeam Revu는 엔지니어링 도면 텍스트 추출을 위한 OCR 기술을 제공합니다.
  • AutoCAD : Computer Aided Design의 약자인 AutoCAD는 청사진을 해석하고 편집 가능한 CAD 요소로 변환하기 위한 OCR 플러그인을 지원합니다.
  • 계획 그리드: 이 소프트웨어에는 즉시 사용 가능한 청사진 OCR 해석이 포함되어 있습니다. 이 기능을 사용하면 청사진 이미지를 업로드한 다음 텍스트를 추출, 구성, 색인화 및 검색할 수 있습니다.
  • 텍스트: 이 클라우드 기반 AWS 기능을 사용하면 문서의 OCR 분석이 가능하고 문서에서 표와 같은 요소를 추출할 수 있습니다. 또한 청사진의 요소를 인식하고 다른 애플리케이션과의 통합을 위한 API를 제공할 수 있습니다.
  • Butler OCR: 개발자에게 문서 추출 API를 제공하는 Butler OCR은 기계 학습과 사람의 검토를 결합하여 문서 인식의 정확성을 향상시킵니다.

맞춤형 OCR 솔루션

엔지니어링 도면에서 더 나은 자동 데이터 추출을 달성하고 이를 특정 데이터 형식에 채택하도록 교육할 수 있는 맞춤형 OCR 솔루션을 찾고 있다면 다음과 같은 몇 가지 인기 있는 옵션이 있습니다.

  • 테서 랙트 : Google에서 유지 관리하는 이 유연한 오픈 소스 OCR 엔진은 맞춤 데이터를 학습하여 청사진 관련 문자와 기호를 인식할 수 있습니다.
  • 오픈CV: 오픈 소스 컴퓨터 비전 라이브러리는 Tesseract와 같은 OCR 도구와 결합하여 맞춤형 해석 솔루션을 구축할 수 있습니다. 이미지 처리 및 분석 기능을 적절하게 활용하면 엔지니어링 도면의 OCR 정확도를 높일 수 있습니다.

이러한 도구 외에도 맞춤형 기계 학습 모델을 독립적으로 개발하는 것도 가능합니다. 레이블이 지정된 데이터 세트, TensorFlow 또는 PyTorch와 같은 프레임워크에 대한 교육 모델을 활용하면 이러한 솔루션을 미세 조정하여 특정 청사진 요소를 인식하고 조직의 요구 사항에 맞게 더 높은 정확도를 달성할 수 있습니다.

사전 훈련된 모델은 편리성과 사용 용이성을 제공하지만 엔지니어링 도면을 해석하는 데는 맞춤형 솔루션만큼 효과적이지 않을 수 있습니다. 이러한 맞춤형 솔루션을 개발하고 유지하려면 추가 리소스와 전문 지식도 필요합니다.

맞춤형 솔루션을 개발하려면 추가적인 재정 자원과 노동력이 필요합니다. 나는 개념 증명 (PoC) 맞춤형 OCR 솔루션에 너무 많은 투자를 하기 전에 기술 역량과 MVP(최소 실행 가능 제품)를 검증하여 프로젝트에 대한 시장의 인식을 확인합니다.

엔지니어링 도면 판독을 위한 OCR 모듈 구현 과정

엔지니어링 도면용 OCR 소프트웨어 구축을 시작하는 가장 좋은 장소는 사용 가능한 분석을 수행하는 것입니다. 오픈 소스 도구. 오픈 소스 옵션을 모두 사용했다면 API 통합을 통해 비공개 소스 옵션으로 전환해야 할 수도 있습니다.

OCR 솔루션을 처음부터 구축하는 것은 훈련을 위해 막대한 데이터 세트가 필요하기 때문에 비현실적입니다. 이는 수집하기 어렵고 비용이 많이 들며 모델 교육을 위해 많은 리소스가 필요합니다. 대부분의 경우 기존 모델을 미세 조정하면 필요에 맞게 됩니다.

여기의 프로세스는 다음과 같습니다.

  1. 요구사항 고려: 응용 프로그램이 어떤 종류의 엔지니어링 도면과 함께 작동해야 하는지, 그리고 해당 목표를 달성하려면 어떤 종류의 특징과 기능이 필요한지 이해해야 합니다.
  2. 이미지 캡처 및 전처리: 이미지를 캡처하는 데 사용할 장치에 대해 생각해 보세요. 결과의 품질을 향상하려면 추가 전처리 단계가 필요할 수 있습니다. 여기에는 자르기, 크기 조정, 노이즈 제거 등이 포함될 수 있습니다.
  3. OCR 통합: 귀하의 응용 프로그램에 가장 잘 작동하는 OCR 엔진을 고려하십시오. OCR 라이브러리에는 애플리케이션이 캡처된 이미지에서 텍스트를 추출할 수 있는 API가 있습니다. 비용 절감을 위해서는 오픈 소스 OCR 솔루션을 고려하는 것이 중요합니다. 타사 API는 시간이 지남에 따라 가격이 변덕스럽거나 지원을 잃을 수 있습니다.
  4. 텍스트 인식 및 처리: 다음으로는 텍스트를 처리하고 인식하는 로직을 구현해보겠습니다. 이 단계에서 추가를 고려할 수 있는 작업으로는 텍스트 정리, 언어 인식 또는 보다 명확한 텍스트 인식 결과를 제공할 수 있는 기타 기술이 있습니다.
  5. 사용자 인터페이스 및 경험: 사용자가 이미지를 캡처하고 OCR을 시작하는 데 효과적으로 사용할 수 있도록 사용하기 쉬운 앱 UI가 중요합니다. 결과는 사용자가 이해하기 쉬운 방식으로 제공되어야 합니다.
  6. 지원: 정확성과 유용성을 보장하기 위해 애플리케이션을 철저히 테스트합니다. 이 프로세스에는 사용자 피드백이 필수적입니다.

최대 포장

복잡한 엔지니어링 도면을 위한 OCR 소프트웨어를 만드는 데 어려움을 겪고 있는 조직에서는 문제에 접근하는 데 사용할 수 있는 다양한 옵션이 있습니다. 사전 훈련된 다양한 모델과 사용자 정의 가능한 도구를 통해 보다 개인화된 솔루션을 생성함으로써 기업은 청사진과 기타 복잡한 문서를 효과적으로 분석, 색인화 및 검색할 수 있는 방법을 찾을 수 있습니다. 그들의 요구 사항을 충족하는 솔루션을 만드는 데 필요한 것은 약간의 독창성, 창의성 및 시간뿐입니다.

AI 팀 리더 모비 데브는 인공 지능, 데이터 과학, 증강 현실, 사물 인터넷 등 최첨단 기술로 전 세계 기업의 혁신을 돕는 소프트웨어 개발 회사입니다. 그녀의 전문 분야는 데이터 분석, 예측, NLP 및 챗봇입니다. AiiotTalk, Hackernoon, DevTo의 인공 지능에 관한 기사 작성자입니다. 다양한 AI 컨퍼런스 및 기술 강연에서 연사로 활동하고 있습니다.