stub Używanie OCR do złożonych rysunków technicznych - Unite.AI
Kontakt z nami

Liderzy myśli

Używanie OCR do złożonych rysunków technicznych

mm

Opublikowany

 on

Optyczne rozpoznawanie znaków (OCR) zrewolucjonizowało sposób, w jaki firmy automatyzują przetwarzanie dokumentów. Jednak jakość i dokładność tej technologii nie wystarcza do każdego zastosowania. Im bardziej złożony jest przetwarzany dokument, tym jest mniej dokładny. Jest to szczególnie prawdziwe w przypadku rysunków technicznych. Chociaż gotowe technologie OCR mogą nie nadawać się do tego zadania, istnieją inne sposoby osiągnięcia celów związanych z przetwarzaniem dokumentów za pomocą OCR. W dalszej części przeanalizuję kilka wykonalnych rozwiązań, aby dać ogólny pogląd bez wchodzenia w zbyt wiele szczegółów technicznych.

Wyzwania rozpoznawania rysunków technicznych

Jeśli chodzi o rysunki techniczne, OCR ma trudności ze zrozumieniem znaczenia poszczególnych elementów tekstu. Technologia może przeczytać tekst, ale nie rozumie jego znaczenia. Inżynierowie i producenci mają wiele możliwości rozważenia, czy automatyczne rozpoznawanie dokumentu technicznego jest poprawnie skonfigurowane. Poniżej znajdziesz najważniejsze z nich.

Źródło obrazu: Mobidev

Aby przeprowadzić złożoną analizę dokumentacji technicznej, inżynierowie muszą szkolić modele AI. Podobnie jak ludzie, modele AI potrzebują doświadczenia i szkolenia, aby zrozumieć te rysunki.

Jednym z wyzwań związanych z rozpoznawaniem planów i rysunków technicznych jest to, że oprogramowanie musi rozumieć, jak oddzielić różne widoki rysunku. Są to różne części rysunku, które dają podstawowe wyobrażenie o jego układzie. Oddzielając widoki i rozumiejąc, w jaki sposób są one ze sobą powiązane, oprogramowanie może obliczyć obwiednię.

Proces ten może obejmować kilka wyzwań:

  • Widoki mogą się nakładać
  • Widoki mogą zostać uszkodzone
  • Etykiety mogą znajdować się w równej odległości od dwóch widoków
  • Widoki mogą być zagnieżdżone

Kolejnym możliwym problemem jest związek między poglądami. Musisz rozważyć, czy widok jest płaską częścią diagramu, częścią toczoną, blokiem, czy czymś innym. Dodatkowo mogą wystąpić inne problemy, takie jak miary łańcuchowe, brakujące adnotacje, domyślnie zdefiniowane wysokości poprzez odniesienie do normy lub inne problemy.

Co ważne, ogólny OCR nie pozwala na niezawodne zrozumienie tekstu na rysunkach otoczonych elementami graficznymi, takimi jak linie, symbole i adnotacje. Z tego powodu musimy zanurzyć się głębiej OCR z uczeniem maszynowym co będzie bardziej pomocne w tej aplikacji.

Wstępnie przeszkolone i niestandardowe modele OCR

Na rynku nie brakuje oprogramowania OCR, ale nie całe z tego oprogramowania może zostać przeszkolone lub zmodyfikowane przez użytkownika. Jak się dowiedzieliśmy, szkolenie może być koniecznością w zakresie analizy rysunków technicznych. Istnieją jednak narzędzia OCR do tego rodzaju rysunków.

Wstępnie przeszkolone narzędzia OCR

Oto kilka typowych opcji rozpoznawania OCR rysunków technicznych:

  • ABBYY Fine Reader: to wszechstronne oprogramowanie do interpretacji planów oferuje technologię OCR z możliwością rozpoznawania tekstu. Obsługuje różne formaty obrazów, zachowanie układu, eksport danych i integracje.
  • Adobe Acrobat Pro: Oprócz edytowania, przeglądania i zarządzania plikami PDF program Acrobat umożliwia skanowanie dokumentów i planów OCR, wyodrębnianie tekstu i przeprowadzanie wyszukiwania. Obsługuje różne języki i pozwala użytkownikom konfigurować opcje.
  • Wersja Bluebeam: kolejna popularna aplikacja PDF, Bluebeam Revu, oferuje technologie OCR do ekstrakcji tekstu rysunków technicznych.
  • AutoCAD: oznaczająca projektowanie wspomagane komputerowo, AutoCAD obsługuje wtyczki OCR umożliwiające interpretację planów i przekształcanie ich w edytowalne elementy CAD.
  • Siatka planu: to oprogramowanie zawiera gotową interpretację planu OCR. Dzięki tej funkcji możesz przesyłać obrazy planów, a następnie wyodrębniać, porządkować, indeksować i przeszukiwać tekst.
  • Tekst: ta oparta na chmurze funkcja AWS umożliwia analizę OCR dokumentów i wyodrębnianie z dokumentów elementów takich jak tabele. Potrafi także rozpoznawać elementy z planów i zapewnia interfejsy API umożliwiające integrację z innymi aplikacjami.
  • Butler OCR: udostępniając programistom interfejsy API do ekstrakcji dokumentów, Butler OCR łączy uczenie maszynowe z przeglądem ręcznym, aby zwiększyć dokładność rozpoznawania dokumentów.

Niestandardowe rozwiązania OCR

Jeśli szukasz niestandardowych rozwiązań OCR, które można przeszkolić w celu uzyskania lepszej automatycznej ekstrakcji danych z rysunków technicznych i dostosowania ich do określonego formatu danych, oto kilka popularnych opcji:

  • Teserakt: ten elastyczny silnik OCR typu open source obsługiwany przez Google można wytrenować na niestandardowych danych w celu rozpoznawania znaków i symboli specyficznych dla projektu.
  • OtwórzCV: Bibliotekę widzenia komputerowego typu open source można łączyć z narzędziami OCR, takimi jak Tesseract, w celu tworzenia niestandardowych rozwiązań interpretacyjnych. Jego funkcje przetwarzania i analizy obrazu mogą zwiększyć dokładność rozpoznawania OCR na rysunkach technicznych, jeśli są właściwie wykorzystywane.

Oprócz tych narzędzi możliwe jest także samodzielne opracowywanie niestandardowych modeli uczenia maszynowego. Wykorzystując modele szkoleniowe na oznaczonych zbiorach danych, frameworki takie jak TensorFlow lub PyTorch, rozwiązania te można dostosować tak, aby rozpoznawały określone elementy planu i zapewniały większą dokładność na potrzeby organizacji.

Wstępnie wyszkolone modele zapewniają wygodę i łatwość użycia, ale mogą nie być tak skuteczne w interpretacji rysunków technicznych, jak rozwiązania niestandardowe. Te niestandardowe rozwiązania wymagają również dodatkowych zasobów i wiedzy specjalistycznej do opracowania i utrzymania.

Rozwiązania niestandardowe wymagają dodatkowych zasobów finansowych i pracy, aby się rozwijać. Polecam zacząć od A dowód koncepcji (PoC) w celu sprawdzenia możliwości technicznych i minimalnego opłacalnego produktu (MVP), w celu sprawdzenia postrzegania projektu przez rynek przed zbyt dużą inwestycją w niestandardowe rozwiązanie OCR.

Proces wdrożenia modułu OCR do odczytu rysunków technicznych

Najlepszym miejscem do rozpoczęcia tworzenia oprogramowania OCR dla rysunków technicznych będzie analiza dostępnych narzędzia open source. Jeśli wyczerpiesz opcje open source, może być konieczne skorzystanie z opcji open source z integracją API.

Budowanie rozwiązania OCR od podstaw jest niepraktyczne, ponieważ wymaga ogromnego zbioru danych do szkolenia. Zebranie danych jest trudne i kosztowne, a także wymaga dużych zasobów do szkolenia modeli. W większości przypadków dostrojenie istniejących modeli powinno odpowiadać Twoim potrzebom.

Proces stąd wygląda mniej więcej tak:

  1. Rozważ wymagania: musisz zrozumieć, z jakimi rysunkami technicznymi powinna współpracować Twoja aplikacja oraz jakie funkcje i funkcjonalności są potrzebne, aby osiągnąć ten cel.
  2. Przechwytywanie i wstępna obróbka obrazu: zastanów się, jakich urządzeń planujesz używać do robienia zdjęć. Aby poprawić jakość wyników, mogą być konieczne dodatkowe etapy wstępnego przetwarzania. Może to obejmować kadrowanie, zmianę rozmiaru, usuwanie szumów i inne.
  3. Integracja OCR: rozważ silnik OCR, który będzie najlepiej współpracował z Twoją aplikacją. Biblioteki OCR posiadają interfejsy API, które umożliwiają aplikacji wyodrębnianie tekstu z przechwyconych obrazów. Ze względu na oszczędność kosztów ważne jest rozważenie rozwiązań OCR typu open source. Interfejsy API innych firm mogą z czasem ulegać zmianom w zakresie cen lub utracić wsparcie.
  4. Rozpoznawanie i przetwarzanie tekstu: następnie czas wdrożyć logikę przetwarzania i rozpoznawania tekstu. Niektóre możliwe zadania, które możesz rozważyć dodaniu na tym etapie, to oczyszczanie tekstu, rozpoznawanie języka lub inne techniki, które mogą zapewnić wyraźniejsze wyniki rozpoznawania tekstu.
  5. Interfejs użytkownika i doświadczenie: łatwy w użyciu interfejs aplikacji jest ważny, aby użytkownik mógł efektywnie używać jej do przechwytywania obrazów i inicjowania OCR. Wyniki powinny być prezentowane użytkownikowi w sposób łatwy do zrozumienia.
  6. Testowanie: dokładnie przetestuj aplikację, aby zapewnić jej dokładność i użyteczność. Informacje zwrotne od użytkowników są niezbędne w tym procesie.

Owijanie w górę

W obliczu wyzwań związanych z tworzeniem oprogramowania OCR dla złożonych rysunków technicznych organizacje mają do dyspozycji szereg opcji podejścia do tego problemu. Dzięki szeregowi wstępnie wytrenowanych modeli i konfigurowalnym narzędziom umożliwiającym tworzenie bardziej spersonalizowanych rozwiązań firmy mogą znaleźć sposoby na skuteczne analizowanie, indeksowanie i przeszukiwanie planów i innych złożonych dokumentów. Wystarczy odrobina pomysłowości, kreatywności i czasu, aby stworzyć rozwiązanie spełniające ich potrzeby.

Lider zespołu AI w godz MobiDev, firma zajmująca się tworzeniem oprogramowania, która pomaga firmom na całym świecie wprowadzać innowacje dzięki najnowocześniejszym technologiom, takim jak sztuczna inteligencja, analiza danych, rzeczywistość rozszerzona i Internet rzeczy. Jej zainteresowania zawodowe obejmują analizę danych, prognozowanie, NLP i chatboty. Autor artykułów na temat sztucznej inteligencji dla AiiotTalk, Hackernoon, DevTo. Prelegent na różnych konferencjach AI i rozmowach technicznych.