výhonek Použití OCR pro komplexní inženýrské výkresy - Unite.AI
Spojte se s námi

Myšlenkové vůdce

Použití OCR pro komplexní inženýrské výkresy

mm

Zveřejněno

 on

Optické rozpoznávání znaků (OCR) způsobilo revoluci ve způsobu, jakým podniky automatizují zpracování dokumentů. Kvalita a přesnost technologie to však neslouží pro každou aplikaci. Čím složitější je zpracovávaný dokument, tím je méně přesný. To platí zejména pro technické výkresy. Ačkoli předinstalované technologie OCR nemusí být pro tento úkol vhodné, existují i ​​jiné způsoby, jak pomocí OCR dosáhnout cílů zpracování dokumentů. V následujícím textu prozkoumám několik životaschopných řešení, abych vám poskytl obecnou představu, aniž bych zacházel do přílišných technických detailů.

Výzvy v rozpoznávání technických výkresů

Pokud jde o technické výkresy, OCR má potíže s pochopením významu jednotlivých textových prvků. Technologie umí číst text, ale nerozumí jeho významu. Inženýři a výrobci mají řadu příležitostí ke zvážení, zda je automatické rozpoznávání technického dokumentu správně nakonfigurováno. Podívejte se na nejvýznamnější z nich níže.

Zdroj obrázku: Mobidev

Aby inženýři dosáhli komplexní analýzy technické dokumentace, musí trénovat modely umělé inteligence. Stejně jako lidé potřebují modely umělé inteligence zkušenosti a školení, aby těmto nákresům porozuměly.

Jedním z problémů při rozpoznávání plánů a technických výkresů je, že software musí rozumět tomu, jak oddělit různé pohledy na výkres. Jedná se o různé části výkresu, které dávají základní představu o jeho rozložení. Oddělením pohledů a pochopením jejich vzájemného vztahu může software vypočítat ohraničující rámeček.

Tento proces může zahrnovat několik problémů:

  • Zobrazení se mohou překrývat
  • Pohledy mohou být poškozeny
  • Štítky mohou být stejně vzdálené dvěma pohledům
  • Pohledy mohou být vnořené

Dalším možným problémem je vztah mezi názory. Musíte zvážit, zda je pohled plochou částí diagramu, otočenou částí, blokem nebo něčím jiným. Kromě toho mohou existovat další problémy, jako jsou zřetězené míry, chybějící anotace, implicitně definované výšky odkazem na normu nebo jiné problémy.

Důležité je, že obecné OCR nedokáže spolehlivě porozumět textu ve výkresech, které jsou obklopeny grafickými prvky, jako jsou čáry, symboly a anotace. Kvůli této skutečnosti se musíme ponořit hlouběji OCR se strojovým učením který bude pro tuto aplikaci užitečnější.

Předškolené a vlastní modely OCR

Na trhu není nedostatek softwaru pro OCR, ale ne všechen tento software může uživatel vycvičit nebo upravit. Jak jsme se dozvěděli, školení může být nutností pro analýzu vašich technických výkresů. Nástroje OCR pro tyto druhy výkresů však existují.

Předškolené nástroje OCR

Zde jsou některé běžné možnosti rozpoznávání OCR technických výkresů:

  • ABBYY FineReader: tento všestranný software pro interpretaci plánů nabízí technologii OCR s možností rozpoznávání textu. Podporuje různé formáty obrázků, uchovávání rozvržení, export dat a integrace.
  • Adobe Acrobat Pro: kromě poskytování úprav, prohlížení a správy PDF vám Acrobat umožňuje skenovat OCR dokumenty a plány, extrahovat text a provádět vyhledávání. Podporuje různé jazyky a umožňuje uživatelům konfigurovat možnosti.
  • Bluebeam Revu: další populární aplikace PDF, Bluebeam Revu, nabízí technologie OCR pro extrakci textu technických výkresů.
  • AutoCAD: AutoCAD, což je zkratka pro Computer Aided Design, podporuje zásuvné moduly OCR pro interpretaci plánů a jejich převod na upravitelné prvky CAD.
  • PlanGrid: tento software zahrnuje interpretaci OCR plánu již po vybalení. Pomocí této funkce můžete nahrát obrázky plánů a poté text extrahovat, organizovat, indexovat a vyhledávat.
  • Textract: tato cloudová funkce AWS umožňuje OCR analýzu dokumentů a dokáže z dokumentů extrahovat prvky, jako jsou tabulky. Dokáže také rozpoznat prvky z plánů a poskytuje API pro integraci s jinými aplikacemi.
  • Butler OCR: poskytuje vývojářům rozhraní API pro extrakci dokumentů, Butler OCR kombinuje strojové učení s kontrolou člověkem, aby se zvýšila přesnost rozpoznávání dokumentů.

Vlastní řešení OCR

Pokud hledáte vlastní řešení OCR, která lze vycvičit k dosažení lepší automatické extrakce dat z technických výkresů a jejich přizpůsobení vašemu konkrétnímu formátu dat, zde je několik oblíbených možností:

  • Tesseract: tento flexibilní, open-source OCR engine spravovaný společností Google lze trénovat na vlastních datech, aby dokázal rozpoznat znaky a symboly specifické pro plán.
  • OpenCV: Open-Source Computer Vision Library lze kombinovat s nástroji OCR, jako je Tesseract, a vytvářet tak vlastní interpretační řešení. Jeho funkce zpracování obrazu a analýzy mohou při správném využití zvýšit přesnost OCR na technických výkresech.

Kromě těchto nástrojů je také možné samostatně vyvíjet vlastní modely strojového učení. Využitím školicích modelů na označených datových sadách, rámcích jako TensorFlow nebo PyTorch, lze tato řešení doladit tak, aby rozpoznávala specifické prvky návrhu a dosahovala vyšší přesnosti pro potřeby organizace.

Předtrénované modely nabízejí pohodlí a snadné použití, ale nemusí být tak účinné při interpretaci technických výkresů jako zakázková řešení. Tato vlastní řešení také vyžadují další zdroje a odborné znalosti pro vývoj a údržbu.

Vývoj vlastních řešení vyžaduje dodatečné finanční zdroje a práci. Doporučil bych začít s a proof of concept (PoC) ověřit technické možnosti a minimální životaschopný produkt (MVP), aby se ověřilo, jak trh vnímá projekt, než příliš investujete do vlastního řešení OCR.

Proces implementace modulu OCR pro čtení technických výkresů

Nejlepším místem, kde začít s vytvářením softwaru OCR pro technické výkresy, by byla analýza dostupného softwaru open-source nástroje. Pokud vyčerpáte své možnosti open source, možná budete muset přejít na možnosti uzavřeného zdroje s integrací API.

Sestavit řešení OCR od nuly je nepraktické, protože vyžaduje obrovskou datovou sadu pro školení. To je obtížné a nákladné shromáždit a vyžaduje mnoho zdrojů pro modelový výcvik. Ve většině případů by doladění stávajících modelů mělo vyhovovat vašim potřebám.

Postup odtud vypadá asi takto:

  1. Zvažte požadavky: musíte pochopit, s jakým druhem technických výkresů by vaše aplikace měla pracovat a jaké druhy funkcí a funkcí jsou k dosažení tohoto cíle potřeba.
  2. Snímání a předzpracování obrazu: Přemýšlejte o tom, jaká zařízení plánujete používat k pořizování snímků. Ke zvýšení kvality vašich výsledků mohou být nutné další kroky předběžného zpracování. To může zahrnovat oříznutí, změnu velikosti, odstranění šumu a další.
  3. Integrace OCR: zvažte OCR engine, který bude s vaší aplikací nejlépe fungovat. Knihovny OCR mají rozhraní API, která umožňují vaší aplikaci extrahovat text ze zachycených obrázků. Pro úsporu nákladů je důležité zvážit open source řešení OCR. Rozhraní API třetích stran mohou být nestálá s ohledem na ceny v průběhu času nebo ztratit podporu.
  4. Rozpoznávání a zpracování textu: dále je čas implementovat logiku pro zpracování a rozpoznávání textu. Některé možné úkoly, které můžete v tomto kroku přidat, jsou čištění textu, rozpoznávání jazyka nebo jiné techniky, které mohou poskytnout jasnější výsledky rozpoznávání textu.
  5. Uživatelské rozhraní a zkušenosti: Snadno použitelné uživatelské rozhraní aplikace je důležité, aby jej uživatel mohl efektivně používat k pořizování snímků a spouštění OCR. Výsledky by měly být uživateli prezentovány způsobem, který je snadno pochopitelný.
  6. Testování: důkladně otestujte aplikaci, abyste zajistili její přesnost a použitelnost. Zpětná vazba od uživatelů je pro tento proces nezbytná.

Balil

Tváří v tvář výzvám při vytváření softwaru OCR pro složité technické výkresy mají organizace k dispozici řadu možností, jak se k problému postavit. Podniky mohou najít způsoby, jak efektivně analyzovat, indexovat a prohledávat plány a další složité dokumenty, a to z řady předem vyškolených modelů a přizpůsobitelných nástrojů pro vytváření personalizovanějších řešení. Stačí trocha vynalézavosti, kreativity a času na vytvoření řešení, které vyhovuje jejich potřebám.

Vedoucí týmu AI ve společnosti MobiDev, společnost zabývající se vývojem softwaru, která pomáhá společnostem po celém světě inovovat pomocí špičkových technologií, jako je umělá inteligence, datová věda, rozšířená realita a internet věcí. Jejím profesním zaměřením je analytika dat, prognózování, NLP a chatboti. Autor článků o umělé inteligenci pro AiiotTalk, Hackernoon, DevTo. Přednášející na různých konferencích AI a technologických přednáškách.