stomp OCR gebruiken voor complexe technische tekeningen - Unite.AI
Verbind je met ons

Gedachte leiders

OCR gebruiken voor complexe technische tekeningen

mm

gepubliceerd

 on

Optical Character Recognition (OCR) heeft een revolutie teweeggebracht in de manier waarop bedrijven documentverwerking automatiseren. De kwaliteit en nauwkeurigheid van de technologie zijn echter niet geschikt voor elke toepassing. Hoe complexer het document dat wordt verwerkt, hoe minder nauwkeurig het wordt. Dit geldt vooral voor technische tekeningen. Hoewel kant-en-klare OCR-technologieën mogelijk niet geschikt zijn voor deze taak, zijn er andere manieren om uw documentverwerkingsdoelen met OCR te bereiken. In wat volgt, zal ik verschillende haalbare oplossingen onderzoeken om u een algemeen idee te geven zonder al te veel technische details in te gaan.

Uitdagingen bij het herkennen van technische tekeningen

Als het om technische tekeningen gaat, heeft OCR moeite om de betekenis van individuele tekstelementen te begrijpen. De technologie kan de tekst lezen, maar begrijpt de betekenis ervan niet. Er zijn een aantal mogelijkheden voor ingenieurs en fabrikanten om te overwegen of de automatische herkenning van het technische document correct is geconfigureerd. Zie hieronder de belangrijkste ervan.

Beeldbron: Mobidev

Om complexe technische documentatieanalyses te kunnen uitvoeren, moeten ingenieurs AI-modellen trainen. Net als mensen hebben AI-modellen ervaring en training nodig om deze tekeningen te begrijpen.

Een uitdaging bij het herkennen van blauwdrukken en technische tekeningen is dat de software moet begrijpen hoe de verschillende aanzichten van de tekening van elkaar kunnen worden gescheiden. Dit zijn verschillende delen van de tekening die een basisidee geven van de lay-out. Door de weergaven te scheiden en te begrijpen hoe ze zich tot elkaar verhouden, kan de software het selectiekader berekenen.

Dit proces kan verschillende uitdagingen met zich meebrengen:

  • Uitzichten kunnen elkaar overlappen
  • Uitzichten kunnen beschadigd raken
  • Labels kunnen op gelijke afstand van twee weergaven staan
  • Weergaven kunnen genest zijn

De relatie tussen opvattingen is een ander mogelijk probleem. U moet overwegen of de weergave een vlak deel van het diagram is, een gedraaid deel, een blok of iets anders. Bovendien kunnen er andere problemen zijn, zoals aan elkaar gekoppelde maten, ontbrekende annotaties, impliciet gedefinieerde hoogten door verwijzing naar een standaard, of andere problemen.

Belangrijk is dat generieke OCR tekst in tekeningen die omgeven is door grafische elementen zoals lijnen, symbolen en annotaties niet op betrouwbare wijze kan begrijpen. Vanwege dit feit moeten we er dieper op ingaan OCR met machinaal leren wat nuttiger zal zijn voor deze toepassing.

Vooraf getrainde en aangepaste OCR-modellen

Er is geen tekort aan OCR-software op de markt, maar niet al deze software kan door de gebruiker worden getraind of aangepast. Zoals we hebben geleerd, kan training een noodzaak zijn voor het analyseren van uw technische tekeningen. Er bestaan ​​echter OCR-tools voor dit soort tekeningen.

Vooraf getrainde OCR-tools

Hier volgen enkele veelvoorkomende opties voor OCR-herkenning van technische tekeningen:

  • ABBYY FineReader: deze veelzijdige blauwdruk-interpretatiesoftware biedt OCR-technologie met herkenningsmogelijkheden voor tekst. Het ondersteunt verschillende afbeeldingsformaten, lay-outbehoud, gegevensexport en integraties.
  • Adobe AcrobatPro: Naast het bewerken, bekijken en beheren van PDF's, kunt u met Acrobat OCR-documenten en blauwdrukken scannen, tekst extraheren en zoekopdrachten uitvoeren. Het ondersteunt verschillende talen en stelt gebruikers in staat opties te configureren.
  • Bluebeam Revu: Een andere populaire PDF-toepassing, Bluebeam Revu, biedt OCR-technologieën voor het extraheren van tekst uit technische tekeningen.
  • AutoCAD: AutoCAD staat voor Computer Aided Design en ondersteunt OCR-plug-ins voor het interpreteren van blauwdrukken en het omzetten ervan in bewerkbare CAD-elementen.
  • PlanGrid: deze software bevat kant-en-klare blauwdruk-OCR-interpretatie. Met deze functie kunt u blauwdrukafbeeldingen uploaden en vervolgens de tekst extraheren, ordenen, indexeren en doorzoeken.
  • Textract: deze cloudgebaseerde AWS-functie maakt OCR-analyse van documenten mogelijk en kan elementen zoals tabellen uit documenten extraheren. Het kan ook elementen uit blauwdrukken herkennen en biedt API's voor integratie met andere applicaties.
  • Butler OCR: Butler OCR biedt ontwikkelaars API's voor documentextractie en combineert machinaal leren met menselijke beoordeling om de nauwkeurigheid van documentherkenning te verbeteren.

Aangepaste OCR-oplossingen

Als u op zoek bent naar aangepaste OCR-oplossingen die kunnen worden getraind om een ​​betere automatische gegevensextractie uit technische tekeningen te bereiken en deze aan uw specifieke gegevensindeling toe te passen, zijn hier een paar populaire opties:

  • Tesseract: deze flexibele, open-source OCR-engine die door Google wordt onderhouden, kan worden getraind op basis van aangepaste gegevens om blauwdrukspecifieke tekens en symbolen te herkennen.
  • Open CV: Open-Source Computer Vision Library kan worden gecombineerd met OCR-tools zoals Tesseract om op maat gemaakte interpretatieve oplossingen te bouwen. De beeldverwerkings- en analysefuncties kunnen de nauwkeurigheid van OCR op technische tekeningen verbeteren, mits correct gebruikt.

Naast deze tools is het ook mogelijk om zelfstandig machine learning-modellen op maat te ontwikkelen. Door gebruik te maken van trainingsmodellen op gelabelde datasets, raamwerken zoals TensorFlow of PyTorch, kunnen deze oplossingen worden verfijnd om specifieke blauwdrukelementen te herkennen en een hogere nauwkeurigheid te bereiken voor de behoeften van een organisatie.

Voorgetrainde modellen bieden gemak en gebruiksgemak, maar zijn mogelijk niet zo effectief bij het interpreteren van technische tekeningen als op maat gemaakte oplossingen. Deze maatwerkoplossingen vereisen ook extra middelen en expertise om te ontwikkelen en te onderhouden.

Maatwerkoplossingen vereisen extra financiële middelen en arbeid om te ontwikkelen. Ik zou aanraden om met een te beginnen proof-of-concept (PoC) om technische mogelijkheden en een minimaal levensvatbaar product (MVP) te valideren om de perceptie van de markt over het project te controleren voordat te zwaar wordt geïnvesteerd in een op maat gemaakte OCR-oplossing.

Het proces van het implementeren van een OCR-module voor het lezen van technische tekeningen

De beste plaats om te beginnen met het bouwen van OCR-software voor technische tekeningen is door de beschikbare analyses uit te voeren open source-tools. Als u uw open-sourceopties uitgeput heeft, moet u mogelijk overstappen op closed-sourceopties met API-integraties.

Het is onpraktisch om een ​​OCR-oplossing helemaal opnieuw te bouwen, omdat hiervoor een enorme dataset nodig is voor training. Dit is moeilijk en duur om te verzamelen en vereist veel middelen voor modeltraining. In de meeste gevallen zou het verfijnen van bestaande modellen aan uw behoeften moeten voldoen.

Het proces vanaf hier ziet er ongeveer zo uit:

  1. Denk aan eisen: u moet begrijpen met wat voor soort technische tekeningen uw applicatie zou moeten werken en welke soorten kenmerken en functionaliteiten nodig zijn om dat doel te bereiken.
  2. Beeldopname en voorbewerking: bedenk welke apparaten u wilt gebruiken om de beelden vast te leggen. Er kunnen extra voorbewerkingsstappen nodig zijn om de kwaliteit van uw resultaten te verbeteren. Dit kan onder meer bijsnijden, vergroten/verkleinen, ruis verwijderen en meer omvatten.
  3. OCR-integratie: overweeg welke OCR-engine het beste bij uw toepassing past. OCR-bibliotheken beschikken over API's waarmee uw toepassing tekst uit vastgelegde afbeeldingen kan extraheren. Het is belangrijk om open-source OCR-oplossingen te overwegen om kosten te besparen. API's van derden kunnen in de loop van de tijd wispelturig zijn wat betreft prijzen of hun ondersteuning verliezen.
  4. Tekstherkenning en -verwerking: vervolgens is het tijd om logica te implementeren om tekst te verwerken en te herkennen. Enkele mogelijke taken die u in deze stap kunt toevoegen zijn het opschonen van tekst, taalherkenning of andere technieken die duidelijkere resultaten voor tekstherkenning kunnen opleveren.
  5. Gebruikersinterface en ervaring: een eenvoudig te gebruiken gebruikersinterface voor de app is belangrijk, zodat de gebruiker deze effectief kan gebruiken om afbeeldingen vast te leggen en OCR te starten. De resultaten moeten op een gemakkelijk te begrijpen manier aan de gebruiker worden gepresenteerd.
  6. Testen: test de applicatie grondig om de nauwkeurigheid en bruikbaarheid ervan te garanderen. Feedback van gebruikers is essentieel voor dit proces.

Afsluiten

Geconfronteerd met de uitdagingen bij het maken van OCR-software voor complexe technische tekeningen, hebben organisaties een aantal opties tot hun beschikking om dit probleem aan te pakken. Vanuit een reeks vooraf getrainde modellen en aanpasbare tools om meer gepersonaliseerde oplossingen te creëren, kunnen bedrijven manieren vinden om blauwdrukken en andere complexe documenten effectief te analyseren, indexeren en doorzoeken. Het enige dat nodig is, is vindingrijkheid, creativiteit en tijd om een ​​oplossing te bedenken die aan hun behoeften voldoet.

AI-teamleider bij MobiDev, een softwareontwikkelingsbedrijf dat bedrijven over de hele wereld helpt innoveren met geavanceerde technologieën zoals kunstmatige intelligentie, datawetenschap, augmented reality en het internet der dingen. Haar professionele focus ligt op data-analyse, forecasting, NLP en chatbots. Auteur van artikelen over kunstmatige intelligentie voor AiiotTalk, Hackernoon, DevTo. Spreker op diverse AI-conferenties en tech talks.