Connect with us

Pemimpin pemikiran

Menggunakan OCR untuk Gambar Teknik yang Kompleks

mm

Pengenalan Karakter Optik (OCR) telah merevolusi cara bisnis mengautomasi pengolahan dokumen. Namun, kualitas dan akurasi teknologi ini tidak cukup untuk setiap aplikasi. Semakin kompleks dokumen yang diproses, semakin kurang akurat hasilnya. Ini terutama benar untuk gambar teknik. Meskipun teknologi OCR out of the box mungkin tidak cocok untuk tugas ini, ada cara lain untuk mencapai tujuan pengolahan dokumen Anda dengan OCR. Dalam apa yang akan saya bahas, saya akan menjelajahi beberapa solusi yang layak untuk memberi Anda gambaran umum tanpa memasuki detail teknis yang terlalu banyak.

Tantangan Pengenalan Gambar Teknik

Ketika datang ke gambar teknik, OCR mengalami kesulitan untuk memahami makna dari elemen teks individual. Teknologi dapat membaca teks, tetapi tidak memahami maknanya. Ada beberapa kesempatan bagi insinyur dan produsen untuk mempertimbangkan jika pengenalan otomatis dokumen teknis dikonfigurasi dengan benar. Lihat yang paling signifikan di bawah.

Sumber gambar: Mobidev

Untuk mencapai analisis dokumen teknis yang kompleks, insinyur perlu melatih model AI. Sama seperti manusia, model AI memerlukan pengalaman dan pelatihan untuk memahami gambar-gambar ini.

Salah satu tantangan pengenalan gambar teknik dan blueprint adalah bahwa perangkat lunak harus memahami bagaimana cara memisahkan berbagai tampilan dari gambar. Ini adalah bagian-bagian yang berbeda dari gambar yang memberikan gambaran dasar tentang tata letaknya. Dengan memisahkan tampilan dan memahami bagaimana mereka saling terkait, perangkat lunak dapat menghitung kotak pembatas.

Proses ini mungkin termasuk beberapa tantangan:

  • Tampilan mungkin tumpang tindih
  • Tampilan mungkin rusak
  • Label mungkin berjarak sama ke dua tampilan
  • Tampilan mungkin bersarang

Hubungan antara tampilan adalah masalah lain yang mungkin terjadi. Anda harus mempertimbangkan apakah tampilan adalah bagian datar dari diagram, bagian yang diputar, blok, atau sesuatu yang lain. Selain itu, mungkin ada masalah lain seperti pengukuran berantai, anotasi yang hilang, ketinggian yang didefinisikan secara implisit melalui referensi ke standar, atau masalah lainnya.

Pentingnya, OCR generik tidak dapat memahami teks dalam gambar yang dikelilingi oleh elemen grafis seperti garis, simbol, dan anotasi. Karena fakta ini, kita perlu mempelajari lebih dalam tentang OCR dengan machine learning yang akan lebih berguna untuk aplikasi ini.

Model OCR Pra-Dilatih dan Kustom

Tidak ada kekurangan perangkat lunak OCR di pasar, tetapi tidak semua perangkat lunak ini dapat dilatih atau dimodifikasi oleh pengguna. Seperti yang telah kita pelajari, pelatihan mungkin diperlukan untuk menganalisis gambar teknik Anda. Namun, alat OCR untuk gambar-gambar ini ada.

Alat OCR Pra-Dilatih

Berikut beberapa pilihan umum untuk pengenalan OCR gambar teknik:

  • ABBYY FineReader: perangkat lunak interpretasi blueprint yang serbaguna ini menawarkan teknologi OCR dengan kemampuan pengenalan teks. Ini mendukung berbagai format gambar, pelestarian tata letak, ekspor data, dan integrasi.
  • Adobe Acrobat Pro: selain menyediakan pengeditan, peninjauan, dan pengelolaan PDF, Acrobat memungkinkan Anda untuk memindai dokumen OCR dan blueprint, mengekstrak teks, dan melakukan pencarian. Ini mendukung berbagai bahasa dan memungkinkan pengguna untuk mengonfigurasi opsi.
  • Bluebeam Revu: aplikasi PDF lain yang populer, Bluebeam Revu menawarkan teknologi OCR untuk ekstraksi teks gambar teknik.
  • AutoCAD: singkatan dari Computer Aided Design, AutoCAD mendukung plugin OCR untuk menginterpretasikan blueprint dan mengubahnya menjadi elemen CAD yang dapat diedit.
  • PlanGrid: perangkat lunak ini termasuk interpretasi OCR blueprint out of the box. Dengan fitur ini, Anda dapat mengunggah gambar blueprint dan kemudian mengekstrak, mengatur, mengindeks, dan mencari teks.
  • Textract: fitur berbasis cloud AWS ini memungkinkan analisis OCR dokumen dan dapat mengekstrak elemen seperti tabel dari dokumen. Ini juga dapat mengenali elemen dari blueprint dan menyediakan API untuk integrasi dengan aplikasi lain.
  • Butler OCR: menyediakan pengembang dengan API ekstraksi dokumen, Butler OCR menggabungkan machine learning dengan tinjauan manusia untuk meningkatkan akurasi pengenalan dokumen.

Solusi OCR Kustom

Jika Anda mencari solusi OCR kustom yang dapat dilatih untuk mencapai ekstraksi data otomatis yang lebih baik dari gambar teknik dan mengadopsinya ke format data spesifik Anda, berikut beberapa pilihan populer:

  • Tesseract: mesin OCR yang fleksibel dan open-source yang dipelihara oleh Google dapat dilatih pada data kustom untuk mengenali karakter dan simbol khusus blueprint.
  • OpenCV: Perpustakaan Visi Komputer Open-Source dapat digabungkan dengan alat OCR seperti Tesseract untuk membangun solusi interpretatif kustom. Fungsi pengolahan dan analisis gambar dapat meningkatkan akurasi OCR pada gambar teknik ketika digunakan dengan benar.

Selain alat-alat ini, juga memungkinkan untuk mengembangkan model machine learning kustom secara mandiri. Dengan menggunakan model pelatihan pada dataset yang dilabeli, kerangka kerja seperti TensorFlow atau PyTorch, solusi ini dapat disesuaikan untuk mengenali elemen blueprint spesifik dan mencapai akurasi yang lebih tinggi untuk kebutuhan organisasi.

Model pra-dilatih menawarkan kenyamanan dan kemudahan penggunaan tetapi mungkin tidak seefektif solusi kustom dalam menginterpretasikan gambar teknik. Solusi kustom ini juga memerlukan sumber daya dan keahlian tambahan untuk dikembangkan dan dipelihara.

Solusi kustom memerlukan sumber daya keuangan dan tenaga kerja tambahan untuk dikembangkan. Saya sarankan memulai dengan bukti konsep (PoC) untuk memvalidasi kemampuan teknis dan produk minimum yang layak (MVP) untuk memeriksa persepsi pasar tentang proyek sebelum berinvestasi terlalu banyak dalam solusi OCR kustom.

Proses Implementasi Modul OCR untuk Membaca Gambar Teknik

Tempat terbaik untuk memulai membangun perangkat lunak OCR untuk gambar teknik adalah menganalisis alat sumber terbuka. Jika Anda kehabisan opsi sumber terbuka, Anda mungkin perlu beralih ke opsi sumber tertutup dengan integrasi API.

Membangun solusi OCR dari awal tidak praktis karena memerlukan dataset besar untuk pelatihan. Ini sulit dan mahal untuk dikumpulkan dan memerlukan banyak sumber daya untuk pelatihan model. Dalam kebanyakan kasus, penyempurnaan model yang ada seharusnya memenuhi kebutuhan Anda.

Proses dari sini terlihat seperti ini:

  1. Pertimbangkan kebutuhan: Anda perlu memahami jenis gambar teknik yang aplikasi Anda harus kerjakan dan jenis fitur serta fungsionalitas yang diperlukan untuk mencapai tujuan tersebut.
  2. Pengambilan dan pra-pengolahan gambar: pikirkan tentang perangkat apa yang Anda rencanakan untuk digunakan untuk mengambil gambar. Langkah pra-pengolahan tambahan mungkin diperlukan untuk meningkatkan kualitas hasil. Ini mungkin termasuk pemotongan, pengubahan ukuran, pengurangan noise, dan lain-lain.
  3. Integrasi OCR: pertimbangkan mesin OCR yang akan bekerja paling baik dengan aplikasi Anda. Perpustakaan OCR memiliki API yang memungkinkan aplikasi Anda mengekstrak teks dari gambar yang diambil. Penting untuk mempertimbangkan solusi OCR sumber terbuka untuk penghematan biaya. API pihak ketiga dapat berubah-ubah dalam hal harga dari waktu ke waktu atau kehilangan dukungan.
  4. Pengenalan dan pengolahan teks: selanjutnya, saatnya untuk mengimplementasikan logika untuk memproses dan mengenali teks. Beberapa tugas yang mungkin Anda pertimbangkan untuk ditambahkan dalam langkah ini adalah pembersihan teks, pengenalan bahasa, atau teknik lain yang dapat memberikan hasil pengenalan teks yang lebih jelas.
  5. Antarmuka pengguna dan pengalaman: antarmuka pengguna yang mudah digunakan untuk aplikasi sangat penting sehingga pengguna dapat secara efektif menggunakan aplikasi untuk mengambil gambar dan memulai OCR. Hasilnya harus disajikan kepada pengguna dengan cara yang mudah dipahami.
  6. Pengujian: uji aplikasi secara menyeluruh untuk memastikan akurasi dan kemudahan penggunaannya. Umpan balik pengguna sangat penting dalam proses ini.

Mengakhiri

Dalam menghadapi tantangan pembuatan perangkat lunak OCR untuk gambar teknik yang kompleks, organisasi memiliki sejumlah pilihan yang tersedia untuk mendekati masalah ini. Dari berbagai model pra-dilatih dan alat yang dapat disesuaikan untuk membuat solusi yang lebih dipersonalisasi, bisnis dapat menemukan cara untuk menganalisis, mengindeks, dan mencari gambar teknik dan dokumen kompleks lainnya. Semua yang dibutuhkan hanyalah sedikit kecerdasan, kreativitas, dan waktu untuk menciptakan solusi yang memenuhi kebutuhan mereka.

Pemimpin Tim AI di MobiDev, sebuah perusahaan pengembangan perangkat lunak yang membantu perusahaan di seluruh dunia untuk berinovasi dengan teknologi canggih seperti kecerdasan buatan, ilmu data, realitas tambahan, dan Internet of Things. Fokus profesionalnya adalah analitik data, peramalan, NLP, dan chatbot. Penulis artikel tentang kecerdasan buatan untuk AiiotTalk, Hackernoon, DevTo. Pembicara pada berbagai konferensi AI dan tech talks.