Pemimpin pemikiran

Membuat Kesadaran dari Kekacauan: Peran LLM dalam Ekstraksi Data Tidak Terstruktur

Published May 29, 2024

Updated April 27, 2026

Jay Mishra, COO at Astera

Pengembangan baru-baru ini dalam perangkat keras seperti Nvidia H100 GPU, telah meningkatkan kemampuan komputasi secara signifikan. Dengan kecepatan sembilan kali lipat dari Nvidia A100, GPU ini unggul dalam menangani beban kerja pembelajaran dalam. Kemajuan ini telah memicu penggunaan komersial generative AI dalam pemrosesan bahasa alami (NLP) dan penglihatan komputer, memungkinkan ekstraksi data otomatis dan cerdas. Bisnis sekarang dapat dengan mudah mengubah data tidak terstruktur menjadi wawasan yang berharga, menandai lompatan besar dalam integrasi teknologi.

Metode Tradisional Ekstraksi Data

Penginputan Data Manual

Mengherankan, banyak perusahaan masih mengandalkan penginputan data manual, meskipun ketersediaan teknologi yang lebih maju. Metode ini melibatkan pengetikan informasi langsung ke sistem target. Ini sering lebih mudah diadopsi karena biaya awal yang lebih rendah. Namun, penginputan data manual tidak hanya membosankan dan memakan waktu, tetapi juga sangat rentan terhadap kesalahan. Selain itu, ini menimbulkan risiko keamanan saat menangani data sensitif, membuatnya menjadi pilihan yang kurang diinginkan di era otomatisasi dan keamanan digital.

Pengenalan Karakter Optik (OCR)

Teknologi OCR, yang mengubah gambar dan konten tulisan tangan menjadi data yang dapat dibaca mesin, menawarkan solusi yang lebih cepat dan lebih efektif biaya untuk ekstraksi data. Namun, kualitasnya dapat tidak dapat diandalkan. Misalnya, karakter seperti “S” dapat salah diartikan sebagai “8” dan sebaliknya.

Kinerja OCR sangat dipengaruhi oleh kompleksitas dan karakteristik data input; ini bekerja dengan baik dengan gambar yang discan dengan resolusi tinggi yang bebas dari masalah seperti kemiringan orientasi, tanda air, atau penulisan ulang. Namun, ini menghadapi tantangan dengan teks tulisan tangan, terutama ketika visualnya rumit atau sulit diproses. Adaptasi mungkin diperlukan untuk hasil yang lebih baik saat menangani input teks. Alat ekstraksi data di pasar dengan OCR sebagai teknologi dasar sering menambahkan lapisan dan lapisan pemrosesan lanjut untuk meningkatkan akurasi data yang diekstrak. Namun, solusi ini tidak dapat menjamin hasil yang 100% akurat.

Pencocokan Pola Teks

Pencocokan pola teks adalah metode untuk mengidentifikasi dan mengekstrak informasi spesifik dari teks menggunakan aturan atau pola yang telah ditentukan sebelumnya. Ini lebih cepat dan menawarkan ROI yang lebih tinggi daripada metode lain. Ini efektif di semua tingkat kompleksitas dan mencapai akurasi 100% untuk file dengan tata letak yang sama.

Namun, kakuannya dalam pencocokan kata demi kata dapat membatasi kemampuan adaptasi, memerlukan pencocokan 100% untuk ekstraksi yang sukses. Tantangan dengan sinonim dapat menyebabkan kesulitan dalam mengidentifikasi istilah yang setara, seperti membedakan “cuaca” dari “iklim.”Selain itu, Pencocokan Pola Teks menunjukkan sensitivitas kontekstual, kekurangan kesadaran akan banyak makna dalam konteks yang berbeda. Mencapai keseimbangan yang tepat antara kakuhan dan kemampuan adaptasi tetap menjadi tantangan konstan dalam menggunakan metode ini secara efektif.

Pengenalan Entitas Bernama (NER)

Pengenalan entitas bernama (NER), sebuah teknik NLP, mengidentifikasi dan mengategorikan informasi kunci dalam teks.

Ekstraksi NER terbatas pada entitas yang telah ditentukan sebelumnya seperti nama organisasi, lokasi, nama pribadi, dan tanggal. Dengan kata lain, sistem NER saat ini tidak memiliki kemampuan bawaan untuk mengekstrak entitas kustom di luar himpunan yang telah ditentukan, yang bisa spesifik untuk domain atau kasus penggunaan tertentu. Kedua, fokus NER pada nilai kunci yang terkait dengan entitas yang dikenali tidak meluas ke ekstraksi data dari tabel, membatasi kegunaannya untuk jenis data yang lebih kompleks atau terstruktur.

Ketika organisasi menangani jumlah data tidak terstruktur yang meningkat, tantangan ini menyoroti kebutuhan akan pendekatan ekstraksi yang komprehensif dan dapat diskalakan.

Membuka Data Tidak Terstruktur dengan LLMs

Menggunakan model bahasa besar (LLMs) untuk ekstraksi data tidak terstruktur adalah solusi yang menarik dengan kelebihan yang jelas yang menangani tantangan kritis.

Ekstraksi Data yang Sadar Konteks

LLMs memiliki pemahaman konteks yang kuat, ditempa melalui pelatihan ekstensif pada dataset besar. Kemampuan mereka untuk melampaui permukaan dan memahami kerumitan konteks membuat mereka berharga dalam menangani berbagai tugas ekstraksi informasi. Misalnya, ketika ditugaskan untuk mengekstrak nilai cuaca, mereka menangkap informasi yang dimaksud dan mempertimbangkan elemen terkait seperti nilai iklim, dengan lancar mengintegrasikan sinonim dan semantik. Pemahaman tingkat lanjut ini memposisikan LLMs sebagai pilihan dinamis dan adaptif dalam domain ekstraksi data.

Menggunakan Kemampuan Pemrosesan Paralel

LLMs menggunakan pemrosesan paralel, membuat tugas lebih cepat dan lebih efisien. Tidak seperti model sekuen, LLMs mengoptimalkan distribusi sumber daya, menghasilkan percepatan tugas ekstraksi data. Ini meningkatkan kecepatan dan menyumbang pada kinerja proses ekstraksi secara keseluruhan.

Beradaptasi dengan Berbagai Jenis Data

Sementara model seperti Jaringan Saraf Berulang (RNNs) terbatas pada urutan tertentu, LLMs menangani data non-sekuensial, mengakomodasi struktur kalimat yang beragam dengan mudah. Kelenturan ini mencakup berbagai bentuk data seperti tabel dan gambar.

Meningkatkan Pipa Pemrosesan

Penggunaan LLMs menandai pergeseran signifikan dalam mengotomatisasi baik tahap pra-pemrosesan dan pasca-pemrosesan. LLMs mengurangi kebutuhan akan upaya manual dengan mengotomatisasi proses ekstraksi dengan akurat, mempermudah penanganan data tidak terstruktur. Pelatihan mereka yang luas pada dataset yang beragam memungkinkan mereka untuk mengidentifikasi pola dan korelasi yang terlewatkan oleh metode tradisional.

Sumber: Sebuah pipa pada Generative AI

Gambar pipa generative AI ini menggambarkan penerapan model seperti BERT, GPT, dan OPT dalam ekstraksi data. LLMs ini dapat melakukan berbagai operasi NLP, termasuk ekstraksi data. Biasanya, model generative AI memberikan prompt yang menjelaskan data yang diinginkan, dan responsnya berisi data yang diekstrak. Misalnya, prompt seperti “Ekstrak nama semua vendor dari pesanan pembelian ini” dapat menghasilkan respons yang berisi semua nama vendor yang ada dalam laporan semi-terstruktur. Selanjutnya, data yang diekstrak dapat diparsing dan dimuat ke tabel database atau file datar, memfasilitasi integrasi yang lancar ke dalam alur kerja organisasi.

Kerangka AI yang Berkembang: RNNs ke Transformers dalam Ekstraksi Data Modern

Generative AI beroperasi dalam kerangka encoder-decoder yang menampilkan dua jaringan saraf kolaboratif. Encoder memproses data input, mengompresi fitur penting ke dalam “Vektor Konteks.” Vektor ini kemudian digunakan oleh decoder untuk tugas generatif, seperti terjemahan bahasa. Arsitektur ini, yang menggunakan jaringan saraf seperti RNNs dan Transformers, menemukan aplikasi dalam domain yang beragam, termasuk terjemahan mesin, generasi gambar, sintesis ucapan, dan ekstraksi entitas data. Jaringan ini unggul dalam memodelkan hubungan kompleks dan ketergantungan dalam urutan data.

Jaringan Saraf Berulang

Jaringan Saraf Berulang (RNNs) telah dirancang untuk menangani tugas urutan seperti terjemahan dan ringkasan, unggul dalam konteks tertentu. Namun, mereka bergelut dengan akurasi dalam tugas yang melibatkan ketergantungan jangka panjang.

RNNs unggul dalam mengekstrak pasangan kunci-nilai dari kalimat tetapi menghadapi kesulitan dengan struktur seperti tabel. Mengatasi ini memerlukan pertimbangan yang cermat tentang urutan dan penempatan posisi, memerlukan pendekatan khusus untuk mengoptimalkan ekstraksi data dari tabel. Namun, adopsi mereka terbatas karena ROI yang rendah dan kinerja yang kurang memuaskan dalam sebagian besar tugas pemrosesan teks, bahkan setelah dilatih pada volume data yang besar.

Jaringan Memori Jangka Pendek-Panjang

Jaringan Memori Jangka Pendek-Panjang (LSTMs) muncul sebagai solusi yang menangani keterbatasan RNNs, terutama melalui mekanisme pembaruan dan penghapusan selektif. Seperti RNNs, LSTMs unggul dalam mengekstrak pasangan kunci-nilai dari kalimat. Namun, mereka menghadapi tantangan serupa dengan struktur seperti tabel, menuntut pertimbangan strategis tentang urutan dan elemen posisi.

GPU pertama kali digunakan untuk pembelajaran dalam pada 2012 untuk mengembangkan model CNN AlexNet yang terkenal. Selanjutnya, beberapa RNNs juga dilatih menggunakan GPU, meskipun mereka tidak menghasilkan hasil yang baik. Hari ini, meskipun ketersediaan GPU, model ini sebagian besar telah tidak digunakan dan telah digantikan oleh LLMs berbasis transformer.

Transformer – Mekanisme Perhatian

Pengenalan transformer, terutama dalam makalah berjudul “Perhatian adalah Semua yang Anda Butuhkan” (2017), merevolusi NLP dengan mengusulkan arsitektur ‘transformer’. Arsitektur ini memungkinkan komputasi paralel dan dengan mahir menangkap ketergantungan jangka panjang, membuka kemungkinan baru bagi model bahasa. LLMs seperti GPT, BERT, dan OPT telah memanfaatkan teknologi transformer. Di jantung transformer terletak mekanisme ‘perhatian’, kontributor kunci untuk kinerja yang ditingkatkan dalam pemrosesan data urutan-ke-urutan.

Mekanisme ‘perhatian’ dalam transformer menghitung jumlah tertimbang dari nilai berdasarkan pada kesesuaian antara ‘pertanyaan’ (prompt pertanyaan) dan ‘kunci’ (pemahaman model tentang setiap kata). Pendekatan ini memungkinkan perhatian yang terfokus selama generasi urutan, memastikan ekstraksi yang tepat. Dua komponen penting dalam mekanisme perhatian adalah Perhatian Diri, yang menangkap pentingnya antara kata-kata dalam urutan input, dan Perhatian Multi-Kepala, yang memungkinkan pola perhatian yang beragam untuk hubungan spesifik.

Dalam konteks Ekstraksi Faktur, Perhatian Diri mengenali relevansi tanggal yang disebutkan sebelumnya saat mengekstrak jumlah pembayaran, sementara Perhatian Multi-Kepala fokus secara independen pada nilai numerik (jumlah) dan pola teks (nama vendor). Tidak seperti RNNs, transformer tidak secara inheren memahami urutan kata. Untuk mengatasi ini, mereka menggunakan pengkodean posisi untuk melacak posisi setiap kata dalam urutan. Teknik ini diterapkan pada kedua embedding input dan output, membantu dalam mengidentifikasi kunci dan nilai yang sesuai dalam dokumen.

Kombinasi mekanisme perhatian dan pengkodean posisi sangat penting untuk kemampuan model bahasa besar untuk mengenali struktur sebagai tabel, mempertimbangkan isinya, spasi, dan penanda teks. Kemampuan ini membedakannya dari teknik ekstraksi data tidak terstruktur lainnya.

Tren dan Pengembangan Saat Ini

Ruang AI terbentang dengan tren dan pengembangan yang menjanjikan, mengubah cara kita mengekstrak informasi dari data tidak terstruktur. Mari kita jelajahi aspek kunci yang membentuk masa depan bidang ini.

Pengembangan Model Bahasa Besar (LLMs)

Generative AI sedang mengalami fase transformatif, dengan LLMs memainkan peran sentral dalam menangani dataset yang kompleks dan beragam untuk ekstraksi data tidak terstruktur. Dua strategi utama yang mendorong kemajuan ini:

Pembelajaran Multimodal: LLMs memperluas kemampuan mereka dengan memproses berbagai jenis data secara bersamaan, termasuk teks, gambar, dan audio. Pengembangan ini meningkatkan kemampuan mereka untuk mengekstrak informasi berharga dari sumber yang beragam, meningkatkan utilitas mereka dalam ekstraksi data tidak terstruktur. Peneliti sedang menjelajahi cara-cara efisien untuk menggunakan model ini, dengan tujuan menghilangkan kebutuhan akan GPU dan memungkinkan operasi model besar dengan sumber daya terbatas.

Aplikasi RAG: Pengambilan yang Ditingkatkan dengan Generasi (RAG) adalah tren yang muncul yang menggabungkan model bahasa besar pra-dilatih dengan mekanisme pencarian eksternal untuk meningkatkan kemampuan mereka. Dengan mengakses korpus dokumen yang luas selama proses generasi, RAG mengubah model bahasa dasar menjadi alat dinamis yang disesuaikan untuk aplikasi bisnis dan konsumen.

Mengevaluasi Kinerja LLM

Tantangan dalam mengevaluasi kinerja LLMs diatasi dengan pendekatan strategis, yang mencakup metrik tugas-spesifik dan metodologi evaluasi inovatif. Pengembangan kunci dalam ruang ini termasuk:

Metrik yang disesuaikan: Metrik evaluasi yang disesuaikan muncul untuk menilai kualitas tugas ekstraksi informasi. Presisi, recall, dan skor F1 metrik terbukti efektif, terutama dalam tugas seperti ekstraksi entitas.

Evaluasi Manusia: Evaluasi manusia tetap penting di samping metrik otomatis, memastikan evaluasi komprehensif dari LLMs. Mengintegrasikan metrik otomatis dengan penilaian manusia, metode evaluasi hibrida menawarkan pandangan yang lebih nuans tentang kesesuaian kontekstual dan relevansi informasi yang diekstrak.

Pengolahan Gambar dan Dokumen

LLMs multimodal telah sepenuhnya menggantikan OCR. Pengguna dapat mengubah teks yang discan dari gambar dan dokumen menjadi teks yang dapat dibaca mesin, dengan kemampuan untuk mengidentifikasi dan mengekstrak informasi langsung dari konten visual menggunakan modul berbasis visi.

Ekstraksi Data dari Tautan dan Situs Web

LLMs berkembang untuk memenuhi kebutuhan yang meningkat akan ekstraksi data dari situs web dan tautan web. Model ini semakin terampil dalam web scraping, mengubah data dari halaman web menjadi format terstruktur. Tren ini sangat berharga untuk tugas seperti agregasi berita, pengumpulan data e-commerce, dan intelijen kompetitif, meningkatkan pemahaman kontekstual dan mengekstrak data relasional dari web.

Munculnya Raksasa Kecil dalam Generative AI

Paruh pertama tahun 2023 menyaksikan fokus pada pengembangan model bahasa besar berdasarkan asumsi “lebih besar lebih baik”. Namun, hasil terbaru menunjukkan bahwa model yang lebih kecil seperti TinyLlama dan Dolly-v2-3B, dengan kurang dari 3 miliar parameter, unggul dalam tugas seperti penalaran dan ringkasan, mendapatkan julukan “raksasa kecil.” Model ini menggunakan daya komputasi yang lebih sedikit dan penyimpanan, membuat AI lebih dapat diakses oleh perusahaan yang lebih kecil tanpa kebutuhan akan GPU yang mahal.

Kesimpulan

Model generative AI awal, termasuk jaringan generatif adversial (GANs) dan pengkodean auto-variational (VAEs), memperkenalkan pendekatan baru untuk mengelola data berbasis gambar. Namun, terobosan nyata datang dengan model bahasa besar berbasis transformer. Model ini melampaui semua teknik sebelumnya dalam pemrosesan data tidak terstruktur berkat struktur encoder-decoder, perhatian diri, dan perhatian multi-kepala, memberikan pemahaman yang mendalam tentang bahasa dan memungkinkan kemampuan penalaran seperti manusia.

Sementara generative AI menawarkan awal yang menjanjikan untuk menambang data teks dari laporan, skalabilitas dari pendekatan seperti itu terbatas. Langkah awal sering melibatkan pemrosesan OCR, yang dapat menghasilkan kesalahan, dan tantangan bertahan dalam mengekstrak teks dari gambar dalam laporan.

Sementara itu, mengekstrak teks di dalam gambar dalam laporan adalah tantangan lain. Mengadopsi solusi seperti pemrosesan data multimodal dan perluasan batas token di GPT-4, Claud3, Gemini menawarkan jalur yang menjanjikan. Namun, perlu diingat bahwa model ini hanya dapat diakses melalui API. Sementara menggunakan API untuk ekstraksi data dari dokumen efektif dan efisien biaya, ini datang dengan keterbatasan seperti latensi, kontrol terbatas, dan risiko keamanan.

Solusi yang lebih aman dan dapat disesuaikan terletak pada penyetelan LLM dalam rumah. Pendekatan ini tidak hanya memitigasi kekhawatiran privasi dan keamanan data tetapi juga meningkatkan kontrol atas proses ekstraksi data. Menyetel LLM untuk pemahaman tata letak dokumen dan untuk memahami makna teks berdasarkan konteksnya menawarkan metode yang kuat untuk mengekstrak pasangan kunci-nilai dan item baris. Dengan menggunakan pembelajaran zero-shot dan few-shot, model yang disesuaikan dapat beradaptasi dengan tata letak dokumen yang beragam, memastikan ekstraksi data tidak terstruktur yang efisien dan akurat di berbagai domain.

Related Topics:data extraction thought leaders