Kecerdasan buatan

DocLang Bertujuan Menjadi Bahasa Universal untuk Dokumen yang Siap AI

mm

Selama beberapa dekade, perusahaan telah bergantung pada format dokumen yang dirancang untuk pembaca manusia, bukan sistem AI. Kontrak, faktur, laporan, presentasi, formulir, dan banyak dokumen bisnis lainnya mengandung informasi berharga, namun mengekstrak pengetahuan tersebut untuk aplikasi AI sering memerlukan pipa proses yang kompleks yang menambah biaya, latensi, dan kesempatan untuk kesalahan.

Ketika organisasi semakin banyak menerapkan AI generatif dan agen otonom, disconnect tersebut telah menjadi tantangan yang semakin besar. Untuk mengatasi hal ini, ABBYY telah bergabung dengan IBM, NVIDIA, Red Hat, HumanSignal, dan Yayasan LF AI & Data dari Linux Foundation untuk meluncurkan DocLang, sebuah standar terbuka baru yang dirancang untuk menciptakan representasi dokumen yang asli untuk AI. Pendukung inisiatif ini percaya bahwa ini bisa memainkan peran serupa dengan standardisasi konten web oleh HTML, menciptakan bahasa umum yang memungkinkan sistem AI memahami dokumen dengan lebih konsisten dan efisien.

Mengapa Dokumen Menjadi Masalah AI

Sebagian besar pengetahuan bisnis di dunia ada dalam format seperti PDF, gambar yang dipindai, spreadsheet, dan presentasi. Meskipun format ini bekerja dengan baik untuk konsumsi manusia, mereka tidak pernah dirancang untuk pemahaman mesin.

Manusia dapat mengenali judul, tabel, hubungan antara bagian, dan signifikansi informasi berdasarkan letaknya dalam dokumen. Sistem AI, bagaimanapun, sering memerlukan beberapa lapisan OCR, analisis tata letak, parsing dokumen, dan pasca-pengolahan sebelum mereka dapat memahami konten dengan andal.

Tantangan ini menjadi lebih signifikan ketika organisasi mengadopsi agen AI yang dapat bernalar di seluruh kumpulan data perusahaan. Setiap dokumen harus pertama-tama diubah menjadi representasi terstruktur sebelum dapat digunakan secara efektif oleh model bahasa, sistem pengambilan, atau alur kerja otomatis.

Hasilnya adalah ekosistem yang terfragmentasi di mana alat yang berbeda sering menciptakan representasi dokumen mereka sendiri, membuat interoperabilitas sulit dan meningkatkan kemungkinan inkonsistensi.

Bagaimana ABBYY Membantu Membentuk Visi

ABBYY telah muncul sebagai salah satu kontributor kunci di balik inisiatif DocLang. Perusahaan ini telah menghabiskan beberapa dekade mengembangkan kecerdasan dokumen, OCR, dan teknologi otomatisasi, memberinya perspektif unik tentang tantangan yang dihadapi perusahaan ketika mencoba menjembatani kesenjangan antara dokumen tradisional dan sistem AI modern.

Menurut Maxime Vermeir, Wakil Presiden Strategi AI di ABBYY, ide untuk DocLang tumbuh dari percakapan dalam komunitas AI dokumen tentang kebutuhan akan lapisan representasi umum yang dapat duduk di antara dokumen mentah dan aplikasi AI.

“DocLang dirancang untuk memecahkan salah satu masalah dasar dalam AI perusahaan: dokumen dibangun untuk manusia, bukan mesin,” jelas Vermeir.

Daripada memaksa setiap sistem AI untuk memahami tata letak dokumen, tabel, hubungan, metadata, dan struktur secara independen, DocLang berusaha untuk membangun kerangka kerja standar yang dapat dibagikan di seluruh platform dan aplikasi.

Tujuannya adalah membuat pemahaman dokumen lebih andal, mengurangi halusinasi yang disebabkan oleh konteks yang hilang, dan menurunkan biaya komputasi yang terkait dengan pengolahan informasi yang sama berulang kali.

Apa Itu DocLang?

DocLang adalah spesifikasi terbuka untuk merepresentasikan dokumen dalam format yang dioptimalkan khusus untuk sistem AI.

Tidak seperti format tradisional yang berfokus pada presentasi visual, DocLang dirancang untuk melestarikan beberapa lapis informasi secara bersamaan, termasuk:

  • Makna semantik
  • Struktur dan hierarki dokumen
  • Tata letak geometris dan posisi
  • Tabel dan elemen dokumen kompleks
  • Metadata
  • Kontrol tata kelola dan penggunaan

Pendekatan ini memungkinkan sistem AI untuk memahami tidak hanya informasi apa yang ada dalam dokumen, tetapi juga bagaimana informasi tersebut disusun dan terkait.

Sebagai contoh, nilai yang terkandung dalam tabel keuangan memiliki makna tidak hanya karena angka itu sendiri, tetapi karena hubungannya dengan baris, kolom, judul, dan informasi kontekstual yang mengelilinginya. Melestarikan hubungan tersebut dalam format standar dapat membantu sistem AI bernalar lebih akurat tentang konten dokumen.

DocLang juga mencakup kontrol tata kelola yang memungkinkan organisasi untuk menentukan bagaimana konten dokumen dapat digunakan, termasuk kebijakan terkait privasi, ekstraksi, dan pelatihan model AI.

Perbandingan HTML

Pendukung inisiatif ini sering membandingkan DocLang dengan peran HTML dalam evolusi web.

Sebelum HTML menjadi luas digunakan, tidak ada cara universal bagi browser untuk memahami dan menampilkan konten secara konsisten. HTML memperkenalkan struktur umum yang memungkinkan situs web dipahami di seluruh sistem dan platform.

DocLang bertujuan membawa tingkat standarisasi yang serupa ke dokumen perusahaan. Alih-alih setiap platform AI mengembangkan interpretasi dokumen mereka sendiri, format yang dibagikan dapat menyediakan fondasi umum untuk pemahaman dokumen di seluruh ekosistem AI yang lebih luas.

Ketika adopsi AI dipercepat, pendukung berpendapat bahwa representasi dokumen yang standar mungkin menjadi semakin penting untuk memastikan interoperabilitas antara model, aplikasi, dan agen otonom.

Bagaimana DocLang dan Docling Bekerja Bersama

Inisiatif ini juga dibangun atas Docling, toolkit pengolahan dokumen sumber terbuka yang awalnya dikembangkan oleh IBM Research Zurich dan dirilis sebagai sumber terbuka pada 2024.

Docling berfokus pada pengambilan dan konversi dokumen. Ini dapat memproses PDF, dokumen Word, spreadsheet, presentasi, file HTML, dan gambar, mengubahnya menjadi representasi terstruktur menggunakan analisis tata letak dan model pemahaman dokumen yang canggih.

DocLang melengkapi kemampuan tersebut dengan menyediakan format standar untuk merepresentasikan dan menukar output terstruktur yang dihasilkan oleh alat seperti Docling.

Kedua proyek ini menciptakan tumpukan AI dokumen yang lebih lengkap:

  • Docling menangani pengambilan dan pemahaman dokumen
  • DocLang menyediakan lapisan representasi universal
  • Model AI dan agen mengonsumsi informasi terstruktur yang dihasilkan

Pemisahan ini membantu mengurangi fragmentasi sambil menciptakan kerangka kerja umum yang dapat diadopsi oleh vendor dan pengembang yang berbeda.

Mengapa Standar Terbuka Penting untuk AI Perusahaan

Ketika penerapan AI perusahaan berpindah dari eksperimen ke produksi, interoperabilitas menjadi semakin penting.

Organisasi jarang bergantung pada satu model AI, platform dokumen, atau vendor perangkat lunak. Sebaliknya, mereka mengoperasikan ekosistem yang kompleks yang memerlukan informasi untuk bergerak secara mulus antara sistem.

Standar terbuka telah memainkan peran kritis dalam memungkinkan adopsi teknologi dengan menciptakan kerangka kerja umum yang mengurangi kompleksitas integrasi dan ketergantungan vendor. Kubernetes membantu memstandarisasi infrastruktur cloud-asli, sementara HTML menjadi dasar web modern.

Pendukung DocLang percaya bahwa standar dokumen asli AI dapat memainkan fungsi serupa untuk kecerdasan dokumen dan alur kerja AI agen.

Menghadap Masa Depan

Industri AI telah menginvestasikan upaya besar untuk mengajar mesin bagaimana menafsirkan dokumen yang tidak pernah dirancang untuk konsumsi mesin. DocLang mewakili upaya untuk mengatasi tantangan tersebut dengan menciptakan bahasa dokumen yang dibangun khusus untuk AI.

Jika sukses, inisiatif ini dapat membantu memperbaiki interpretasi dokumen, mengurangi halusinasi yang disebabkan oleh konteks struktural yang hilang, menurunkan biaya pengolahan, dan membuatnya lebih mudah bagi sistem AI untuk menukar informasi di seluruh platform.

Pada saat organisasi semakin bergantung pada agen AI untuk menavigasi kumpulan pengetahuan bisnis yang luas, standarisasi bagaimana dokumen direpresentasikan mungkin terbukti sama pentingnya dengan memajukan model-model itu sendiri. Bagi ABBYY dan kolaboratornya, DocLang adalah upaya untuk membangun fondasi yang dapat membuat masa depan tersebut memungkinkan.

Antoine adalah pemimpin visioner dan rekan pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Sebagai seorang wirausaha serial, ia percaya bahwa AI akan menjadi sesuatu yang sangat mengganggu masyarakat seperti listrik, dan sering tertangkap basah membicarakan potensi teknologi disruptif dan AGI.

Sebagai seorang futuris, ia didedikasikan untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan ulang masa depan dan mengubah seluruh sektor.