ปัญญาประดิษฐ์
DocLang มุ่งเป้าไปสู่การเป็นภาษาสากลสำหรับเอกสารที่พร้อมใช้งาน AI

ในช่วงหลายทศวรรษที่ผ่านมา องค์กรต่างๆ ได้พึ่งพารูปแบบเอกสารที่ออกแบบมาเพื่ออ่านโดยมนุษย์มากกว่าระบบ AI สัญญา ใบแจ้งหนี้ รายงาน การนำเสนอ แบบฟอร์ม และเอกสารทางธุรกิจอื่นๆ มีข้อมูลที่มีค่า แต่การดึงข้อมูลนั้นสำหรับแอปพลิเคชัน AI มักต้องใช้กระบวนการประมวลผลที่ซับซ้อน ซึ่งเพิ่มต้นทุน ความล่าช้า และโอกาสที่จะเกิดข้อผิดพลาด
เมื่อองค์กรต่างๆ ใช้ AI ที่สร้างขึ้นและตัวแทนอิสระมากขึ้น ความไม่เชื่อมต่อนั้นกลายเป็นความท้าทายที่เพิ่มขึ้น เพื่อแก้ไขปัญหานี้ ABBYY ได้ร่วมมือกับ IBM, NVIDIA, Red Hat, HumanSignal และ Linux Foundation’s LF AI & Data Foundation เพื่อเปิดตัว DocLang ซึ่งเป็นมาตรฐานเปิดใหม่ที่ออกแบบมาเพื่อสร้างการแสดงเอกสารที่เป็นมิตรกับ AI ผู้สนับสนุนของโครงการเชื่อว่ามันอาจมีบทบาทคล้ายกับการมาตรฐานของ HTML สำหรับเนื้อหาทางเว็บ โดยสร้างภาษาที่ใช้ร่วมกันเพื่อให้ระบบ AI เข้าใจเอกสารได้อย่างสม่ำเสมอและ効ิภาพมากขึ้น
ทำไมเอกสารจึงกลายเป็นปัญหา AI
เอกสารส่วนใหญ่ของโลกมีอยู่ในรูปแบบ เช่น PDF ไฟล์ภาพสแกน สเปรดชีต และการนำเสนอ ในขณะที่รูปแบบเหล่านี้ทำงานได้ดีสำหรับการอ่านโดยมนุษย์ แต่ไม่ได้ออกแบบมาเพื่อความเข้าใจของเครื่องจักร
มนุษย์สามารถรับรู้หัวข้อ ตาราง ความสัมพันธ์ระหว่างส่วน และความสำคัญของข้อมูลตามตำแหน่งภายในเอกสารได้ทันที ในทางกลับกัน ระบบ AI มักต้องการหลายชั้นของ OCR การวิเคราะห์แบบแผน การแยกเอกสาร และการประมวลผลหลังการประมวลผลก่อนที่จะสามารถตีความเนื้อหานั้นได้อย่างน่าเชื่อถือ
ความท้าทายนี้กลายเป็นเรื่องสำคัญมากขึ้นเมื่อองค์กรใช้ตัวแทน AI ที่สามารถให้เหตุผลข้ามคอลเลกชันข้อมูลทางธุรกิจขนาดใหญ่ เอกสารทุกฉบับต้องถูกแปลงเป็นการแสดงข้อมูลที่มีโครงสร้างก่อนที่จะสามารถใช้งานได้อย่างมีประสิทธิภาพโดยโมเดลภาษา ระบบการค้นหา หรือ 워์กโฟลว์แบบอัตโนมัติ
ผลลัพธ์คือระบบนิเวศที่กระจัดกระจาย ซึ่งเครื่องมือต่างๆ มักสร้างการแสดงเอกสารของตนเอง ทำให้การทำงานร่วมกันระหว่างระบบยากขึ้น และเพิ่มความเสี่ยงต่อความไม่สอดคล้องกัน
ABBYY ช่วยกำหนดวิสัยทัศน์
ABBYY เป็นหนึ่งในผู้ร่วมให้ข้อมูลหลักเบื้องหลังโครงการ DocLang บริษัทได้ใช้เวลาทศวรรษในการพัฒนาเทคโนโลยีด้านความฉลาดของเอกสาร OCR และการอัตโนมัติ ซึ่งให้มุมมองที่ไม่เหมือนใครเกี่ยวกับความท้าทายที่องค์กรต่างๆ ต้องเผชิญเมื่อพยายามเชื่อมช่องว่างระหว่างเอกสารแบบดั้งเดิมและระบบ AI สมัยใหม่
ตามคำกล่าวของ Maxime Vermeir รองประธานฝ่ายกลยุทธ์ AI ของ ABBYY ความคิดของ DocLang เกิดขึ้นจากการสนทนาในชุมชน AI เอกสารเกี่ยวกับความจำเป็นในการมีชั้นการแสดงข้อมูลที่ใช้ร่วมกันซึ่งสามารถอยู่ระหว่างเอกสารดั้งเดิมและแอปพลิเคชัน AI
“DocLang ได้รับการออกแบบมาเพื่อแก้ไขปัญหาพื้นฐานหนึ่งของ AI ในองค์กร: เอกสารถูกสร้างขึ้นสำหรับมนุษย์ ไม่ใช่เครื่องจักร” Vermeir อธิบาย
แทนที่จะบังคับให้ระบบ AI แต่ละระบบต้องตีความการวางผังเอกสาร ตาราง ความสัมพันธ์ เมตาดาต้า และโครงสร้างเอกสารอย่างอิสระ DocLang มุ่งหวังที่จะสร้างเฟรมเวิร์กมาตรฐานที่สามารถใช้ร่วมกันระหว่างแพลตฟอร์มและแอปพลิเคชันต่างๆ
เป้าหมายคือการทำให้การเข้าใจเอกสารน่าเชื่อถือมากขึ้น ลดการเห็นภาพที่เกิดจากข้อมูลที่หายไป และลดต้นทุนการประมวลผลที่เกี่ยวข้องกับการประมวลผลข้อมูลเดียวกันซ้ำๆ
DocLang คืออะไร?
DocLang เป็นมาตรฐานเปิดสำหรับการแสดงเอกสารในรูปแบบที่ได้รับการปรับให้เหมาะสมสำหรับระบบ AI
ไม่เหมือนกับรูปแบบดั้งเดิมที่เน้นการนำเสนอภาพ DocLang ได้รับการออกแบบมาเพื่อรักษาหลายชั้นของข้อมูลพร้อมๆ กัน รวมถึง:
- ความหมายเชิงсемันติก
- โครงสร้างเอกสารและลำดับชั้น
- การวางผังทางเรขาคณิตและตำแหน่ง
- ตารางและองค์ประกอบเอกสารที่ซับซ้อน
- เมตาดาต้า
- การควบคุมและการใช้งาน
แนวทางนี้ช่วยให้ระบบ AI เข้าใจไม่เพียงแต่ข้อมูลที่มีอยู่ในเอกสาร แต่ยังรวมถึงวิธีการจัดระเบียบและความสัมพันธ์ของข้อมูลนั้นด้วย
ตัวอย่างเช่น ค่าในตารางการเงินมีความหมายไม่เพียงแต่จากตัวเลขเอง แต่ยังมาจากความสัมพันธ์กับแถวและคอลัมน์ที่อยู่รอบๆ หัวข้อและข้อมูลบริบทอื่นๆ การรักษาความสัมพันธ์เหล่านี้ในรูปแบบมาตรฐานสามารถช่วยให้ระบบ AI วิเคราะห์เอกสารได้อย่างแม่นยำมากขึ้น
DocLang ยังรวมถึงการควบคุมการกำกับดูแลที่ช่วยให้องค์กรสามารถระบุว่าเอกสารสามารถใช้งานได้อย่างไร รวมถึงนโยบายที่เกี่ยวข้องกับความเป็นส่วนตัว การดึงข้อมูล และการฝึกอบรมโมเดล AI
การเปรียบเทียบ HTML
ผู้สนับสนุนโครงการ DocLang มักเปรียบเทียบกับบทบาทของ HTML ในการพัฒนาของเว็บ
ก่อนที่ HTML จะได้รับการยอมรับอย่างกว้างขวาง ไม่มีวิธีการที่เป็นมาตรฐานสำหรับเว็บเบราว์เซอร์ในการตีความและแสดงเนื้อหาที่สอดคล้องกัน HTML ได้แนะนำโครงสร้างที่ใช้ร่วมกันซึ่งช่วยให้เว็บไซต์สามารถเข้าใจได้ทั่วทั้งระบบและแพลตฟอร์มต่างๆ
DocLang มุ่งหวังที่จะนำระดับการมาตรฐานที่คล้ายกันนี้มาใช้กับเอกสารทางธุรกิจ แทนที่จะให้แต่ละแพลตฟอร์ม AI พัฒนาการตีความโครงสร้างเอกสารของตนเอง รูปแบบที่ใช้ร่วมกันสามารถให้พื้นฐานร่วมกันสำหรับการเข้าใจเอกสารทั่วทั้งระบบ AI ที่กว้างขึ้น
เมื่อการนำ AI ไปใช้เพิ่มขึ้น ผู้เสนอโครงการ DocLang แย้งว่าการแสดงเอกสารที่มาตรฐานอาจมีความสำคัญมากขึ้นในการรับประกันการทำงานร่วมกันระหว่างโมเดล แอปพลิเคชัน และตัวแทนอิสระ
DocLang และ Docling ทำงานร่วมกันอย่างไร
โครงการนี้ยังสร้างบน Docling ซึ่งเป็นชุดเครื่องมือประมวลผลเอกสารแบบเปิดซอร์สที่พัฒนาโดย IBM Research Zurich และเผยแพร่แบบเปิดซอร์สในปี 2024
Docling มุ่งเน้นไปที่การรับและการแปลงเอกสาร สามารถประมวลผล PDF ไฟล์ Word สเปรดชีต การนำเสนอ ไฟล์ HTML และรูปภาพ โดยแปลงพวกมันให้เป็นการแสดงข้อมูลที่มีโครงสร้างโดยใช้การวิเคราะห์แบบแผนและการเข้าใจเอกสารที่ทันสมัย
DocLang เสริมความสามารถนี้โดยให้รูปแบบมาตรฐานสำหรับการแสดงและการแลกเปลี่ยนข้อมูลที่มีโครงสร้างที่ผลิตโดยเครื่องมือ เช่น Docling
ทั้งสองโครงการสร้างสแต็ก AI เอกสารที่สมบูรณ์มากขึ้น:
- Docling จัดการการรับและการแปลงเอกสาร
- DocLang ให้เลเยอร์การแสดงข้อมูลที่เป็นมาตรฐาน
- โมเดล AI และตัวแทนรับข้อมูลที่มีโครงสร้างที่ผลิต
การแยกส่วนนี้ช่วยลดการกระจัดกระจายและสร้างเฟรมเวิร์กที่ใช้ร่วมกันซึ่งผู้ขายและนักพัฒนาต่างๆ สามารถใช้ได้
ทำไมมาตรฐานเปิดจึงมีความสำคัญสำหรับ AI ในองค์กร
เมื่อการนำ AI ไปใช้ในองค์กรเปลี่ยนจากการทดลองไปสู่การผลิต การทำงานร่วมกันระหว่างระบบก็กลายเป็นเรื่องสำคัญมากขึ้น
องค์กรไม่เคยพึ่งพาโมเดล AI แพลตฟอร์มเอกสาร หรือซอฟต์แวร์จากผู้ขายเดียวเท่านั้น แต่ทำงานในระบบนิเวศที่ซับซ้อนซึ่งต้องการให้ข้อมูลไหลเวียนระหว่างระบบได้อย่างราบรื่น
มาตรฐานเปิดมีบทบาทสำคัญในการอำนวยความสะดวกในการนำเทคโนโลยีไปใช้โดยการสร้างเฟรมเวิร์กที่ใช้ร่วมกันซึ่งลดความซับซ้อนในการรวมระบบและความผูกพันของผู้ขาย Kubernetes ช่วยมาตรฐานการสร้างโครงสร้างพื้นฐานแบบคลาวด์-เนทีฟ ในขณะที่ HTML กลายเป็นพื้นฐานของเว็บสมัยใหม่
ผู้สนับสนุน DocLang เชื่อว่ามาตรฐานเอกสารที่เป็นมิตรกับ AI อาจมีบทบาทคล้ายกันสำหรับ AI เอกสารและ 워์กโฟลว์แบบอัตโนมัติ
มองไปข้างหน้า
อุตสาหกรรม AI ได้ลงทุนอย่างมากในการสอนเครื่องจักรให้เข้าใจเอกสารที่ไม่ได้ออกแบบมาเพื่อการบริโภคของเครื่องจักร DocLang เป็นความพยายามที่จะแก้ไขความท้าทายนี้ที่ต้นตอโดยการสร้างภาษาเอกสารที่ออกแบบมาโดยเฉพาะสำหรับ AI
หากประสบความสำเร็จ โครงการอาจช่วยปรับปรุงการเข้าใจเอกสาร ลดการเห็นภาพที่เกิดจากบริบทโครงสร้างที่หายไป ลดต้นทุนการประมวลผล และทำให้ระบบ AI สามารถแลกเปลี่ยนข้อมูลระหว่างแพลตฟอร์มได้ง่ายขึ้น
ในยุคที่องค์กรต่างๆ พึ่งพาตัวแทน AI เพื่อนำทางคอลเลกชันข้อมูลทางธุรกิจที่กว้างขวาง การมาตรฐานวิธีการแสดงเอกสารอาจมีความสำคัญไม่แพ้กับการพัฒนาโมเดล AI เอง สำหรับ ABBYY และผู้ร่วมให้ข้อมูล DocLang คือความพยายามในการสร้างพื้นฐานที่สามารถทำให้อนาคตนั้นเป็นไปได้
ations are increasingly relying on AI agents to navigate vast collections of business knowledge, standardizing how documents are represented may prove just as important as advancing the models themselves. For ABBYY and its collaborators, DocLang is an effort to build the foundation that could make that future possible.












