Trí tuệ nhân tạo
DocLang Nhắm Đến Trở Thành Ngôn Ngữ Toàn Cầu Cho Tài Liệu Sẵn Sàng AI

Trong nhiều thập kỷ, các doanh nghiệp đã dựa vào các định dạng tài liệu được thiết kế cho người đọc chứ không phải cho hệ thống AI. Hợp đồng, hóa đơn, báo cáo, trình bày, biểu mẫu và vô số tài liệu kinh doanh khác chứa thông tin quý giá, nhưng việc trích xuất kiến thức đó cho các ứng dụng AI thường đòi hỏi các đường ống xử lý phức tạp mà thêm chi phí, độ trễ và cơ hội cho lỗi.
Khi các tổ chức ngày càng triển khai AI tạo và các tác nhân tự động, sự tách biệt đó đã trở thành một thách thức ngày càng tăng. Để giải quyết vấn đề này, ABBYY đã tham gia với IBM, NVIDIA, Red Hat, HumanSignal và Quỹ LF AI & Dữ liệu của Linux trong việc ra mắt DocLang, một tiêu chuẩn mở mới được thiết kế để tạo ra một biểu diễn tài liệu bản địa cho AI. Những người ủng hộ sáng kiến này tin rằng nó có thể đóng vai trò tương tự như việc tiêu chuẩn hóa nội dung web của HTML, tạo ra một ngôn ngữ chung cho phép các hệ thống AI hiểu tài liệu một cách nhất quán và hiệu quả hơn.
Tại Sao Tài Liệu Trở Thành Vấn Đề Của AI
Hầu hết kiến thức kinh doanh của thế giới tồn tại ở các định dạng như PDF, hình ảnh được quét, bảng tính và trình bày. Mặc dù các định dạng này hoạt động tốt cho người tiêu dùng, nhưng chúng không bao giờ được thiết kế cho sự hiểu biết của máy.
Con người có thể nhận ra ngay lập tức các tiêu đề, bảng, mối quan hệ giữa các phần và tầm quan trọng của thông tin dựa trên vị trí của nó trong tài liệu. Tuy nhiên, các hệ thống AI thường đòi hỏi nhiều lớp OCR, phân tích bố cục, phân tích tài liệu và hậu xử lý trước khi chúng có thể giải thích nội dung một cách đáng tin cậy.
Thách thức này trở nên quan trọng hơn khi các tổ chức áp dụng các tác nhân AI có khả năng suy luận trên các bộ sưu tập dữ liệu doanh nghiệp lớn. Mỗi tài liệu phải được chuyển đổi thành một biểu diễn có cấu trúc trước khi nó có thể được sử dụng hiệu quả bởi các mô hình ngôn ngữ, hệ thống thu hồi hoặc các quy trình tự động.
Kết quả là một hệ sinh thái phân mảnh trong đó các công cụ khác nhau thường tạo ra các biểu diễn tài liệu riêng của chúng, làm cho tính tương tác trở nên khó khăn và tăng khả năng không nhất quán.
ABBYY Đã Giúp Hình Thành Tầm Nhìn
ABBYY đã nổi lên như một trong những người đóng góp chính cho sáng kiến DocLang. Công ty đã dành nhiều thập kỷ để phát triển trí tuệ tài liệu, OCR và công nghệ tự động hóa, mang lại cho nó một quan điểm độc đáo về các thách thức mà các doanh nghiệp phải đối mặt khi cố gắng bắc cầu giữa các tài liệu truyền thống và các hệ thống AI hiện đại.
Theo Maxime Vermeir, Phó Chủ tịch Chiến lược AI tại ABBYY, ý tưởng về DocLang đã phát triển từ các cuộc trò chuyện trong cộng đồng AI tài liệu về nhu cầu một lớp biểu diễn chung có thể nằm giữa các tài liệu thô và các ứng dụng AI.
“DocLang được thiết kế để giải quyết một trong những vấn đề cơ bản trong AI doanh nghiệp: tài liệu được xây dựng cho con người, không phải máy móc,” Vermeir giải thích.
Thay vì buộc mỗi hệ thống AI phải độc lập giải thích bố cục tài liệu, bảng, mối quan hệ, siêu dữ liệu và cấu trúc, DocLang nhằm mục đích thiết lập một khuôn khổ tiêu chuẩn có thể được chia sẻ trên các nền tảng và ứng dụng.
Mục tiêu là làm cho việc hiểu tài liệu trở nên đáng tin cậy hơn, giảm các ảo giác do thiếu ngữ cảnh và giảm chi phí tính toán liên quan đến việc xử lý lại cùng một thông tin.
DocLang Là Gì?
DocLang là một thông số kỹ thuật mở cho việc biểu diễn tài liệu ở định dạng được tối ưu hóa đặc biệt cho các hệ thống AI.
Không giống như các định dạng truyền thống tập trung chủ yếu vào việc trình bày trực quan, DocLang được thiết kế để bảo tồn nhiều lớp thông tin đồng thời, bao gồm:
- Ý nghĩa ngữ nghĩa
- Cấu trúc tài liệu và phân cấp
- Bố cục hình học và vị trí
- Bảng và các phần tử tài liệu phức tạp
- Siêu dữ liệu
- Quản lý và kiểm soát sử dụng
Cách tiếp cận này cho phép các hệ thống AI hiểu không chỉ thông tin nào tồn tại trong tài liệu mà còn cách thông tin đó được tổ chức và liên quan.
Ví dụ, một giá trị chứa trong bảng tài chính mang ý nghĩa không chỉ vì số lượng bản thân mà còn vì mối quan hệ của nó với các hàng, cột, tiêu đề và thông tin ngữ cảnh xung quanh. Việc bảo tồn những mối quan hệ này trong một định dạng tiêu chuẩn có thể giúp các hệ thống AI suy luận chính xác hơn về nội dung tài liệu.
DocLang cũng kết hợp các kiểm soát quản lý cho phép các tổ chức chỉ định cách nội dung tài liệu có thể được sử dụng, bao gồm các chính sách liên quan đến quyền riêng tư, trích xuất và đào tạo mô hình AI.
So Sánh HTML
Những người ủng hộ sáng kiến này thường so sánh DocLang với vai trò của HTML trong sự phát triển của web.
Trước khi HTML trở nên phổ biến, không có cách nào cho các trình duyệt hiểu và hiển thị nội dung một cách nhất quán. HTML đã giới thiệu một cấu trúc chung cho phép các trang web được hiểu trên các hệ thống và nền tảng khác nhau.
DocLang nhằm mục đích mang lại một mức độ tiêu chuẩn hóa tương tự cho các tài liệu doanh nghiệp. Thay vì mỗi nền tảng AI phát triển cách giải thích riêng về cấu trúc tài liệu, một định dạng chung có thể cung cấp một nền tảng chung cho việc hiểu tài liệu trên toàn bộ hệ sinh thái AI.
Khi việc áp dụng AI tăng tốc, những người đề xuất cho rằng việc biểu diễn tài liệu tiêu chuẩn hóa có thể trở nên quan trọng hơn để đảm bảo tính tương tác giữa các mô hình, ứng dụng và tác nhân tự động.
DocLang và Docling Làm Việc Cùng Nhau
Sáng kiến này cũng dựa trên Docling, bộ công cụ xử lý tài liệu mã nguồn mở ban đầu được phát triển bởi IBM Research Zurich và được phát hành dưới dạng mã nguồn mở vào năm 2024.
Docling tập trung vào việc nhập và chuyển đổi tài liệu. Nó có thể xử lý các tệp PDF, Word, bảng tính, trình bày, tệp HTML và hình ảnh, chuyển đổi chúng thành các biểu diễn có cấu trúc bằng cách sử dụng phân tích bố cục và các mô hình hiểu biết tài liệu tiên tiến.
DocLang bổ sung khả năng này bằng cách cung cấp một định dạng tiêu chuẩn cho việc biểu diễn và trao đổi đầu ra có cấu trúc được tạo bởi các công cụ như Docling.
Cùng nhau, các dự án tạo ra một ngăn xếp AI tài liệu hoàn chỉnh hơn:
- Docling xử lý việc nhập và hiểu biết tài liệu
- DocLang cung cấp một lớp biểu diễn chung
- Các mô hình và tác nhân AI tiêu thụ thông tin có cấu trúc kết quả
Sự tách biệt này giúp giảm phân mảnh trong khi tạo ra một khuôn khổ chung mà các nhà cung cấp và nhà phát triển khác nhau có thể áp dụng.
Tại Sao Các Tiêu Chuẩn Mở Là Quan Trọng Đối Với AI Doanh Nghiệp
Khi các triển khai AI doanh nghiệp chuyển từ thử nghiệm sang sản xuất, tính tương tác đang trở nên quan trọng hơn.
Các tổ chức hiếm khi dựa vào một mô hình AI duy nhất, nền tảng tài liệu hoặc nhà cung cấp phần mềm. Thay vào đó, họ hoạt động trong các hệ sinh thái phức tạp đòi hỏi thông tin phải di chuyển liền mạch giữa các hệ thống.
Các tiêu chuẩn mở đã đóng vai trò quan trọng trong việc cho phép việc áp dụng công nghệ bằng cách tạo ra các khuôn khổ chung giảm thiểu sự phức tạp của tích hợp và khóa nhà cung cấp. Kubernetes đã giúp tiêu chuẩn hóa cơ sở hạ tầng đám mây bản địa, trong khi HTML đã trở thành nền tảng của web hiện đại.
Những người ủng hộ DocLang tin rằng các tiêu chuẩn tài liệu bản địa AI có thể đóng vai trò tương tự cho trí tuệ tài liệu và các quy trình làm việc của tác nhân AI.
Nhìn Về Tương Lai
Ngành công nghiệp AI đã đầu tư rất nhiều vào việc dạy máy móc cách giải thích tài liệu mà không được thiết kế để tiêu thụ máy móc. DocLang đại diện cho một nỗ lực để giải quyết thách thức đó tại nguồn bằng cách tạo ra một ngôn ngữ tài liệu được xây dựng đặc biệt cho AI.
Nếu thành công, sáng kiến này có thể giúp cải thiện việc giải thích tài liệu, giảm các ảo giác do thiếu ngữ cảnh cấu trúc, giảm chi phí xử lý và làm cho các hệ thống AI dễ dàng trao đổi thông tin trên các nền tảng.
Vào thời điểm các tổ chức ngày càng dựa vào các tác nhân AI để điều hướng các bộ sưu tập kiến thức kinh doanh rộng lớn, việc tiêu chuẩn hóa cách tài liệu được biểu diễn có thể chứng minh là quan trọng không kém so với việc phát triển các mô hình bản thân. Đối với ABBYY và các cộng tác viên của nó, DocLang là một nỗ lực để xây dựng nền tảng có thể làm cho tương lai đó trở nên khả thi.












