Kết nối với chúng tôi

Hiểu rõ sự lộn xộn: Vai trò của LLM trong việc trích xuất dữ liệu phi cấu trúc

Lãnh đạo tư tưởng

Hiểu rõ sự lộn xộn: Vai trò của LLM trong việc trích xuất dữ liệu phi cấu trúc

mm

mới đây tiến bộ về phần cứng chẳng hạn như GPU Nvidia H100, có khả năng tính toán được nâng cao đáng kể. Với chín lần Với tốc độ của Nvidia A100, những GPU này vượt trội trong việc xử lý khối lượng công việc deep learning. Sự tiến bộ này đã thúc đẩy việc sử dụng AI mang tính thương mại trong xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính, cho phép trích xuất dữ liệu tự động và thông minh. Giờ đây, các doanh nghiệp có thể dễ dàng chuyển đổi dữ liệu phi cấu trúc thành những hiểu biết có giá trị, đánh dấu bước nhảy vọt đáng kể trong tích hợp công nghệ. 

Phương pháp trích xuất dữ liệu truyền thống 

Nhập dữ liệu thủ công 

Điều đáng ngạc nhiên là nhiều công ty vẫn dựa vào việc nhập dữ liệu thủ công, bất chấp sự sẵn có của các công nghệ tiên tiến hơn. Phương pháp này liên quan đến việc nhập thông tin bằng tay trực tiếp vào hệ thống đích. Nó thường dễ áp ​​dụng hơn do chi phí ban đầu thấp hơn. Tuy nhiên, việc nhập dữ liệu thủ công không chỉ tẻ nhạt, tốn thời gian mà còn rất dễ xảy ra sai sót. Ngoài ra, nó còn gây ra rủi ro bảo mật khi xử lý dữ liệu nhạy cảm, khiến nó trở thành một lựa chọn ít được ưa chuộng hơn trong thời đại tự động hóa và bảo mật kỹ thuật số. 

Nhận dạng ký tự quang học (OCR)  

Công nghệ OCR, chuyển đổi hình ảnh và nội dung viết tay thành dữ liệu có thể đọc được bằng máy, cung cấp giải pháp trích xuất dữ liệu nhanh hơn và tiết kiệm chi phí hơn. Tuy nhiên, chất lượng có thể không đáng tin cậy. Ví dụ: các ký tự như “S” có thể bị hiểu sai thành “8” và ngược lại.  

Hiệu suất của OCR bị ảnh hưởng đáng kể bởi độ phức tạp và đặc điểm của dữ liệu đầu vào; nó hoạt động tốt với các hình ảnh được quét có độ phân giải cao mà không gặp các vấn đề như nghiêng hướng, hình mờ hoặc ghi đè. Tuy nhiên, nó gặp phải những thách thức với văn bản viết tay, đặc biệt khi hình ảnh phức tạp hoặc khó xử lý. Việc điều chỉnh có thể cần thiết để cải thiện kết quả khi xử lý văn bản đầu vào. Các công cụ trích xuất dữ liệu trên thị trường với OCR làm công nghệ cơ bản thường đặt nhiều lớp xử lý hậu kỳ để cải thiện độ chính xác của dữ liệu được trích xuất. Nhưng những giải pháp này không thể đảm bảo kết quả chính xác 100%.  

So khớp mẫu văn bản 

So khớp mẫu văn bản là phương pháp xác định và trích xuất thông tin cụ thể từ văn bản bằng cách sử dụng các quy tắc hoặc mẫu được xác định trước. Nó nhanh hơn và mang lại ROI cao hơn các phương pháp khác. Nó có hiệu quả ở mọi mức độ phức tạp và đạt độ chính xác 100% cho các tệp có bố cục tương tự.  

Tuy nhiên, độ cứng của nó trong việc so khớp từng từ có thể hạn chế khả năng thích ứng, đòi hỏi phải khớp chính xác 100% để trích xuất thành công. Những thách thức với từ đồng nghĩa có thể dẫn đến khó khăn trong việc xác định các thuật ngữ tương đương, chẳng hạn như phân biệt “thời tiết” với “khí hậu”. Ngoài ra, So khớp mẫu văn bản thể hiện sự nhạy cảm theo ngữ cảnh, thiếu nhận thức về nhiều ý nghĩa trong các ngữ cảnh khác nhau. Đạt được sự cân bằng hợp lý giữa độ cứng và khả năng thích ứng vẫn là một thách thức không ngừng trong việc sử dụng phương pháp này một cách hiệu quả. 

Nhận dạng thực thể được đặt tên (NER)  

Nhận dạng thực thể được đặt tên (NER), một kỹ thuật NLP, xác định và phân loại thông tin chính trong văn bản. 

Việc trích xuất của NER được giới hạn ở các thực thể được xác định trước như tên tổ chức, địa điểm, tên cá nhân và ngày tháng. Nói cách khác, các hệ thống NER hiện thiếu khả năng vốn có để trích xuất các thực thể tùy chỉnh ngoài tập hợp được xác định trước này, có thể dành riêng cho một miền hoặc trường hợp sử dụng cụ thể. Thứ hai, việc NER tập trung vào các giá trị chính liên quan đến các thực thể được công nhận không mở rộng sang việc trích xuất dữ liệu từ các bảng, hạn chế khả năng áp dụng của nó đối với các kiểu dữ liệu có cấu trúc hoặc phức tạp hơn. 

 Khi các tổ chức phải đối phó với lượng dữ liệu phi cấu trúc ngày càng tăng, những thách thức này nêu bật sự cần thiết phải có một cách tiếp cận toàn diện và có thể mở rộng đối với các phương pháp trích xuất. 

Mở khóa dữ liệu phi cấu trúc bằng LLM 

Tận dụng các mô hình ngôn ngữ lớn (LLM) để trích xuất dữ liệu phi cấu trúc là một giải pháp hấp dẫn với những ưu điểm khác biệt giúp giải quyết những thách thức quan trọng. 

Khai thác dữ liệu theo ngữ cảnh 

LLM sở hữu sự hiểu biết sâu sắc về ngữ cảnh, được mài giũa thông qua đào tạo chuyên sâu về các bộ dữ liệu lớn. Khả năng vượt ra ngoài bề mặt và hiểu được những bối cảnh phức tạp khiến chúng trở nên có giá trị trong việc xử lý các nhiệm vụ trích xuất thông tin đa dạng. Ví dụ: khi được giao nhiệm vụ trích xuất các giá trị thời tiết, họ nắm bắt thông tin dự định và xem xét các yếu tố liên quan như giá trị khí hậu, kết hợp liền mạch các từ đồng nghĩa và ngữ nghĩa. Mức độ hiểu nâng cao này thiết lập LLM như một lựa chọn năng động và thích ứng trong lĩnh vực trích xuất dữ liệu.  

Khai thác khả năng xử lý song song 

LLM sử dụng xử lý song song, giúp thực hiện các tác vụ nhanh hơn và hiệu quả hơn. Không giống như các mô hình tuần tự, LLM tối ưu hóa việc phân phối tài nguyên, dẫn đến các tác vụ trích xuất dữ liệu được tăng tốc. Điều này giúp tăng cường tốc độ và góp phần vào hiệu suất tổng thể của quá trình trích xuất.  

Thích ứng với các loại dữ liệu đa dạng 

Trong khi một số mô hình như Mạng thần kinh tái phát (RNN) bị giới hạn ở các chuỗi cụ thể, LLM xử lý dữ liệu không theo trình tự cụ thể, dễ dàng hỗ trợ các cấu trúc câu khác nhau. Tính linh hoạt này bao gồm các dạng dữ liệu đa dạng như bảng và hình ảnh. 

Tăng cường quy trình xử lý 

Việc sử dụng LLM đánh dấu một sự thay đổi đáng kể trong việc tự động hóa cả giai đoạn tiền xử lý và hậu xử lý. LLM giảm nhu cầu nỗ lực thủ công bằng cách tự động hóa các quy trình trích xuất một cách chính xác, hợp lý hóa việc xử lý dữ liệu phi cấu trúc. Việc đào tạo chuyên sâu về các bộ dữ liệu đa dạng cho phép họ xác định các mô hình và mối tương quan bị bỏ sót bởi các phương pháp truyền thống. 

Hình vẽ về quy trình AI tổng quát này minh họa khả năng ứng dụng của các mô hình như BERT, GPT và OPT trong trích xuất dữ liệu. Các LLM này có thể thực hiện nhiều hoạt động NLP khác nhau, bao gồm cả trích xuất dữ liệu. Thông thường, mô hình AI tổng quát cung cấp lời nhắc mô tả dữ liệu mong muốn và phản hồi tiếp theo chứa dữ liệu được trích xuất. Ví dụ: lời nhắc như “Trích xuất tên của tất cả các nhà cung cấp từ đơn đặt hàng này” có thể mang lại phản hồi chứa tất cả tên nhà cung cấp có trong báo cáo bán cấu trúc. Sau đó, dữ liệu được trích xuất có thể được phân tích cú pháp và tải vào bảng cơ sở dữ liệu hoặc tệp phẳng, tạo điều kiện tích hợp liền mạch vào quy trình làm việc của tổ chức. 

Các khung AI đang phát triển: RNN thành máy biến áp trong khai thác dữ liệu hiện đại 

AI sáng tạo hoạt động trong khuôn khổ bộ mã hóa-giải mã bao gồm hai mạng thần kinh hợp tác. Bộ mã hóa xử lý dữ liệu đầu vào, cô đọng các tính năng thiết yếu thành “Vectơ bối cảnh”. Sau đó, vectơ này được bộ giải mã sử dụng cho các tác vụ tổng hợp, chẳng hạn như dịch ngôn ngữ. Kiến trúc này, tận dụng các mạng thần kinh như RNN và Transformers, tìm thấy các ứng dụng trong nhiều lĩnh vực khác nhau, bao gồm dịch máy, tạo hình ảnh, tổng hợp giọng nói và trích xuất thực thể dữ liệu. Các mạng này vượt trội trong việc mô hình hóa các mối quan hệ phức tạp và sự phụ thuộc trong chuỗi dữ liệu. 

Mạng thần kinh tái diễn 

Mạng thần kinh tái diễn (RNN) đã được thiết kế để giải quyết các nhiệm vụ theo trình tự như dịch thuật và tóm tắt, hoạt động xuất sắc trong một số bối cảnh nhất định. Tuy nhiên, họ gặp khó khăn về độ chính xác trong các nhiệm vụ liên quan đến sự phụ thuộc tầm xa.  

 RNN vượt trội trong việc trích xuất các cặp khóa-giá trị từ các câu, nhưng lại gặp khó khăn với các cấu trúc giống như bảng. Để giải quyết vấn đề này đòi hỏi phải xem xét cẩn thận trình tự và vị trí sắp xếp, đòi hỏi các phương pháp tiếp cận chuyên biệt để tối ưu hóa việc trích xuất dữ liệu từ các bảng. Tuy nhiên, việc nhận con nuôi của họ đã hạn chế do ROI thấp và hiệu suất dưới mức trung bình trên hầu hết các tác vụ xử lý văn bản, ngay cả sau khi được đào tạo về khối lượng dữ liệu lớn. 

Mạng bộ nhớ ngắn hạn dài 

Bộ nhớ ngắn hạn dài Mạng (LSTM) nổi lên như một giải pháp giải quyết các hạn chế của RNN, đặc biệt thông qua cơ chế cập nhật và quên có chọn lọc. Giống như RNN, LSTM vượt trội trong việc trích xuất các cặp khóa-giá trị từ các câu. Tuy nhiên, chúng phải đối mặt với những thách thức tương tự với cấu trúc giống như bảng, đòi hỏi phải xem xét chiến lược về trình tự và các yếu tố vị trí.  

 GPU lần đầu tiên được sử dụng cho deep learning vào 2012 để phát triển mô hình AlexNet CNN nổi tiếng. Sau đó, một số RNN cũng được đào tạo bằng GPU, mặc dù chúng không mang lại kết quả tốt. Ngày nay, bất chấp sự sẵn có của GPU, những mẫu này phần lớn không còn được sử dụng và được thay thế bằng LLM dựa trên máy biến áp. 

Transformer – Cơ chế chú ý 

Sự ra đời của máy biến áp, nổi bật trong bài báo mang tính đột phá “Chú ý là tất cả những gì bạn cần” (2017), đã cách mạng hóa NLP bằng cách đề xuất kiến ​​trúc 'máy biến áp'. Kiến trúc này cho phép tính toán song song và nắm bắt thành thạo các phần phụ thuộc tầm xa, mở ra các khả năng mới cho các mô hình ngôn ngữ. Các LLM như GPT, BERT và OPT đã khai thác công nghệ máy biến áp. Trọng tâm của máy biến áp là cơ chế “chú ý”, yếu tố chính góp phần nâng cao hiệu suất trong quá trình xử lý dữ liệu theo trình tự. 

Cơ chế “chú ý” trong máy biến áp tính toán tổng các giá trị có trọng số dựa trên khả năng tương thích giữa 'truy vấn' (dấu nhắc câu hỏi) và 'khóa' (mô hình hiểu từng từ). Cách tiếp cận này cho phép tập trung sự chú ý trong quá trình tạo chuỗi, đảm bảo trích xuất chính xác. Hai thành phần quan trọng trong cơ chế chú ý là Tự chú ý, nắm bắt tầm quan trọng giữa các từ trong chuỗi đầu vào và Chú ý nhiều đầu, cho phép các kiểu chú ý đa dạng cho các mối quan hệ cụ thể.  

Trong bối cảnh Trích xuất hóa đơn, Tự chú ý nhận ra mức độ liên quan của ngày được đề cập trước đó khi trích xuất số tiền thanh toán, trong khi Chú ý nhiều đầu tập trung độc lập vào các giá trị số (số tiền) và mẫu văn bản (tên nhà cung cấp). Không giống như RNN, máy biến áp vốn không hiểu thứ tự của các từ. Để giải quyết vấn đề này, họ sử dụng mã hóa vị trí để theo dõi vị trí của từng từ trong một chuỗi. Kỹ thuật này được áp dụng cho cả phần nhúng đầu vào và đầu ra, hỗ trợ xác định khóa và giá trị tương ứng của chúng trong tài liệu.  

Sự kết hợp giữa cơ chế chú ý và mã hóa vị trí là rất quan trọng đối với khả năng của mô hình ngôn ngữ lớn trong việc nhận dạng cấu trúc dưới dạng bảng, xem xét nội dung, khoảng cách và dấu văn bản của nó. Kỹ năng này làm cho nó khác biệt với các kỹ thuật trích xuất dữ liệu phi cấu trúc khác.

Xu hướng và sự phát triển hiện tại 

Không gian AI mở ra những xu hướng và sự phát triển đầy hứa hẹn, định hình lại cách chúng ta trích xuất thông tin từ dữ liệu phi cấu trúc. Hãy cùng đi sâu vào các khía cạnh quan trọng định hình tương lai của lĩnh vực này. 

Những tiến bộ trong mô hình ngôn ngữ lớn (LLM) 

AI sáng tạo đang chứng kiến ​​một giai đoạn biến đổi, trong đó LLM chiếm vị trí trung tâm trong việc xử lý các bộ dữ liệu phức tạp và đa dạng để trích xuất dữ liệu phi cấu trúc. Hai chiến lược đáng chú ý đang thúc đẩy những tiến bộ này: 

  1. Học tập đa phương thức: LLM đang mở rộng khả năng của mình bằng cách xử lý đồng thời nhiều loại dữ liệu khác nhau, bao gồm văn bản, hình ảnh và âm thanh. Sự phát triển này nâng cao khả năng trích xuất thông tin có giá trị từ nhiều nguồn khác nhau, tăng tiện ích của chúng trong việc trích xuất dữ liệu phi cấu trúc. Các nhà nghiên cứu đang khám phá những cách hiệu quả để sử dụng các mô hình này, nhằm mục đích loại bỏ nhu cầu về GPU và cho phép vận hành các mô hình lớn với nguồn lực hạn chế.
  1. Ứng dụng RAG: Truy xuất thế hệ tăng cường (RAG) là một xu hướng mới nổi kết hợp các mô hình ngôn ngữ được đào tạo trước lớn với các cơ chế tìm kiếm bên ngoài để nâng cao khả năng của chúng. Bằng cách truy cập vào kho tài liệu khổng lồ trong quá trình tạo, RAG chuyển đổi các mô hình ngôn ngữ cơ bản thành các công cụ động được thiết kế riêng cho cả ứng dụng doanh nghiệp và người tiêu dùng.

Đánh giá hiệu suất LLM 

Thách thức trong việc đánh giá hiệu suất của LLM được giải quyết bằng cách tiếp cận chiến lược, kết hợp các số liệu cụ thể về nhiệm vụ và phương pháp đánh giá sáng tạo. Những phát triển chính trong không gian này bao gồm: 

  1. Các số liệu được tinh chỉnh: Các số liệu đánh giá phù hợp đang xuất hiện để đánh giá chất lượng của các nhiệm vụ trích xuất thông tin. Độ chính xác, thu hồi và điểm F1 các số liệu đang tỏ ra hiệu quả, đặc biệt trong các nhiệm vụ như trích xuất thực thể.
  1. Đánh giá con người: Đánh giá con người vẫn là yếu tố then chốt bên cạnh các số liệu tự động, đảm bảo đánh giá toàn diện LLM. Tích hợp các số liệu tự động với phán đoán của con người, các phương pháp đánh giá kết hợp mang lại cái nhìn sắc thái về tính chính xác và phù hợp theo ngữ cảnh của thông tin được trích xuất.

Xử lý hình ảnh và tài liệu  

LLM đa phương thức đã thay thế hoàn toàn OCR. Người dùng có thể chuyển đổi văn bản được quét từ hình ảnh và tài liệu thành văn bản có thể đọc được bằng máy, với khả năng xác định và trích xuất thông tin trực tiếp từ nội dung trực quan bằng cách sử dụng các mô-đun dựa trên thị giác. 

Khai thác dữ liệu từ các liên kết và trang web 

LLM đang phát triển để đáp ứng nhu cầu trích xuất dữ liệu ngày càng tăng từ các trang web và liên kết web. Các mô hình này ngày càng thành thạo trong việc quét web, chuyển đổi dữ liệu từ các trang web thành các định dạng có cấu trúc. Xu hướng này rất có giá trị đối với các nhiệm vụ như tổng hợp tin tức, thu thập dữ liệu thương mại điện tử và thông tin cạnh tranh, nâng cao hiểu biết theo ngữ cảnh và trích xuất dữ liệu quan hệ từ web. 

Sự trỗi dậy của những người khổng lồ nhỏ trong lĩnh vực AI sáng tạo 

Nửa đầu năm 2023 chứng kiến ​​sự tập trung phát triển các mô hình ngôn ngữ khổng lồ dựa trên giả định “càng lớn càng tốt”. Tuy nhiên, kết quả gần đây cho thấy các mô hình nhỏ hơn như TinyLlama và Dolly-v2-3B có ít hơn 3 tỷ thông số, xuất sắc trong các nhiệm vụ như lý luận và tóm tắt, khiến họ được mệnh danh là “người khổng lồ nhỏ”. Những mô hình này sử dụng ít năng lượng tính toán và bộ nhớ hơn, giúp AI dễ tiếp cận hơn với các công ty nhỏ hơn mà không cần GPU đắt tiền. 

Kết luận  

Các mô hình AI thế hệ sớm, bao gồm mạng đối nghịch tổng quát (GAN) và bộ mã hóa tự động biến thiên (VAE), đã giới thiệu các phương pháp mới để quản lý dữ liệu dựa trên hình ảnh. Tuy nhiên, bước đột phá thực sự đến với các mô hình ngôn ngữ lớn dựa trên máy biến áp. Các mô hình này đã vượt qua tất cả các kỹ thuật xử lý dữ liệu phi cấu trúc trước đây nhờ cấu trúc bộ mã hóa-giải mã, cơ chế tự chú ý và chú ý nhiều đầu, giúp chúng hiểu sâu sắc về ngôn ngữ và cho phép khả năng suy luận giống con người. 

 Mặc dù AI tổng quát mang đến một khởi đầu đầy hứa hẹn cho việc khai thác dữ liệu văn bản từ các báo cáo, nhưng khả năng mở rộng của các phương pháp tiếp cận như vậy còn hạn chế. Các bước ban đầu thường liên quan đến quá trình xử lý OCR, điều này có thể dẫn đến sai sót và vẫn tồn tại những thách thức trong việc trích xuất văn bản từ hình ảnh trong báo cáo.  

 Trong khi đó, việc trích xuất văn bản bên trong hình ảnh trong báo cáo lại là một thách thức khác. Áp dụng các giải pháp như xử lý dữ liệu đa phương thức và tiện ích mở rộng giới hạn mã thông báo trong GPT-4, Claud3, Gemini mang đến một con đường đầy hứa hẹn phía trước. Tuy nhiên, điều quan trọng cần lưu ý là các mô hình này chỉ có thể truy cập được thông qua API. Mặc dù việc sử dụng API để trích xuất dữ liệu từ tài liệu vừa hiệu quả vừa tiết kiệm chi phí nhưng nó cũng có một số hạn chế riêng như độ trễ, khả năng kiểm soát hạn chế và rủi ro bảo mật.  

 Một giải pháp an toàn và có thể tùy chỉnh hơn nằm ở việc tinh chỉnh LLM nội bộ. Cách tiếp cận này không chỉ giảm thiểu những lo ngại về quyền riêng tư và bảo mật dữ liệu mà còn tăng cường kiểm soát quá trình trích xuất dữ liệu. Tinh chỉnh LLM để hiểu bố cục tài liệu và nắm bắt ý nghĩa của văn bản dựa trên ngữ cảnh của nó mang lại một phương pháp mạnh mẽ để trích xuất các cặp khóa-giá trị và mục hàng. Tận dụng phương pháp học không cần chụp và ít lần chụp, một mô hình tinh chỉnh có thể thích ứng với các bố cục tài liệu đa dạng, đảm bảo trích xuất dữ liệu phi cấu trúc hiệu quả và chính xác trên nhiều miền khác nhau. 

Jay Mishra, COO tại Astera, nhà cung cấp giải pháp dữ liệu không cần mã hàng đầu, là nhà lãnh đạo phân tích và dữ liệu dày dạn kinh nghiệm với hơn 20 năm kinh nghiệm thúc đẩy các chiến lược mang tính chuyển đổi nhằm trao quyền cho các tổ chức thông qua dữ liệu được hỗ trợ bởi AI giải pháp.