Trí tuệ nhân tạo

RAFT – Một Phương Pháp Fine-Tuning và RAG để Trả Lời Câu Hỏi Riêng Biệt cho từng Lĩnh Vực

Published March 29, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Khi các ứng dụng của mô hình ngôn ngữ lớn mở rộng vào các lĩnh vực chuyên biệt, nhu cầu về các kỹ thuật thích nghi hiệu quả và hiệu quả trở nên quan trọng hơn. Đó là nơi RAFT (Retrieval Augmented Fine Tuning) xuất hiện, một phương pháp mới kết hợp sức mạnh của retrieval-augmented generation (RAG) và fine-tuning, được thiết kế đặc biệt cho các nhiệm vụ trả lời câu hỏi riêng biệt cho từng lĩnh vực.

Thử Thách của Sự Thích Nghi

Mặc dù các mô hình ngôn ngữ lớn (LLM) được đào tạo trước trên lượng dữ liệu khổng lồ, khả năng của chúng trong việc thực hiện tốt trong các lĩnh vực chuyên biệt như nghiên cứu y học, tài liệu pháp lý hoặc cơ sở kiến thức riêng của doanh nghiệp thường bị hạn chế. Hạn chế này xuất phát từ việc dữ liệu đào tạo trước có thể không đại diện đầy đủ cho các sắc thái và phức tạp của các lĩnh vực chuyên biệt này. Để giải quyết thách thức này, các nhà nghiên cứu đã truyền thống sử dụng hai kỹ thuật chính: retrieval-augmented generation (RAG) và fine-tuning.

Retrieval-Augmented Generation (RAG)

RAG

RAG là một kỹ thuật cho phép các mô hình ngôn ngữ lớn (LLM) truy cập và sử dụng các nguồn kiến thức bên ngoài trong quá trình suy luận.

Nó đạt được điều này bằng cách tích hợp việc thu thập dữ liệu thời gian thực vào quá trình tạo, từ đó làm cho đầu ra của mô hình chính xác và cập nhật hơn. RAG bao gồm ba bước chính: thu thập, nơi các tài liệu liên quan được thu thập; tạo, nơi mô hình tạo ra đầu ra dựa trên dữ liệu thu thập; và tăng cường, giúp tinh chỉnh đầu ra thêm nữa.

Quá trình thu thập trong RAG bắt đầu với truy vấn của người dùng. LLM phân tích truy vấn và thu thập thông tin liên quan từ các cơ sở dữ liệu bên ngoài, trình bày một nhóm dữ liệu mà mô hình có thể dựa vào để tạo ra câu trả lời của mình. Giai đoạn tạo tổng hợp đầu vào này thành một câu chuyện hay câu trả lời hợp lý. Bước tăng cường tinh chỉnh việc tạo bằng cách thêm ngữ cảnh hoặc điều chỉnh cho sự nhất quán và liên quan.

Các mô hình RAG có thể được đánh giá bằng nhiều chỉ số, đánh giá khả năng cung cấp thông tin chính xác, liên quan và cập nhật.

Fine-Tuning

supervised-fine-tuning

Fine-tuning, mặt khác, liên quan đến việc thích nghi một mô hình ngôn ngữ lớn đã được đào tạo trước cho một nhiệm vụ hoặc lĩnh vực cụ thể bằng cách đào tạo thêm nó trên một tập dữ liệu nhỏ hơn, cụ thể cho nhiệm vụ hoặc lĩnh vực đó. Phương pháp này cho phép mô hình học các mẫu và căn chỉnh đầu ra của nó với nhiệm vụ hoặc lĩnh vực mong muốn. Mặc dù fine-tuning có thể cải thiện hiệu suất của mô hình, nhưng nó thường không thể kết hợp hiệu quả các nguồn kiến thức bên ngoài hoặc tính đến các sai sót thu thập trong quá trình suy luận.

Phương Pháp RAFT

RAFT

RAFT viết tắt của Retrieval-Aware Fine-Tuning, là một phương pháp đào tạo sáng tạo dành cho các mô hình ngôn ngữ để tăng cường hiệu suất của chúng trong các nhiệm vụ riêng biệt cho từng lĩnh vực, đặc biệt là cho các kỳ thi mở. RAFT khác với fine-tuning tiêu chuẩn bằng cách chuẩn bị dữ liệu đào tạo bao gồm các câu hỏi với sự kết hợp của các tài liệu liên quan và không liên quan, cùng với các câu trả lời theo phong cách suy nghĩ được dẫn xuất từ các văn bản liên quan. Phương pháp này nhằm cải thiện khả năng của mô hình không chỉ nhớ thông tin mà còn suy luận và dẫn xuất câu trả lời từ nội dung được cung cấp.

Về bản chất, RAFT tinh chỉnh các mô hình ngôn ngữ để trở nên thành thạo hơn trong các nhiệm vụ liên quan đến đọc hiểu và trích xuất kiến thức từ một tập tài liệu. Bằng cách đào tạo với cả “tài liệu oracle” (chứa câu trả lời) và “tài liệu gây nhiễu” (không chứa câu trả lời), mô hình học cách phân biệt và sử dụng thông tin liên quan một cách hiệu quả hơn.

Chuẩn Bị Dữ Liệu Đào Tạo

Quá trình đào tạo dưới RAFT liên quan đến một tỷ lệ dữ liệu chứa các tài liệu oracle liên quan trực tiếp đến các câu trả lời, trong khi phần còn lại của dữ liệu chỉ bao gồm các tài liệu gây nhiễu. Fine-tuning khuyến khích mô hình học khi nào nên dựa vào kiến thức nội bộ (tương tự như ghi nhớ) và khi nào nên trích xuất thông tin từ ngữ cảnh được cung cấp.

Chương trình đào tạo của RAFT cũng nhấn mạnh việc tạo ra các quá trình suy nghĩ, không chỉ giúp hình thành câu trả lời mà còn trích dẫn nguồn, tương tự như cách một người sẽ chứng minh câu trả lời của mình bằng cách tham khảo tài liệu họ đã đọc. Phương pháp này không chỉ chuẩn bị mô hình cho một môi trường RAG (Retrieval Augmented Generation) mà mô hình phải xem xét các tài liệu hàng đầu được thu thập, mà còn đảm bảo quá trình đào tạo của mô hình độc lập với mô-đun thu thập được sử dụng, cho phép ứng dụng linh hoạt trên các hệ thống thu thập khác nhau.

Phương pháp này phục vụ nhiều mục đích:

Nó đào tạo mô hình để xác định và sử dụng thông tin liên quan từ ngữ cảnh được cung cấp, mô phỏng môi trường thi mở.
Nó tăng cường khả năng của mô hình trong việc bỏ qua thông tin không liên quan, một kỹ năng quan trọng cho RAG hiệu quả.
Nó tiếp xúc mô hình với các tình huống mà câu trả lời không có trong ngữ cảnh, khuyến khích mô hình dựa vào kiến thức của mình khi cần thiết.

Một khía cạnh quan trọng khác của RAFT là việc tích hợp suy nghĩ theo chuỗi vào quá trình đào tạo. Thay vì chỉ cung cấp câu hỏi và câu trả lời, RAFT tạo ra các giải thích suy nghĩ chi tiết bao gồm trích dẫn từ các tài liệu liên quan. Những giải thích này, được trình bày theo định dạng suy nghĩ theo chuỗi, hướng dẫn mô hình qua các bước logic cần thiết để đến câu trả lời chính xác.

Bằng cách đào tạo mô hình trên các chuỗi suy nghĩ này, RAFT khuyến khích sự phát triển của khả năng suy nghĩ mạnh mẽ và tăng cường sự hiểu biết của mô hình về cách tận dụng hiệu quả các nguồn kiến thức bên ngoài.

Đánh Giá và Kết Quả

Các tác giả của bài báo RAFT đã thực hiện các đánh giá rộng rãi trên nhiều tập dữ liệu, bao gồm PubMed (nghiên cứu y sinh), HotpotQA (trả lời câu hỏi mở) và Gorilla APIBench (tạo mã). Kết quả của họ cho thấy RAFT liên tục vượt trội so với các phương pháp cơ bản, chẳng hạn như tinh chỉnh lĩnh vực cụ thể với và không có RAG, cũng như các mô hình lớn hơn như GPT-3.5 với RAG.

RAFT cải thiện hiệu suất RAG

Ví dụ, trên tập dữ liệu HuggingFace, RAFT đạt được độ chính xác 74%, một sự cải thiện đáng kể 31,41% so với tinh chỉnh lĩnh vực cụ thể (DSF) và 44,92% so với GPT-3.5 với RAG. Tương tự, trên tập dữ liệu HotpotQA, RAFT thể hiện sự tăng 28,9% về độ chính xác so với DSF.

Một trong những ưu điểm chính của RAFT là khả năng chống lại các sai sót thu thập. Bằng cách đào tạo mô hình với sự kết hợp của các tài liệu liên quan và không liên quan, RAFT tăng cường khả năng của mô hình trong việc phân biệt và ưu tiên thông tin liên quan, ngay cả khi mô-đun thu thập trả về kết quả không tối ưu.

Các tác giả đã chứng minh rằng việc tinh chỉnh chỉ với các tài liệu oracle thường dẫn đến hiệu suất kém hơn so với các cấu hình bao gồm các tài liệu gây nhiễu. Phát hiện này nhấn mạnh tầm quan trọng của việc tiếp xúc mô hình với các tình huống thu thập khác nhau trong quá trình đào tạo, đảm bảo sự chuẩn bị của mô hình cho các ứng dụng thực tế.

Ứng Dụng Thực Tiễn và Hướng Tiếp Cận Tương Lai

Kỹ thuật RAFT có ý nghĩa quan trọng đối với nhiều ứng dụng thực tiễn, bao gồm:

Hệ Thống Trả Lời Câu Hỏi: RAFT có thể được sử dụng để xây dựng các hệ thống trả lời câu hỏi chính xác và riêng biệt cho từng lĩnh vực, tận dụng cả kiến thức đã học của mô hình và các nguồn kiến thức bên ngoài.
Quản Lý Kiến Thức Doanh Nghiệp: Các tổ chức có cơ sở kiến thức lớn có thể tận dụng RAFT để phát triển các hệ thống trả lời câu hỏi tùy chỉnh, cho phép nhân viên nhanh chóng truy cập và sử dụng thông tin liên quan.
Nghiên Cứu Y Học và Khoa Học: RAFT có thể đặc biệt có giá trị trong các lĩnh vực như nghiên cứu y sinh, nơi truy cập vào các phát hiện và tài liệu mới nhất là điều cần thiết để thúc đẩy sự hiểu biết khoa học.
Dịch Vụ Pháp Lý và Tài Chính: RAFT có thể hỗ trợ các chuyên gia trong这些 lĩnh vực bằng cách cung cấp câu trả lời chính xác và nhận thức được ngữ cảnh dựa trên các tài liệu pháp lý hoặc báo cáo tài chính liên quan.

Khi nghiên cứu trong lĩnh vực này tiếp tục, chúng ta có thể mong đợi những tiến bộ và tinh chỉnh thêm cho kỹ thuật RAFT. Các hướng tiếp cận tương lai tiềm năng bao gồm:

Khám Phá các Mô-đun Thu Thập Hiệu Quả và Hiệu Suất Hơn, được thiết kế cho các lĩnh vực hoặc cấu trúc tài liệu cụ thể.
Tích Hợp Thông Tin Đa Phương Tiện, chẳng hạn như hình ảnh hoặc bảng, vào khuôn khổ RAFT để tăng cường sự hiểu biết ngữ cảnh.
Phát Triển các Kiến Trúc Suy Nghĩ Chuyên Biệt có thể tận dụng tốt hơn các giải thích suy nghĩ theo chuỗi được tạo ra trong quá trình đào tạo.
Chuyển Đổi RAFT sang các Nhiệm Vụ Ngôn Ngữ Tự Nhiên khác ngoài trả lời câu hỏi, chẳng hạn như tóm tắt, dịch hoặc hệ thống đối thoại.

Kết Luận

RAFT đại diện cho một bước nhảy vĩ đại trong lĩnh vực trả lời câu hỏi riêng biệt cho từng lĩnh vực với các mô hình ngôn ngữ. Bằng cách kết hợp hài hòa sức mạnh của retrieval-augmented generation và fine-tuning, RAFT trang bị cho các mô hình ngôn ngữ lớn khả năng tận dụng hiệu quả các nguồn kiến thức bên ngoài đồng thời căn chỉnh đầu ra của chúng với các mẫu và sở thích riêng biệt cho từng lĩnh vực.

Thông qua việc chuẩn bị dữ liệu đào tạo sáng tạo, tích hợp suy nghĩ theo chuỗi và khả năng chống lại các sai sót thu thập, RAFT cung cấp một giải pháp mạnh mẽ cho các tổ chức và nhà nghiên cứu đang tìm cách mở khóa toàn bộ tiềm năng của các mô hình ngôn ngữ lớn trong các lĩnh vực chuyên biệt.

Khi nhu cầu về khả năng xử lý ngôn ngữ tự nhiên riêng biệt cho từng lĩnh vực tiếp tục tăng, các kỹ thuật như RAFT sẽ đóng vai trò quan trọng trong việc cho phép các mô hình ngôn ngữ trở nên chính xác, nhận thức được ngữ cảnh và thích ứng hơn, mở đường cho một tương lai nơi giao tiếp giữa con người và máy trở nên thật sự liền mạch và không phụ thuộc vào lĩnh vực.

Aayush Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.