Kỹ thuật prompt

Xử lý ảo giác trong các mô hình ngôn ngữ lớn: Khảo sát các kỹ thuật tiên tiến

mm

Các mô hình ngôn ngữ lớn (LLM) như GPT-4, PaLM và Llama đã mở ra những tiến bộ đáng kể trong khả năng tạo ngôn ngữ tự nhiên. Tuy nhiên, một thách thức dai dẳng hạn chế độ tin cậy và triển khai an toàn của chúng là xu hướng tạo ra ảo giác – tạo ra nội dung có vẻ hợp lý nhưng không chính xác về mặt事 thực hoặc không có căn cứ từ ngữ cảnh đầu vào.

Khi các LLM tiếp tục phát triển mạnh và được sử dụng rộng rãi trong các ứng dụng thực tế, việc giải quyết ảo giác trở nên cấp thiết. Bài viết này cung cấp một cái nhìn tổng quan toàn diện về các kỹ thuật mới nhất mà các nhà nghiên cứu đã giới thiệu để phát hiện, định lượng và giảm thiểu ảo giác trong các LLM.

Hiểu về ảo giác trong LLM

Ảo giác đề cập đến sự không chính xác về mặt事 thực hoặc tạo ra nội dung không có căn cứ trong thực tế hoặc ngữ cảnh cung cấp. Một số ví dụ bao gồm:

  • Tạo ra chi tiết tiểu sử hoặc sự kiện không có bằng chứng trong tài liệu nguồn khi tạo văn bản về một người.
  • Cung cấp lời khuyên y tế sai lầm bằng cách tạo ra tác dụng phụ của thuốc hoặc thủ tục điều trị.
  • Tạo ra dữ liệu, nghiên cứu hoặc nguồn không tồn tại để hỗ trợ một tuyên bố.

Hiện tượng này xảy ra vì các LLM được đào tạo trên lượng lớn dữ liệu văn bản trực tuyến. Mặc dù điều này cho phép chúng đạt được khả năng tạo ngôn ngữ mạnh, nhưng cũng có nghĩa là chúng học cách suy diễn thông tin, tạo ra các bước logic và lấp đầy khoảng trống một cách có vẻ thuyết phục nhưng có thể gây hiểu lầm hoặc sai lầm.

Một số yếu tố chính gây ra ảo giác bao gồm:

  • Tổng quát hóa mẫu – Các LLM xác định và mở rộng mẫu trong dữ liệu đào tạo mà có thể không tổng quát hóa tốt.
  • Tri thức cũ – Đào tạo trước tĩnh ngăn cản việc tích hợp thông tin mới.
  • Độ không rõ ràng – Các lời nhắc không rõ ràng cho phép có nhiều giả định sai.
  • Th偏见 – Các mô hình duy trì và khuếch đại quan điểm thiên vị.
  • Thiếu căn cứ – Thiếu hiểu biết và lý luận có nghĩa là các mô hình tạo ra nội dung mà chúng không hiểu đầy đủ.

Giải quyết ảo giác là điều quan trọng để triển khai đáng tin cậy trong các lĩnh vực nhạy cảm như y tế, luật, tài chính và giáo dục, nơi tạo ra thông tin sai lệch có thể gây hại.

Phân loại các kỹ thuật giảm thiểu ảo giác

Các nhà nghiên cứu đã giới thiệu nhiều kỹ thuật đa dạng để chống lại ảo giác trong các LLM, có thể được phân loại thành:

1. Kỹ thuật lời nhắc

Điều này liên quan đến việc tạo ra các lời nhắc cẩn thận để cung cấp ngữ cảnh và hướng dẫn LLM tới các phản hồi có căn cứ.

  • Tăng cường truy xuất – Truy xuất bằng chứng bên ngoài để căn cứ nội dung.
  • Vòng phản hồi – Cung cấp phản hồi lặp lại để tinh chỉnh phản hồi.
  • Tuning lời nhắc – Điều chỉnh lời nhắc trong quá trình tinh chỉnh để đạt được hành vi mong muốn.

2. Phát triển mô hình

Tạo ra các mô hình vốn ít có khả năng tạo ra ảo giác thông qua các thay đổi về kiến trúc.

  • Chiến lược giải mã – Tạo văn bản theo cách tăng cường sự trung thực.
  • Căn cứ tri thức – Tích hợp các cơ sở tri thức bên ngoài.
  • Các hàm mất mới – Tối ưu hóa sự trung thực trong quá trình đào tạo.
  • Tinh chỉnh có giám sát – Sử dụng dữ liệu được gắn nhãn bởi con người để tăng cường tính thực tế.

Tiếp theo, chúng tôi khảo sát các kỹ thuật nổi bật dưới mỗi phương pháp.

Các kỹ thuật giảm thiểu ảo giác đáng chú ý

Sinh tạo tăng cường truy xuất

Sinh tạo tăng cường truy xuất cải tiến LLM bằng cách truy xuất và điều kiện tạo văn bản trên các tài liệu bằng chứng bên ngoài, thay vì chỉ dựa vào kiến thức ngầm của mô hình. Điều này căn cứ nội dung trong thông tin có thể xác minh và cập nhật, giảm ảo giác.

Các kỹ thuật nổi bật bao gồm:

  • RAG – Sử dụng một mô-đun truy xuất cung cấp các đoạn văn liên quan cho một mô hình seq2seq để tạo ra. Cả hai thành phần được đào tạo cùng nhau.
  • RARR – Sử dụng LLM để nghiên cứu các tuyên bố không được chứng thực trong văn bản tạo ra và sửa đổi chúng để phù hợp với bằng chứng truy xuất.
  • Truy xuất tri thức – Xác thực các tạo ra không chắc chắn bằng cách sử dụng tri thức truy xuất trước khi tạo ra văn bản.
  • LLM-Augmenter – Tìm kiếm lặp lại tri thức để xây dựng chuỗi bằng chứng cho các lời nhắc LLM.

Phản hồi và lý luận

Sử dụng phản hồi ngôn ngữ tự nhiên lặp lại hoặc tự lý luận cho phép LLM tinh chỉnh và cải thiện các phản hồi ban đầu của chúng, giảm ảo giác.

CoVe sử dụng một kỹ thuật xác thực chuỗi. LLM đầu tiên tạo ra một phản hồi cho truy vấn của người dùng. Sau đó, nó tạo ra các câu hỏi xác thực tiềm năng để kiểm tra lại phản hồi của chính nó, dựa trên sự tự tin trong các tuyên bố khác nhau được thực hiện. Ví dụ, đối với một phản hồi mô tả một phương pháp điều trị y tế mới, CoVe có thể tạo ra các câu hỏi như “Tỷ lệ hiệu quả của phương pháp điều trị là gì?”, “Nó đã được chấp thuận bởi cơ quan quản lý chưa?”, “Những tác dụng phụ tiềm năng là gì?”. Điều quan trọng là hệ thống sau đó cố gắng trả lời độc lập các câu hỏi xác thực này mà không bị ảnh hưởng bởi phản hồi ban đầu. Nếu các câu trả lời cho các câu hỏi xác thực mâu thuẫn hoặc không thể hỗ trợ các tuyên bố trong phản hồi ban đầu, hệ thống xác định những tuyên bố đó là ảo giác có khả năng và tinh chỉnh phản hồi trước khi trình bày nó cho người dùng.

DRESS tập trung vào việc điều chỉnh LLM để phù hợp hơn với sở thích của con người thông qua phản hồi ngôn ngữ tự nhiên. Phương pháp này cho phép người dùng không chuyên cung cấp các phản hồi tự do về các tạo ra của mô hình, chẳng hạn như “Các tác dụng phụ được đề cập dường như bị phóng đại” hoặc hướng dẫn tinh chỉnh như “Vui lòng thảo luận về hiệu quả chi phí”. DRESS sử dụng học tăng cường để đào tạo mô hình tạo ra phản hồi có điều kiện trên các phản hồi đó, tăng cường khả năng tương tác đồng thời giảm các tuyên bố không thực tế hoặc không được hỗ trợ.

MixAlign giải quyết các tình huống mà người dùng đặt câu hỏi không tương ứng trực tiếp với các đoạn văn bằng chứng được hệ thống truy xuất. Ví dụ, người dùng có thể hỏi “Ô nhiễm sẽ trở nên tồi tệ hơn ở Trung Quốc?” trong khi các đoạn văn được truy xuất thảo luận về xu hướng ô nhiễm trên toàn cầu. Để tránh tạo ra ảo giác với ngữ cảnh không đủ, MixAlign rõ ràng hỏi người dùng khi không chắc chắn về cách liên hệ câu hỏi của họ với thông tin được truy xuất. Cơ chế này cho phép nhận được phản hồi để căn cứ và ngữ cảnh hóa bằng chứng đúng cách, ngăn chặn các phản hồi không có căn cứ.

Kỹ thuật Tự phản ánh đào tạo LLM để đánh giá, cung cấp phản hồi về và tinh chỉnh lặp lại các phản hồi của chính chúng bằng cách sử dụng một phương pháp đa nhiệm. Ví dụ, đối với một phản hồi được tạo ra cho một truy vấn y tế, mô hình học cách chấm điểm độ chính xác về mặt事 thực, xác định bất kỳ tuyên bố mâu thuẫn hoặc không được hỗ trợ nào và chỉnh sửa chúng bằng cách truy xuất tri thức liên quan. Bằng cách dạy LLM một vòng phản hồi của việc kiểm tra, chỉ trích và cải thiện liên tục các phản hồi của chính chúng, phương pháp này giảm ảo giác mù quáng.

Tuning lời nhắc

Tuning lời nhắc cho phép điều chỉnh các lời nhắc hướng dẫn được cung cấp cho LLM trong quá trình tinh chỉnh để đạt được các hành vi mong muốn.

Phương pháp SynTra sử dụng một nhiệm vụ tóm tắt tổng hợp để giảm thiểu ảo giác trước khi chuyển mô hình sang các tập dữ liệu tóm tắt thực. Nhiệm vụ tổng hợp này cung cấp các đoạn văn đầu vào và yêu cầu mô hình tóm tắt chúng thông qua truy xuất mà không có tóm tắt. Điều này đào tạo mô hình để dựa hoàn toàn vào nội dung có căn cứ thay vì tạo ra thông tin mới trong quá trình tóm tắt. SynTra đã được chứng minh là giảm các vấn đề ảo giác khi mô hình tinh chỉnh được triển khai trên các nhiệm vụ mục tiêu.

UPRISE đào tạo một bộ truy xuất lời nhắc phổ quát cung cấp lời nhắc mềm tối ưu cho việc học vài lần trên các nhiệm vụ hạ nguồn chưa từng thấy. Bằng cách truy xuất các lời nhắc hiệu quả được tinh chỉnh trên một tập hợp đa dạng các nhiệm vụ, mô hình học cách tổng quát hóa và thích nghi với các nhiệm vụ mới mà nó thiếu các ví dụ đào tạo. Điều này tăng cường hiệu suất mà không yêu cầu tinh chỉnh nhiệm vụ cụ thể.

Các kiến trúc mô hình mới

FLEEK là một hệ thống tập trung vào hỗ trợ các kiểm tra viên và xác thực viên của con người. Nó tự động xác định các tuyên bố事 thực có thể kiểm tra được trong một văn bản cho trước. FLEEK chuyển đổi các tuyên bố này thành câu hỏi, truy xuất bằng chứng liên quan từ các cơ sở tri thức và cung cấp thông tin ngữ cảnh này cho các xác thực viên của con người để xác thực hiệu quả độ chính xác của tài liệu và nhu cầu sửa đổi.

Phương pháp CAD giảm ảo giác trong tạo ngôn ngữ thông qua giải mã nhận thức ngữ cảnh. Cụ thể, CAD tăng cường sự khác biệt giữa phân phối đầu ra của LLM khi có điều kiện trên một ngữ cảnh so với tạo ra không có điều kiện. Điều này ngăn cản việc mâu thuẫn với bằng chứng ngữ cảnh, hướng mô hình tới các tạo ra có căn cứ.

DoLA giảm thiểu ảo giác事 thực bằng cách đối lập các logit từ các lớp khác nhau của mạng chuyển đổi. Vì kiến thức事 thực có xu hướng được định vị ở một số lớp giữa, việc tăng cường tín hiệu từ các lớp事 thực đó thông qua đối lập logit của DoLA giảm các tạo ra事 thực không chính xác.

Khung khổ THAM giới thiệu một thuật ngữ điều chỉnh trong quá trình đào tạo để giảm thiểu thông tin tương hỗ giữa đầu vào và đầu ra ảo giác. Điều này giúp tăng cường sự phụ thuộc của mô hình vào ngữ cảnh đầu vào đã cho thay vì tưởng tượng không có căn cứ, giảm ảo giác mù quáng.

Căn cứ tri thức

Căn cứ các tạo ra của LLM trong tri thức cấu trúc ngăn chặn sự suy đoán và tạo ra không kiểm soát.

Mô hình RHO xác định các thực thể trong một ngữ cảnh hội thoại và liên kết chúng với một đồ thị tri thức (KG). Các事 thực và quan hệ liên quan về các thực thể này được truy xuất từ KG và hợp nhất vào biểu diễn ngữ cảnh được cung cấp cho LLM. Điều này giúp giảm ảo giác trong hội thoại bằng cách giữ cho các phản hồi gắn với các事 thực có căn cứ về các thực thể hoặc sự kiện được đề cập.

HAR tạo ra các tập dữ liệu đào tạo đối lập chứa ảo giác được mô hình tạo ra để dạy cho mô hình căn cứ nội dung tốt hơn. Đối với một đoạn văn事 thực, mô hình được yêu cầu giới thiệu ảo giác hoặc làm sai lệch tạo ra một phiên bản đối lập. Tinh chỉnh trên dữ liệu này buộc mô hình phải căn cứ nội dung tốt hơn trong các nguồn事 thực ban đầu, giảm việc tạo ra không có căn cứ.

Tinh chỉnh có giám sát

  • Coach – Khung khổ tương tác trả lời các truy vấn của người dùng nhưng cũng yêu cầu sửa đổi để cải thiện.
  • R-Tuning – Tinh chỉnh từ chối nhận thức thông qua các khoảng trống tri thức trong dữ liệu đào tạo.
  • TWEAK – Phương pháp giải mã xếp hạng các tạo ra dựa trên mức độ hỗ trợ事 thực cho các事 thực đầu vào.

Thách thức và hạn chế

Mặc dù đã có những tiến bộ đầy hứa hẹn, vẫn còn một số thách thức chính trong việc giảm thiểu ảo giác:

  • Các kỹ thuật thường phải đánh đổi giữa chất lượng, tính nhất quán và sự sáng tạo cho tính trung thực.
  • Khó khăn trong việc đánh giá nghiêm ngặt ngoài các lĩnh vực hạn chế. Các chỉ số không nắm bắt được tất cả các sắc thái.
  • Nhiều phương pháp đòi hỏi tính toán tốn kém, cần truy xuất hoặc tự lý luận rộng rãi.
  • Phụ thuộc nặng vào chất lượng dữ liệu đào tạo và các nguồn tri thức bên ngoài.
  • Khó đảm bảo tính tổng quát hóa trên các lĩnh vực và phương thức khác nhau.
  • Các nguyên nhân cơ bản của ảo giác như suy diễn quá mức vẫn chưa được giải quyết.

Giải quyết những thách thức này có khả năng đòi hỏi một phương pháp đa lớp kết hợp giữa cải thiện dữ liệu đào tạo, cải tiến kiến trúc mô hình, các hàm mất tính trung thực và các kỹ thuật tại thời điểm suy diễn.

Con đường phía trước

Giảm thiểu ảo giác cho LLM vẫn là một vấn đề nghiên cứu mở với tiến bộ đang diễn ra. Một số hướng đi đầy hứa hẹn trong tương lai bao gồm:

  • Các kỹ thuật kết hợp: Kết hợp các phương pháp bổ sung như truy xuất, căn cứ tri thức và phản hồi.
  • Mô hình hóa nguyên nhân: Cải thiện sự hiểu biết và lý luận.
  • Tích hợp tri thức trực tuyến: Giữ kiến thức thế giới được cập nhật.
  • Xác thực chính thức: Cung cấp các đảm bảo toán học về hành vi của mô hình.
  • Hiểu biết: Xây dựng tính minh bạch vào các kỹ thuật giảm thiểu.

Khi các LLM tiếp tục lan rộng trong các lĩnh vực quan trọng, việc phát triển các giải pháp mạnh mẽ để kiểm soát ảo giác sẽ là chìa khóa để đảm bảo triển khai an toàn, đạo đức và đáng tin cậy. Các kỹ thuật được khảo sát trong bài viết này cung cấp một cái nhìn tổng quan về các kỹ thuật được đề xuất cho đến nay, với nhiều thách thức nghiên cứu mở còn lại. Tổng thể có một xu hướng tích cực hướng tới tăng cường tính trung thực của mô hình, nhưng sự tiến bộ liên tục đòi hỏi giải quyết các hạn chế và khám phá các hướng đi mới như nguyên nhân, xác thực và các phương pháp kết hợp. Với những nỗ lực tận tâm từ các nhà nghiên cứu trên nhiều lĩnh vực, giấc mơ về các LLM mạnh mẽ nhưng đáng tin cậy có thể được biến thành hiện thực.

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.