Góc nhìn Anderson

Cung cấp cho Mô hình Ngôn ngữ ‘Chỉ số Sự thật’

mm
AI-generated image of a retro dial that goes from 'BULL' to 'FACT', GPT5.2's (unknown) underlying model + SDXL for outpainting.

Đúng hay trò chuyện: chọn một. Một phương pháp đào tạo mới cho phép người dùng nói với rô-bốt trò chuyện AI chính xác mức ‘sự thật’ mà họ muốn, biến độ chính xác thành một nút điều khiển có thể tăng hoặc giảm.

 

Một sự hợp tác nghiên cứu mới giữa Mỹ và Trung Quốc đang cung cấp điều mà hầu hết người dùng rô-bốt trò chuyện AI đều đánh giá cao: một ‘nút ảo’ cho phép người dùng chỉ định mức độ ‘sự thật’ mà họ muốn rô-bốt trả lời.

Hệ thống này được tạo ra bằng cách đào tạo tinh chỉnh một mô hình Mistral-7B trên dữ liệu tổng hợp, để lược đồ của ‘chỉ số sự thật’ có thể được in vào mô hình. Sau khi sửa đổi này, mô hình Mistral có thể kiểm soát số lượng事 thực trong một câu trả lời; giá trị ‘sự thật’ cao hơn do người dùng cung cấp, số lượng事 thực sẽ ít hơn – nhưng chắc chắn hơn – sẽ có trong câu trả lời ngắn hơn.

Ở mức thấp hơn, câu trả lời của rô-bốt trở thành những gì các tác giả của bài báo gọi là ‘thông tin’, tức là nó sẽ cung cấp một câu trả lời dài hơn và chứa nhiều事 thực hơn; nhưng một số事 thực có thể là ảo giác.

Dữ liệu tổng hợp mà hệ thống được đào tạo trên sử dụng Wikipedia làm tài liệu tham khảo cho một lĩnh vực thử nghiệm: các事 thực sinh về người trong đời thực. Cho dù người ta có nghĩ rằng Wikipedia nên là một nguồn tài liệu có thẩm quyền hay không, giá trị của công việc này là trong việc thiết kế bất kỳ loại hệ thống nào có thể kiểm soát sự thôi thúc của mô hình ngôn ngữ lớn (LLM) để đưa ra câu trả lời, ngay cả khi nó không có câu trả lời để đưa ra.

Một ví dụ từ dự án FactScore đã cung cấp dữ liệu cho bài báo này, sử dụng Wikipedia làm tài liệu tham khảo cho các chi tiết sinh về người. Nguồn - https://aclanthology.org/2023.emnlp-main.741.pdf

Một ví dụ từ dự án FactScore đã cung cấp dữ liệu cho bài báo này, sử dụng Wikipedia làm tài liệu tham khảo cho các chi tiết sinh về người. Nguồn

Các tác giả lưu ý rằng các ngữ cảnh đảm bảo cao như lĩnh vực y tế và pháp lý đòi hỏi đầu ra đáng tin cậy và chính xác, trong khi nhiều người dùng khác đòi hỏi một loại đầu ra sáng tạo và giải thích hơn (tức là viết và phân tích học thuật, v.v.).

Họ quan sát*:

‘[Hiện tại] LLM không cung cấp cơ chế nào để kiểm soát sự đánh đổi này.

‘Mặc dù người dùng có thể cố gắng hướng dẫn hành vi của mô hình bằng các lời nhắc như “hãy chính xác hơn”, chúng tôi phát hiện ra rằng các mô hình tiên tiến không điều chỉnh đáng tin cậy đầu ra của chúng theo các lời nhắc như vậy trong nhiệm vụ này.

‘Trên FactScore, chúng tôi phát hiện ra rằng các mô hình ngoài hộp thường không đáp ứng được thậm chí các mục tiêu vừa phải đến nghiêm ngặt. Sự khác biệt này tạo động lực cho một phương pháp thay thế có thể kiểm soát được, cho phép người dùng yêu cầu một mức độ sự thật cụ thể và mô hình điều chỉnh câu trả lời của nó theo đó.’

Chỉ là Sự thật

Để hiểu bài báo và các giải pháp mà nó cung cấp, cần phải xem xét lại định nghĩa của ‘thông tin’. Các tác giả cho rằng sự lượng hóa của một câu trả lời thông tin bằng ‘lượng nội dung được hỗ trợ trong đầu ra, đo lường bằng số lượng các câu lệnh nguyên tử được xác thực, được chuẩn hóa bởi độ dài đầu ra’.

Ở nơi khác, bài báo cho biết thông tin là ‘tổng số các事 thực nguyên tử trong đầu ra, cho dù đúng hay không’.

Hơn nữa, các nhà nghiên cứu lưu ý rằng khuynh hướng của LLM dao động giữa độ chính xác và suy đoán chủ quan là một đặc điểm rất con người, và một đặc điểm được ghi lại bởi các nghiên cứu khoa học đa dạng*:

‘[Kiến thức của LLM] không đáng tin cậy đồng đều: một số câu lệnh được hỗ trợ mạnh mẽ, trong khi những câu lệnh khác là suy đoán, lỗi thời hoặc không chắc chắn. Việc tạo ra do đó đòi hỏi quyết định về việc nói bao nhiêu và nói thận trọng như thế nào, tạo ra một sự căng thẳng giữa độ chính xác và thông tin.

‘Con người đưa ra những lựa chọn tương tự: bắt đầu với các事 thực có độ tin cậy cao và thêm chi tiết ít chắc chắn hơn chỉ khi được yêu cầu.’

Mặc dù các thí nghiệm chỉ được thực hiện trên mô hình Mistral cỡ trung, các nguyên tắc áp dụng nên hoạt động trên nhiều quy mô và nền tảng khác nhau, vì nó liên quan đến một lượng hóa mới của dữ liệu, như một bổ sung cho lược đồ nội bộ của LLM; và một sửa đổi như vậy không phụ thuộc vào kiến trúc.

Bài báo mới mới có tiêu đề Sự thật theo Yêu cầu: Kiểm soát Sự đánh đổi giữa Sự thật và Thông tin trong Tạo văn bản, và đến từ bảy nhà nghiên cứu trên các trường đại học Columbia, New York và NYU Thượng Hải.

Phương pháp và Dữ liệu

Phương pháp mới được trình bày trong bài báo được gọi là Tạo văn bản Kiểm soát Sự thật (FCG), và giới thiệu một ‘nút ảo’ cho phép người dùng chỉ định mức độ chính xác mà họ muốn câu trả lời của rô-bốt đạt được. ‘Về cơ bản,’ bài báo cho biết, ‘FCG cải thiện mô hình với một “nút” có thể kiểm soát được đối với sự thật’.

Mô hình này nhận cả câu hỏi của người dùng và mức độ sự thật mong muốn, sau đó tạo ra một câu trả lời bao gồm chỉ thông tin mà nó coi là đáng tin cậy, trong khi vẫn cố gắng cung cấp càng nhiều chi tiết càng tốt trong khuôn khổ giới hạn sự tin cậy đó.

Sử dụng hệ thống FactScore, đầu ra được phân đoạn từ các truy vấn mẫu được đánh giá về độ chính xác, một chất lượng được định nghĩa là tuân thủ sự thật:

Dòng ống đào tạo dữ liệu cho FCG: mô hình ngôn ngữ tạo ra một câu trả lời ban đầu, chia nó thành các事 thực nguyên tử, xếp hạng chúng theo độ tin cậy, và loại bỏ các事 thực ít tin cậy nhất cho đến khi đạt được mức độ sự thật mong muốn. Nguồn - https://arxiv.org/pdf/2602.00848

Dòng ống đào tạo dữ liệu cho FCG: mô hình ngôn ngữ tạo ra một câu trả lời ban đầu, chia nó thành các事 thực nguyên tử, xếp hạng chúng theo độ tin cậy, và loại bỏ các事 thực ít tin cậy nhất cho đến khi đạt được mức độ sự thật mong muốn. Nguồn

Vì không có tập dữ liệu hiện có nào phù hợp với yêu cầu của FCG, các tác giả đã tạo một tập dữ liệu tổng hợp bằng cách cho mô hình ngôn ngữ GPT-4 tạo ra một câu trả lời không bị giới hạn, sau đó loại bỏ các事 thực ‘ít tin cậy nhất’ cho đến khi câu trả lời đạt được mức độ chính xác nhất định.

Các công việc trước đây đã gợi ý rằng đào tạo chỉ trên dữ liệu thực tế có thể thực sự làm cho mô hình ít chính xác hơn, bằng cách ngăn cản chúng đưa ra bất kỳ chi tiết nào. Do đó, các ví dụ đào tạo FCG đã được chỉnh sửa tối thiểu, giữ lại cách diễn đạt và nhịp điệu của mô hình, trong khi chỉ loại bỏ đủ để đáp ứng mức độ tin cậy mục tiêu.

Bằng cách áp dụng quá trình chỉnh sửa này trên nhiều mức độ tin cậy mục tiêu, từ 10% đến 100%, một tập dữ liệu tổng hợp đã được tạo ra, trong đó mỗi câu hỏi được ghép với nhiều câu trả lời đã được lọc.

Trong mỗi phiên bản, chỉ các事 thực được mô hình coi là đáng tin cậy để đáp ứng mức độ sự thật yêu cầu được giữ lại; những ví dụ này sau đó được sử dụng làm dữ liệu đào tạo cho việc đào tạo tinh chỉnh.

Tập dữ liệu cuối cùng bao gồm 3.302 (câu hỏi, kiểm soát, câu trả lời) bộ ba cho đào tạo, và 396 cho xác thực, được xây dựng từ 500 thực thể được chia thành 450 cho đào tạo và 50 cho phát triển. Thêm 183 thực thể riêng biệt được sử dụng cho thử nghiệm.

Đào tạo và Thử nghiệm

Các tác giả đã đào tạo tinh chỉnh mô hình Mistral-7B-Instruct-v0.2 LLM ở các tốc độ học khác nhau (3e-6, 1e-5, 3e-5) để đạt được tốc độ học tối ưu (không được nêu), trong 30 kỳ, với kích thước lô là 256 (chú ý phần cứng đào tạo không được chỉ định).

FCG đã được thử nghiệm với hai phương pháp cơ sở. Phương pháp đầu tiên là Không Kiểm soát Sự thật (NFC), nơi mô hình chỉ được yêu cầu với một yêu cầu như Nói cho tôi về X, mà không đề cập đến độ chính xác hoặc sự tin cậy. Phương pháp này phản ánh hành vi mặc định của một LLM, mà không có cơ chế nào để lọc hoặc giới hạn.

Phương pháp thứ hai, được gọi là Định lý Kiểm soát Sự thật (FCI), sử dụng các lời nhắc về mức độ tin cậy mà không cần đào tạo tinh chỉnh. Ví dụ, mô hình có thể được yêu cầu với ‘Đầu ra thông tin mà bạn tin là 90% tin cậy’. Trong trường hợp này, lời nhắc tương tự như những lời nhắc được sử dụng trong đào tạo, nhưng mô hình không có tiếp xúc trước với những giới hạn như vậy:

So sánh giữa ba phương pháp được thử nghiệm: phương pháp cơ sở không có kiểm soát; một phiên bản sử dụng lời nhắc về sự thật mà không cần đào tạo; và mô hình đã được đào tạo tinh chỉnh để học theo các thiết lập độ chính xác thông qua việc tiếp xúc với dữ liệu đã được lọc.

So sánh giữa ba phương pháp được thử nghiệm: phương pháp cơ sở không có kiểm soát; một phiên bản sử dụng lời nhắc về sự thật mà không cần đào tạo; và mô hình đã được đào tạo tinh chỉnh để học theo các thiết lập độ chính xác thông qua việc tiếp xúc với dữ liệu đã được lọc.

Ban đầu, một thử nghiệm đã được thực hiện cho tuân thủ sự thật:

Hiệu suất tại ba mức độ tin cậy mục tiêu. Chỉ có mô hình đã được đào tạo tinh chỉnh mới có thể tạo ra đầu ra hoàn toàn chính xác, và nó vượt qua cả hai phương pháp cơ sở trên toàn bộ, đặc biệt là ở các ngưỡng cao hơn.

Hiệu suất tại ba mức độ tin cậy mục tiêu. Chỉ có mô hình đã được đào tạo tinh chỉnh mới có thể tạo ra đầu ra hoàn toàn chính xác, và nó vượt qua cả hai phương pháp cơ sở trên toàn bộ, đặc biệt là ở các ngưỡng cao hơn.

Khi được thử nghiệm với các ngưỡng độ tin cậy 80%, 90% và 100%, chỉ có mô hình đã được đào tạo tinh chỉnh mới có thể đáp ứng nhất quán các mục tiêu. Đáng ngạc nhiên, việc thêm các lời nhắc về độ tin cậy mà không đào tạo mô hình để tuân theo chúng không giúp được gì. Trong một số trường hợp, nó thậm chí còn làm cho mọi thứ trở nên tồi tệ hơn; ví dụ, chỉ 3,8% đầu ra từ mô hình được nhắc nhở đạt được ngưỡng 90%, so với 5,5% từ phiên bản không có lời nhắc nào:

Điều này cho thấy, các tác giả khẳng định, mô hình Mistral-7B cơ bản không thể diễn giải các lời nhắc như ‘hãy 90% tin cậy’ một cách hữu ích, và lời nhắc thêm có thể thậm chí làm gián đoạn đầu ra thông thường của nó.

Ngược lại, mô hình đã được đào tạo tinh chỉnh phản ứng đáng tin cậy với các tín hiệu kiểm soát, tạo ra 18,7% đầu ra tuân thủ ở 80%, 12,6% ở 90% và 23,6% ở 100%; và nó chứng minh là phương pháp duy nhất có thể tạo ra các câu trả lời hoàn toàn chính xác:

‘Những cải tiến này cho thấy rằng khả năng kiểm soát sự thật có thể được truyền đạt thông qua đào tạo tinh chỉnh. Mô hình FCG đã học cách điều chỉnh nội dung và chỉ bao gồm các事 thực mà nó tin cậy, trong khi mô hình ngoài hộp không thể sử dụng hiệu quả tín hiệu kiểm soát của nó.’

Trong một thử nghiệm riêng biệt được thiết kế để xác nhận rằng mô hình đã thực sự học cách diễn giải tín hiệu kiểm soát, các nhà nghiên cứu đã kiểm tra xem liệu độ tin cậy trung bình của các câu trả lời có tăng lên khi các thiết lập sự thật cao hơn được yêu cầu hay không.

Không có mẫu nào như vậy xuất hiện trước khi đào tạo, nhưng sau đó, kết quả cho thấy một xu hướng tăng đều, với các yêu cầu độ tin cậy cao hơn tạo ra các câu trả lời chính xác hơn:

Khi thiết lập sự thật mục tiêu tăng lên, mô hình đã được đào tạo tinh chỉnh tạo ra các đầu ra ngày càng chính xác, với các mô hình cơ sở chứng tỏ không có sự thay đổi nhất quán trên cùng một phạm vi.

Khi thiết lập sự thật mục tiêu tăng lên, mô hình đã được đào tạo tinh chỉnh tạo ra các đầu ra ngày càng chính xác, với các mô hình cơ sở chứng tỏ không có sự thay đổi nhất quán trên cùng một phạm vi.

Sự đánh đổi giữa sự thật và ‘độ phong phú’ cũng được kiểm tra. Đầu ra được chấm điểm không chỉ về độ chính xác mà còn về lượng thông tin đã xác thực còn lại dưới các yêu cầu sự thật ngày càng nghiêm ngặt. Như được hiển thị trong biểu đồ dưới đây, mô hình FCG được tìm thấy để vượt qua cả hai phương pháp cơ sở ở hầu hết các mức:

Một biểu đồ đại diện cho sự đánh đổi giữa sự thật và thông tin trên ba phương pháp. Mô hình đã được đào tạo tinh chỉnh được tìm thấy để cung cấp một sự cân bằng tốt hơn giữa sự thật và chi tiết so với bất kỳ phương pháp cơ sở nào. Ở các mức độ chính xác tương đương, nhiều nội dung thực tế hơn được giữ lại, và ở thiết lập cao nhất, nó vẫn là phương pháp duy nhất có thể tạo ra các câu trả lời đã được xác thực hoàn toàn mà không bị trống rỗng.

Một biểu đồ đại diện cho sự đánh đổi giữa sự thật và thông tin trên ba phương pháp. Mô hình đã được đào tạo tinh chỉnh được tìm thấy để cung cấp một sự cân bằng tốt hơn giữa sự thật và chi tiết so với bất kỳ phương pháp cơ sở nào. Ở các mức độ chính xác tương đương, nhiều nội dung thực tế hơn được giữ lại, và ở thiết lập cao nhất, nó vẫn là phương pháp duy nhất có thể tạo ra các câu trả lời đã được xác thực hoàn toàn mà không bị trống rỗng.

Ở mức độ chính xác mục tiêu khoảng 90%, nhiều事 thực hơn được giữ lại bởi FCG so với bất kỳ phương pháp nào khác, và trên toàn bộ phạm vi các thiết lập độ tin cậy, không có phương pháp cơ sở nào tạo ra kết quả nhất quán tốt hơn.

Sự khác biệt là rõ ràng nhất ở thiết lập nghiêm ngặt nhất, nơi FCG tiếp tục tạo ra thông tin không phải là không, trong khi phương pháp cơ sở với lời nhắc đơn thuần bị buộc phải loại bỏ mọi thứ. Trong những trường hợp đó, ngay cả một câu lệnh duy nhất có độ tin cậy thấp cũng khiến toàn bộ câu trả lời bị loại bỏ.

Ngược lại, mô hình đã được đào tạo tinh chỉnh có thể thay đổi đầu ra của nó để giữ lại chỉ các事 thực mà nó coi là hoàn toàn đáng tin cậy, tránh được sự sụp đổ vào im lặng mà ảnh hưởng đến các phương pháp khác.

Sự thật được kiểm soát trực tiếp bởi thiết lập kiểm soát, trong khi thông tin được tối ưu hóa bằng cách cho phép mô hình bao gồm càng nhiều nội dung đáng tin cậy càng tốt. Ở các thiết lập cao hơn, chỉ các câu lệnh đáng tin cậy được giữ lại; ở các thiết lập thấp hơn, nhiều chi tiết suy đoán hơn được phép, tăng độ dài nhưng giảm độ chính xác.

Các tác giả kết luận:

‘[Khi] một ràng buộc sự thật cao được áp dụng, mô hình ưu tiên các câu lệnh có thể được xác thực về mặt sự thật trong khi vẫn bao gồm càng nhiều thông tin liên quan càng tốt. Ngược lại, mô hình có quyền tự do bao gồm một loạt các chi tiết rộng hơn, bao gồm cả những chi tiết ít có thể xác thực hoặc suy đoán hơn, dẫn đến thông tin cao hơn (nhiều事 thực được đề cập) với chi phí của một số độ chính xác.

‘Hành vi này phù hợp với thiết kế của chúng tôi về dữ liệu đào tạo: vì chúng tôi luôn loại bỏ các事 thực ít tin cậy nhất, mô hình đã học cách “nếu bạn phải là x% chính xác, hãy loại bỏ các chi tiết ít tin cậy nhất nhưng giữ lại mọi thứ khác.” ‘

Bài báo kết thúc với hy vọng rằng phương pháp mới này sẽ được thử nghiệm với các mô hình lớn hơn và áp dụng cho các nhiệm vụ phức tạp hơn, trong số các tiện ích mở rộng có thể có của công việc.

Kết luận

Giải pháp được cung cấp ở đây giải quyết một trong những vấn đề nghiêm trọng và thường được lưu ý nhất của thậm chí là thế hệ mới nhất của mô hình ngôn ngữ lớn – khuynh hướng của chúng để ưu tiên sự trò chuyện hơn là độ chính xác, dường như chỉ để ‘giữ cho cuộc trò chuyện tiếp tục’, và để trình bày một cách tự tin thông tin lỗi thời hoặc hoàn toàn ảo giác như sự thật.

Đối với người dùng ChatGPT, bất kỳ câu trả lời nào không được đi trước bởi sự xuất hiện ngắn gọn của một tiện ích ‘tìm kiếm trên web’ sẽ đến từ kiến thức đã cắt của mô hình, hoặc có thể là ảo giác cũng như sự thật.

Tuy nhiên, tìm kiếm trên web làm tăng độ trễ và chi phí chạy của mô hình LLM, và như mọi người dùng đều biết, chúng được chạy một cách chọn lọc; hoặc theo yêu cầu của người dùng; hoặc như một ‘cài đặt đặc biệt’ có thể phát sinh thêm phí token.

Dù vậy, những loại kinh tế nội bộ này có thể có tác động quan trọng đến các truy vấn LLM trong một số lĩnh vực, hoặc đối với một số loại truy vấn. Bất kỳ phương pháp nào có thể áp đặt một lược đồ liên quan đến độ chính xác của đầu ra đều là nghiên cứu đáng hoan nghênh.

 

* Sự chuyển đổi của tôi từ trích dẫn nội tuyến của tác giả sang liên kết.

Số phiên bản đầy đủ không được cung cấp.

Được xuất bản lần đầu vào thứ Sáu, ngày 6 tháng 2 năm 2026. Đã được sửa đổi trong năm phút tiếp theo để lặp lại một từ.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]