Góc nhìn Anderson
Các Mô Hình Trò Chuyện AI Bị Kiểm Duyệt Hallucinate nhiều hơn, Nghiên Cứu Phát Hiện

Việc kiểm duyệt trong các mô hình ngôn ngữ có thể làm suy yếu khả năng báo cáo sự thật của chúng ở mức độ rộng lớn hơn. Nghiên cứu mới cho thấy rằng các cơ chế nội bộ được sử dụng để chặn các phản hồi ‘không an toàn’ cũng подав thông tin thực tế, có nghĩa là các nỗ lực để căn chỉnh các mô hình cho an toàn có thể phản tác dụng bằng cách làm cho chúng hallucinate nhiều hơn.
Trong nhiều năm, các nhà phát triển đã dạy các mô hình ngôn ngữ để nói dối ít hơn. Việc thúc đẩy chúng trở nên trung thực hơn, bằng cách подав hallucinations và hướng chúng toward các事 thực tế, đã dẫn đến một dòng nghiên cứu rất mạnh và được đăng ký rộng rãi.
Tuy nhiên, một nghiên cứu mới của Úc cho rằng bằng cách thắt chặt kiểm soát sobre những gì các mô hình được phép nói, các phương pháp căn chỉnh (các kỹ thuật đào tạo mà kiểm soát các trao đổi ‘không an toàn’) có thể ngăn cản chúng nói chính xác tại tất cả:

Cải thiện độ chính xác thực tế của một mô hình (‘Truthfulness Enhancement’, trong hình trên) có thể đẩy nó vào các vùng hoạt động mà vượt qua các cơ chế từ chối built-in, và các chỉnh sửa nhằm giảm hallucinations cũng có thể thay đổi các biểu diễn nội bộ qua một ranh giới an toàn. Điều này có thể cho phép các prompt có hại vượt qua các biện pháp bảo vệ, trừ khi các tính năng từ chối được cách ly và bảo tồn cẩn thận. Source: https://arxiv.org/pdf/2510.07775
Nghiên cứu cho thấy rằng các con đường nội bộ cùng quản lý việc nhớ lại thực tế cũng chịu trách nhiệm cho hành vi từ chối, tức là cơ chế mà ngăn một mô hình trả lời các prompt không an toàn hoặc nhạy cảm. Khi các thủ tục căn chỉnh tăng cường các tín hiệu từ chối quá mạnh mẽ, chúng bắt đầu chồng lấp với các con đường thực tế, làm cho mô hình khó phân biệt giữa việc từ chối gây hại và thường xuyên подав thông tin hợp lệ.
Ngược lại, khi các mô hình trở nên tốt hơn trong việc nói ‘không’, chúng cũng trở nên ít có khả năng nói những gì là sự thật.
Chủ Đề Đánh Đố
Trong hình trên, chúng ta có thể thấy rằng các vấn đề trung tâm ở đây liên quan đến trách nhiệm pháp lý của các nhà cung cấp LLM cũng như cung cấp cho người dùng các kết quả công bằng và chính xác.
Ví dụ, trong trường hợp được sử dụng trong cả hình trên và trực tiếp dưới, chúng ta thấy một chủ đề gây tranh cãi (thống kê tội phạm dựa trên chủng tộc) được đưa ra trong một truy vấn – một chủ đề mà một AI có thể thảo luận một cách chấp nhận được với các nhà nghiên cứu và thống kê, nhưng không với những người có ý đồ xấu muốn jailbreak mô hình, những người có thể buộc nó xuất ra các phản hồi lạm dụng, xúc phạm, và thậm chí là bất hợp pháp.
Tuy nhiên, vì một LLM căn chỉnh không thể xác định nhân vật của người hỏi trong cách này, nó mặc định một thái độ thận trọng:

Các phản hồi với các prompt nhạy cảm có thể phân kỳ tùy thuộc vào chiến lược căn chỉnh. Một mô hình an toàn căn chỉnh chặn truy vấn hoàn toàn, trong khi một mô hình tập trung vào sự thật phản hồi với ngữ cảnh thực tế, tăng cường thông tin nhưng làm suy yếu việc подав. Điều này hỗ trợ quan điểm rằng các chỉnh sửa nhằm tăng cường sự trung thực có thể làm giảm ngưỡng từ chối, làm cho mô hình dễ bị tổn thương hơn trước các prompt có ý đồ xấu, trừ khi các cơ chế từ chối được bảo vệ rõ ràng.
Làm một lưu ý bên, liên quan đến ngôn ngữ gây tranh cãi, các phát hiện của bài báo mới này có thể cho phép một người không ủng hộ các chương trình ‘thức tỉnh’ hiểu rằng một mô hình ngôn ngữ ‘neutered’ (tức là căn chỉnh) ít trung thực và ít hữu ích hơn một mô hình chưa được điều kiện và quy định.
Bài báo cho thấy rằng điều này đến một mức độ nhất định là đúng, nhưng cũng đặt nó vào bối cảnh rộng lớn hơn của các vấn đề phát sinh từ các trao đổi với ‘raw’ LLMs: theo logic của bài báo, những điều này bao gồm việc tiếp xúc pháp lý nghiêm trọng trên một loạt các tội phạm và vi phạm dân sự mà mô hình có thể là một phần, cũng như sự lan truyền mãi mãi tin giả, đơn giản vì các ví dụ về nguyên nhân được đại diện quá mức trong dữ liệu đào tạo, và cách hiệu quả duy nhất để lọc chúng hoàn toàn là quá tốn kém.
Cặp Đôi Kỳ Lạ
Để hiểu tốt hơn về các cơ chế đằng sau các hội chứng quan sát, các nhà nghiên cứu đã ánh xạ hoạt động của các đầu chú ý riêng lẻ và phát hiện ra rằng các tính năng liên quan đến hallucination và từ chối thường cùng tồn tại trong cùng một vùng của mô hình.
Họ phát hiện ra rằng fine-tuning hoặc điều khiển các vùng này để giảm thiểu các phản hồi sai có thể làm suy yếu hệ thống bảo vệ built-in, vì chúng nằm trong cùng một phần của không gian ẩn:
‘[Tăng] độ chính xác thực tế thường đi kèm với chi phí của việc từ chối hành vi yếu đi. Phân tích của chúng tôi cho thấy rằng điều này phát sinh từ các thành phần chồng lấp trong mô hình mà đồng thời mã hóa thông tin hallucination và từ chối, dẫn đến các phương pháp căn chỉnh подав thông tin thực tế một cách không cố ý.
‘Chúng tôi进一步 kiểm tra cách fine-tuning trên các tập dữ liệu an toàn, thậm chí khi được kiểm duyệt cho an toàn, có thể làm suy yếu căn chỉnh vì cùng một lý do.’
Giải pháp của các tác giả là sử dụng một bộ tự động mã hóa thưa (SAE, một mạng được đào tạo để phân lập các mẫu hoạt động riêng biệt) để tách biệt hai chức năng và bảo tồn an toàn trong quá trình đào tạo sự trung thực, cung cấp một cách để làm cho các mô hình cả an toàn và trung thực hơn, mà không phải hy sinh bất kỳ đặc điểm nào.
Bài báo mới mới có tiêu đề Trade-off Không Mong Muốn của Căn Chỉnh AI: Cân Bằng Giữa Hallucination Mitigation và An Toàn trong LLMs, và đến từ năm nhà nghiên cứu trên khắp Đại học Deakin và nghiên cứu độc lập.
Phương Pháp
Tiền đề trung tâm của công việc này là để điều tra xem việc cải thiện sự trung thực trong các mô hình ngôn ngữ có làm suy yếu khả năng từ chối các prompt có hại của chúng, và xem cả hai hành vi có phụ thuộc vào các thành phần nội bộ chung.
Thử nghiệm hai phương pháp tăng cường sự trung thực, các tác giả đã tìm thấy, như chúng ta sẽ thấy, rằng các lợi ích về độ chính xác thực tế luôn tăng khả năng bị tấn công.
Sự trao đổi này phát sinh từ sự chồng lấp trong các đầu chú ý mã hóa cả tín hiệu thực tế và từ chối. Thậm chí fine-tuning lành mạnh (được thiết kế để cải thiện tiện ích mà không ảnh hưởng đến hành vi an toàn) cũng có thể làm suy yếu an toàn bằng cách thay đổi các con đường chung.
Nghiên cứu định nghĩa ba thuật ngữ quan trọng: truthfulness đề cập đến khả năng của mô hình cung cấp các phản hồi chính xác dựa trên kiến thức có sẵn của nó, mà không подав nội dung không gây hại; hallucination xảy ra khi mô hình cung cấp thông tin không chính xác hoặc gây hiểu lầm mặc dù có quyền truy cập vào thông tin chính xác, thường do thất bại trong việc thu thập hoặc can thiệp nội bộ; và hành vi từ chối, hoặc căn chỉnh an toàn, mô tả các cơ chế chặn hoặc hạn chế phản hồi với các prompt có hại hoặc nhạy cảm.
Các tác giả quan sát thấy rằng các chức năng này thường tương tác với nhau một cách tinh tế:
‘Mặc dù sự trung thực và an toàn thường được phân tích riêng biệt, các prompt thực tế thường chứa các thuật ngữ nhạy cảm với ý định tốt (ví dụ, phân tích, phát hiện, hoặc giáo dục) [Trong] những trường hợp này, các cơ chế an toàn có thể hoạt động quá mức – подав thông tin chính xác, hữu ích – và do đó giảm sự trung thực thực tế “bằng việc bỏ qua”.
‘Hiểu cách các chỉnh sửa nhằm tăng cường sự trung thực ảnh hưởng đến hành vi từ chối là điều cần thiết để đạt được sự trung thực với sự подав tối thiểu.’

Các tác giả đã phát triển một LoRA có khả năng điều khiển một LLM có điều kiện vào một trạng thái ‘trung thực’ ít có khả năng hallucination hơn. Bao gồm cả hình trên, phụ lục của bài báo có nhiều ví dụ về các hậu quả không mong muốn của điều này.
Phân tích bắt đầu bằng cách xem các phương pháp tăng cường sự trung thực, chẳng hạn như head-steering và latent-direction mapping, như các chỉnh sửa có chủ đích đối với tính toán nội bộ của mô hình.
Hướng Đánh Đố
Câu hỏi là liệu những thay đổi này có ảnh hưởng không cố ý đến các con đường nội bộ cùng quản lý hành vi từ chối. Để kiểm tra điều này, nghiên cứu đã đánh giá các mô hình không chỉ về độ chính xác thực tế sử dụng TruthfulQA, mà còn về hiệu suất an toàn dưới áp lực đối thủ, sử dụng các AdvBench và StrongReject chuẩn.
Hai kỹ thuật hiện có được sử dụng làm chuẩn mực là can thiệp thời gian suy luận (ITI), kích hoạt các đầu chú ý liên quan đến các phản hồi trung thực; và TruthX, thay đổi các biểu diễn dọc theo một hướng “trung thực” đã học.
Cả hai đều cải thiện độ chính xác, nhưng cũng làm cho mô hình dễ bị trả lời các prompt có hại mà trước đây nó đã từ chối.
Để kiểm tra xem hành vi hallucination có thể được phân lập và điều khiển trực tiếp, các tác giả đã định nghĩa một hướng latent duy nhất trong không gian mô hình tương ứng với các phản hồi hallucinated, đào tạo một mô-đun LoRA trên các phản hồi không chính xác từ tập dữ liệu TruthfulQA, sử dụng LLaMA3-8B-Instruct.
Điều này đã dẫn đến một vector tuyến tính (tức là một đồ thị về sự khác biệt giữa các phản hồi trung thực và hallucinated) mà điều khiển mô hình hướng đến hoặc rời khỏi hallucination, tùy thuộc vào hướng.

Hiệu ứng của việc điều khiển dọc theo hướng hallucination. Độ chính xác trên TruthfulQA tăng khi mô hình được đẩy xa hơn theo hướng âm, trong khi Tỷ Lệ Thành Công Tấn Công (ASR, thấp hơn là tốt hơn) tăng mạnh trên AdvBench và StrongReject, phản ánh một sự trao đổi giữa sự trung thực và an toàn.
Điều khiển dọc theo trục hallucination làm giảm độ chính xác thực tế, trong khi đảo ngược hướng cải thiện nó, và áp dụng kỹ thuật này cho các chuẩn mực prompt có hại đã xác nhận một mẫu được thấy trước đó: lợi ích về sự trung thực đi kèm với chi phí của việc từ chối yếu đi. Thậm chí khi hallucination được bắt gặp như một hướng tuyến tính sạch, cải thiện đầu ra thực tế làm cho mô hình dễ bị tổn thương hơn trước các prompt có hại.
Các tác giả nhấn mạnh*:
‘Điều này củng cố sự trao đổi giữa sự trung thực và an toàn, cho thấy rằng ngay cả khi sự trung thực được biểu diễn như một hướng tuyến tính duy nhất, việc tăng cường sự trung thực có thể đi kèm với chi phí của việc từ chối an toàn yếu đi.’
Dữ Liệu và Kiểm Tra
Theo công việc trước, để ngăn fine-tuning làm suy yếu hành vi từ chối của mô hình, các tác giả đã sử dụng một phương pháp để tách các tính năng từ chối khỏi những tính năng liên quan đến hallucination, bằng cách xác định các đầu chú ý tham gia vào cả hai hành vi.
Họ sau đó sử dụng SAE để trích xuất các tính năng latent riêng cho từ chối. Những tính năng này định nghĩa một không gian con được bảo vệ. Trong quá trình đào tạo, các cập nhật gradient được sửa đổi để tránh không gian này, cho phép mô hình giảm hallucinations mà không làm suy yếu căn chỉnh an toàn.
Các tác giả đã fine-tuning trên tập dữ liệu CommonsenseQA, đánh giá trên sáu thử thách lý luận thông thường: CSQA; HellaSwag; ARCchallenge; ARC Easy; WinoGrande; và SST-2.
Các mô-đun mục tiêu đã được fine-tuning sử dụng LoRA với hạng 8, tỷ lệ học 2×10⁻⁴, suy giảm trọng lượng 0,01, một kỳ đào tạo, và kích thước lô hai. Tất cả các thí nghiệm sử dụng AdamW tối ưu hóa.
Hai chuẩn mực nội dung có hại được sử dụng để đánh giá an toàn là AdvBench (500 mẫu được sử dụng) và StrongReject (300 prompt). Đầu ra được đánh giá bởi LlamaGuard3, cho ra các phân loại an toàn hoặc không an toàn.
Ngoài LLaMA3-8B-Instruct, các thí nghiệm cũng được thực hiện trên Qwen2.5-Instruct.
Các chuẩn mực được kiểm tra là SafeLoRA; SaLoRA; SAP; và fine-tuning giám sát thông thường (aka SFT). Tất cả đều được chạy trên các siêu tham số mặc định, với 200 prompt từ HarmBench, cho tất cả các phương pháp ngoại trừ SafeLoRA.
Độ chính xác là chỉ số chính, và đối với các chuẩn mực có hại, Tỷ Lệ Thành Công Tấn Công (ASR), như được định nghĩa bởi kết quả trả về từ LlamaGuard3.

Trên, kết quả từ LlaMA-3-8B-Instruct, với cột tốt nhất in đậm và dưới, hiệu suất của các phương pháp fine-tuning trên Qwen2.5 7B Instruct, trên các nhiệm vụ lý luận thông thường và an toàn, nơi các điểm số cao hơn phản ánh độ chính xác tốt hơn – và trên các chuẩn mực an toàn AdvBench và StrongReject, nơi các giá trị ASR thấp hơn phản ánh sự mạnh mẽ hơn. Kết quả tốt nhất trong mỗi cột được hiển thị in đậm.
Về những kết quả này, các tác giả tuyên bố:
‘Phương pháp phẫu thuật của chúng tôi đạt được sự cân bằng tốt nhất giữa an toàn và tiện ích: nó giảm đáng kể các điểm số chuẩn mực có hại trong khi vẫn giữ được độ chính xác của fine-tuning. Ngược lại, các phương pháp như SAP, SaLoRA và SafeLoRA либо tăng cường độ có hại hoặc làm suy giảm tiện ích.
‘Một lý do chính là các phương pháp này hoạt động trực tiếp trên gradient của không gian an toàn, điều mà, do tính đa nghĩa [**], có thể hạn chế hiệu suất của mô hình.
‘So với fine-tuning thông thường (SFT), phương pháp của chúng tôi mang lại sự cải thiện đáng kể về cả tiện ích và các chỉ số có hại. Cụ thể, phương pháp của chúng tôi cải thiện độ chính xác fine-tuning trung bình (FA) từ 56,15% lên 75,09%, một lợi ích khoảng +19%.’
Phương pháp, các nhà nghiên cứu lưu ý thêm, cắt giảm Tỷ Lệ Thành Công Tấn Công từ 9,23% xuống 0,58% trên AdvBench, và từ 9,90% xuống 0,00% trên StrongReject, đại diện cho một sự giảm hơn mười lăm lần trong đầu ra có hại. Mô hình cơ sở, mặc dù đã thấp về độ có hại, chỉ đạt được độ chính xác nhiệm vụ hạn chế.
Các tác giả tuyên bố:
‘Những kết quả này nhấn mạnh tầm quan trọng của việc bảo tồn các tính năng từ chối trong quá trình fine-tuning: bằng cách phân lập và bảo vệ không gian từ chối, phương pháp của chúng tôi duy trì căn chỉnh an toàn mà không hy sinh hiệu suất nhiệm vụ.
‘Tổng thể, điều này xác nhận rằng phương pháp của chúng tôi có hiệu quả trong việc giảm thiểu sự trao đổi giữa sự trung thực và an toàn.’
Cuối cùng, các tác giả đã kiểm tra sự vững chắc của phương pháp dưới các điều kiện đối thủ hơn, bằng cách thêm 10% hướng dẫn có hại từ tập dữ liệu Circuit Break vào tập fine-tuning.
Mặc dù sự nhiễm độc có chủ đích này, phương pháp vẫn duy trì hiệu suất mạnh trên cả đánh giá lành mạnh và có hại:

Hiệu suất của LLaMA3 8B Instruct fine-tuning trên một tập dữ liệu thông thường bị nhiễm độc, so sánh độ chính xác và an toàn trên các phương pháp.
Phương pháp mới giảm ASR hiệu quả hơn SAP, trong khi tránh mất tiện ích dốc của SAP. Độ chính xác nhiệm vụ vẫn gần với LoRA SFT và SafeLoRA, xác nhận rằng căn chỉnh từ chối vẫn có thể giữ được dưới đào tạo bị nhiễm độc, với điều kiện rằng các tính năng từ chối được phân lập và bảo tồn đúng cách.
Kết Luận
Phát hiện thú vị nhất từ bài báo này là sự tồn tại rõ ràng của các yếu tố mâu thuẫn như từ chối và hallucination trong không gian latent đã được đào tạo. Mặc dù rất khuyến khích và thú vị khi xem các tác giả phân tách những yếu tố này thông qua việc sử dụng LoRAs và SAEs, điều này rõ ràng là một giải pháp tạm thời, và người ta hy vọng rằng các giải pháp kiến trúc sâu hơn sẽ xuất hiện để giải quyết vấn đề đào tạo, chứ không phải các giải pháp hậu xử lý.
* Tôi bỏ qua định dạng in đậm của họ vì nó không cần thiết.
** https://arxiv.org/abs/2210.01892
Được xuất bản lần đầu vào Thứ Sáu, Ngày 10 Tháng 10, 2025












