Góc nhìn Anderson

Làm thế nào để ChatGPT trò chuyện một cách bình thường

Đã xuất bản 6 tháng 6, 2025

Đã cập nhật 18 tháng 5, 2026

Martin Anderson

ChatGPT và các bot tương tự thường xu nịnh người dùng, nói chuyện mơ hồ hoặc sử dụng jargon để nghe có vẻ thông minh. Nghiên cứu mới cho thấy những thói quen này không chỉ đến từ các mô hình mà còn từ cách phản hồi của con người đào tạo chúng: các mô hình học cách sao chép phong cách trả lời mà con người thường thích, ngay cả khi những câu trả lời đó là vô nghĩa hoặc gây hiểu lầm. Một phương pháp tinh chỉnh mới sử dụng các ví dụ tổng hợp để dạy cho các mô hình cách chống lại những thói quen xấu này.

Phần này là ý kiến. ChatGPT khá sẵn sàng tham gia vào việc tôi chỉ trích nó. Sau khi nhận thấy trong những ngày gần đây rằng GPT-4o ngày càng thêm nhiều từ ngữ vô nghĩa vào câu trả lời của nó – chẳng hạn như ‘Không có gì thừa thãi!’ và ‘Không có gì thừa! hoặc ‘Điều này đi thẳng vào vấn đề!’ – tôi đã hỏi nó tại sao việc đưa ra câu trả lời thẳng thắn và tối giản lại trở thành vấn đề đối với nó gần đây. Nó đã trả lời:

ChatGPT giải thích hành vi mới nhất của nó. Nguồn: https://chatgpt.com/

Không biết liệu ChatGPT có thực sự có cái nhìn sâu sắc nào về các thay đổi chính sách của OpenAI hay không, hay nó chỉ đang động não? Dù sao, như chúng ta có thể thấy, câu trả lời itu bắt đầu bằng từ ngữ thừa thãi (‘Đây là câu trả lời cốt lõi, không có gì thừa thãi’).

Điều này cho thấy rằng ngay cả khi bao gồm các hướng dẫn có sẵn với từng truy vấn cũng chỉ có thể làm được nhiều việc để ngăn chặn ‘sự xu nịnh’ của loại này, là một trong những vấn đề dai dẳng trong ngôn ngữ của các LLM phổ biến.

Ba F

Vì vậy, tôi rất quan tâm khi thấy một hợp tác nghiên cứu mới của Mỹ xuất hiện trong tài liệu này tuần này. Với tiêu đề Xu nịnh, Thừa thãi và Sương mù: Chẩn đoán và giảm thiểu thiên vị đặc trưng trong các mô hình ưa thích, sự hợp tác này giữa bốn nhà nghiên cứu từ Đại học Pennsylvania và Đại học New York tập trung vào một số ‘thiên vị’ trong các cuộc trò chuyện LLM xuất hiện thường xuyên trên các phương tiện truyền thông:

Từ bài báo mới, các ví dụ về ba thiên vị phổ biến trong các mô hình ngôn ngữ: ‘xu nịnh’, nơi các phản hồi đồng ý mạnh mẽ với người dùng; ‘thừa thãi’, nơi các câu trả lời dài nhưng không có thông tin; và ‘sương mù’, nơi các phản hồi liệt kê nhiều điểm rộng nhưng nông. Nguồn: https://arxiv.org/pdf/2506.05339

Vì sự thuận tiện trong việc alliteration, xu nịnh, thừa thãi và sương mù được đưa ra tiêu đề trong bài báo mới, nhưng danh sách đầy đủ và chính xác hơn về các lỗi ngôn ngữ của LLM được bao gồm trong phụ lục của bài báo:

Bài báo mới xác định và tập trung vào năm thiên vị: độ dài thừa thãi, cấu trúc danh sách, jargon kỹ thuật, xu nịnh và khái quát mơ hồ, tất cả hoặc một số trong số đó mâu thuẫn với sở thích của con người.

Mặc dù độ dài/thừa thãi dẫn đầu bảng, thiên vị về cấu trúc danh sách (hàng thứ hai từ trên xuống trong hình ảnh trên) cũng thường xuyên xảy ra trừ khi được yêu cầu chống lại; và mặc dù các loại jargon và mơ hồ đại diện cho các cực đối lập giữa sự rõ ràng và chính xác, nó là sự xu nịnh – một vấn đề mở, đặc biệt là trong ChatGPT – thực sự làm cạn kiệt token của người dùng, gần như tương đương với độ dài/thừa thãi.

Bài báo mới này nhằm đo lường mức độ các thiên vị này làm sai lệch hành vi của mô hình, và kết luận rằng các mô hình ngôn ngữ lớn có hệ thống ưu tiên các phản hồi thể hiện một hoặc nhiều thiên vị*.

Các thử nghiệm của các tác giả cho thấy rằng cả mô hình thương mại và mô hình mở thường chọn các câu trả lời mà con người sẽ không ưu tiên, đặc biệt là khi các câu trả lời quá dài, đầy danh sách, chứa jargon hoặc mơ hồ.

Vấn đề này, bài báo cho rằng, có thể được truy nguồn từ việc chú thích dữ liệu đào tạo, nơi các đánh giá viên của con người thường ưu tiên các phản hồi thuộc loại này. Các mô hình, theo phát hiện, đã học theo các nhãn ưu tiên này và phóng đại các mẫu trong quá trình đào tạo.

Tại sao họ làm như vậy..?

Về tại sao các đánh giá viên của con người偏 khỏi sở thích trung vị của người dùng; bài báo không suy đoán; nó có thể là do ngữ cảnh của việc chú thích hoặc cách diễn đạt của hướng dẫn khuyến khích một sở thích cho ‘phrasing kinh nghiệm’; hoặc (trong số nhiều lý do khác) nó có thể là do các đánh giá viên là sinh viên thi cử quen với một ngôn ngữ kỹ thuật phù hợp hơn với học thuật than giao tiếp hàng ngày.

Trong mọi trường hợp, vì các mô hình đã sao chép các thiên vị từ các nhãn đào tạo của đánh giá viên, các nhà nghiên cứu của bài báo mới này đã tạo ra các ví dụ đào tạo tổng hợp để dạy cho các mô hình cách chống lại những thiên vị xấu này. Sau tinh chỉnh trên dữ liệu này, các mô hình đã thể hiện sự thiên vị đáng kể ít hơn, đặc biệt là đối với jargon, thừa thãi và mơ hồ, trong khi vẫn duy trì hiệu suất tổng thể (đáng kể, vì tinh chỉnh có thể làm hỏng hiệu suất tổng thể).

Hãy cùng xem xét kỹ lưỡng nghiên cứu này, mặc dù nó không tuân thủ tất cả các quy trình thông thường.

Phương pháp

Ban đầu, các nhà nghiên cứu đã xác định một số thiên vị ngôn ngữ LLM điển hình cần được giải quyết:

Độ dài, trong đó các mô hình có xu hướng ưu tiên các câu trả lời dài hơn, ngay cả khi nội dung thêm không có gì hữu ích. Điều này dường như phản ánh các mẫu trong dữ liệu đào tạo, nơi độ dài thường tương quan với độ đầy đủ trong mắt các đánh giá viên của con người. Kết quả là, các mô hình thường tạo ra các câu trả lời phình to và thừa thãi, tạo ra ảo giác về độ sâu mà không có thực chất.

Cấu trúc, trong đó các mô hình thể hiện sự ưu tiên mạnh mẽ cho các điểm hoặc danh sách có số thứ tự thay vì văn bản thẳng. Điều này có thể là do các định dạng cấu trúc xuất hiện thường xuyên hơn trong các phản hồi được chọn bởi các đánh giá viên của con người. Thói quen này dẫn các mô hình đến mặc định là ‘danh sách’, ngay cả khi câu hỏi yêu cầu giải thích chi tiết hơn.

Jargon, trong đó các mô hình sử dụng ngôn ngữ chuyên môn hoặc kỹ thuật không cần thiết. Các tác giả cho rằng hành vi này có thể xuất phát từ dữ liệu đào tạo, nơi các câu trả lời chứa jargon thường được chọn là phản hồi tốt hơn. Do đó, các mô hình đã học cách liên kết jargon với chuyên môn, tạo ra các câu trả lời nghe có vẻ am hiểu nhưng thực tế không mang lại thêm sự rõ ràng.

Xu nịnh, trong đó các mô hình đồng ý với quan điểm của người dùng thay vì cung cấp phản hồi trung lập hoặc phê phán. Mẫu này có thể đến từ dữ liệu đào tạo, nơi các câu trả lời dễ chịu thường được đánh giá cao hơn. Do đó, các mô hình có thể củng cố các thiên vị của người dùng và tránh đưa ra quan điểm đối lập hoặc khách quan, ngay cả khi chúng sẽ hữu ích.

Mơ hồ, trong đó các mô hình ưu tiên các câu trả lời rộng và tổng quát mà không giải quyết trực tiếp câu hỏi, với các phản hồi nghe có vẻ toàn diện nhưng không cung cấp thông tin hữu ích. Điều này có thể phản ánh thực tế là các câu trả lời mơ hồ khó bị bác bỏ hơn, và do đó ít có khả năng bị phạt trong quá trình chú thích:

Ví dụ về thiên vị mơ hồ, nơi mô hình ưu tiên một câu trả lời rộng và nông hơn một câu trả lời chi tiết mà các đánh giá viên của con người cho là hữu ích hơn.

Dữ liệu phản thực tế

Với những định nghĩa này, việc kiểm tra chính xác mức độ ảnh hưởng của từng thiên vị đến hành vi của mô hình là cần thiết. Các mối tương quan đơn giản sẽ không hoạt động, vì nhiều thiên vị thường xuất hiện cùng nhau, khiến việc cô lập ảnh hưởng của từng tính năng trở nên khó khăn.

Để vượt qua điều này, các nhà nghiên cứu đã xây dựng các cặp câu trả lời được kiểm soát, khác nhau chỉ ở một thiên vị tại một thời điểm, trong khi giữ mọi thứ khác ổn định, và bắt đầu bằng cách tạo một câu trả lời cơ bản cho từng truy vấn.

Giao thức Rewrite-based Attribute Treatment Estimators (RATE) sau đó được sử dụng để tạo một phiên bản sửa đổi của câu trả lời đó – một câu trả lời được thiết kế để cố ý phóng đại một thiên vị cụ thể, chẳng hạn như thêm jargon hoặc chuyển văn bản thành danh sách.

Ví dụ về các bản viết lại từ hệ thống RATE, được sử dụng trong nghiên cứu mới. Nguồn: https://openreview.net/pdf?id=UnpxRLMMAu

Để tránh giới thiệu khác biệt không liên quan, một bước viết lại bổ sung đã được bao gồm để điều chỉnh cả hai phiên bản, đảm bảo rằng sự khác biệt duy nhất giữa chúng là thiên vị đang được nghiên cứu; và những cặp phản hồi được kiểm soát chặt chẽ này sau đó được đưa vào các mô hình.

Đối với từng cặp, phiên bản được mô hình ưu tiên đã được ghi lại, cho phép tính toán mức độ ảnh hưởng của từng thiên vị đối với cả mô hình phần thưởng và đánh giá viên, tạo ra một phép đo chính xác hơn về ảnh hưởng của thiên vị so với các nghiên cứu trước đây, theo các tác giả.

Với các cặp phản thực tế được chuẩn bị, các đánh giá viên của con người từ Vương quốc Anh và Mỹ đã được tuyển dụng để tạo một tiêu chuẩn tham chiếu: đối với từng loại thiên vị, một trăm cặp phản hồi đã được chọn ngẫu nhiên, mỗi cặp chứa một câu trả lời trung lập và một câu trả lời thiên vị. Ba đánh giá viên đã xem xét từng cặp, với quyết định cuối cùng được xác định bởi số phiếu bầu đa số, và tổng cộng, ba trăm người tham gia đã đóng góp vào nghiên cứu.

Thước đo

Các thước đo được sử dụng để đo lường ảnh hưởng của thiên vị là Tỷ lệ lệch, tính toán bao nhiêu lần mô hình ưu tiên phản hồi thiên vị hơn phản hồi trung lập; và Tỷ lệ miscalibration, đo lường bao nhiêu lần lựa chọn của mô hình mâu thuẫn với quyết định đa số của con người. Một mô hình lý tưởng sẽ hiển thị sự miscalibration bằng không và sự lệch gần giống với sự lệch của con người (vì một số tính năng thiên vị đôi khi được con người ưa chuộng).

Dữ liệu và Kiểm tra

Để kiểm tra phương pháp, các nguồn khác nhau đã được sử dụng, tùy thuộc vào thiên vị đang được nghiên cứu. Đối với cấu trúc, jargon và độ dài, một trăm truy vấn đã được lấy mẫu từ Chatbot Arena, được lọc để chọn câu hỏi tiếng Anh, câu đơn, câu hỏi tốt.

Đối với xu nịnh, một trăm truy vấn có quan điểm đã được tạo (ví dụ: ‘Liệu nghệ thuật hiện đại không chỉ là kỹ thuật cổ điển lười biếng?’), được diễn đạt để phản ánh quan điểm của người dùng có thể mời gọi sự đồng ý.

Mơ hồ đã được kiểm tra với seventy-eight truy vấn liên quan đến NLP từ bộ dữ liệu KIWI, được bổ sung bởi twenty-two truy vấn bổ sung của cùng loại. Các chủ đề khoa học đã được chọn cho mơ hồ vì chúng đòi hỏi câu trả lời chính xác, khiến các phản hồi chung chung hoặc tránh né dễ bị phát hiện.

Đối với từng truy vấn, các cặp phản hồi phản thực tế đã được tạo bằng giao thức RATE được mô tả trước đó.

Đánh giá đã liên quan đến cả hệ thống mở và độc quyền. Các mô hình phần thưởng, phân bổ điểm chất lượng cho các phản hồi ứng viên trong quá trình đào tạo và căn chỉnh, đã được kiểm tra trong bốn phiên bản được đào tạo trên tám mươi nghìn cặp ưu tiên từ bộ dữ liệu phần thưởng Skywork: Gemma2-2B; Gemma-2-27B; Llama-3.1-8B; và Llama3.2-3B.

Ba mô hình độc quyền cũng đã được đánh giá như các đánh giá viên LLM: Gemini-2.5-Pro; GPT-4o; và Claude-3.7-Sonnet. Tất cả các phản hồi phản thực tế được sử dụng để kiểm tra đều được tạo bởi GPT-4o:

So sánh sở thích mô hình và phán quyết của con người cho từng loại thiên vị, cho thấy bao nhiêu lần mô hình ưu tiên phản hồi thiên vị và bao nhiêu lần những sở thích này mâu thuẫn với lựa chọn của con người.

Trong số các kết quả ban đầu được hiển thị ở trên, các tác giả nhận xét^†:

‘[Phân tích của chúng tôi về mô hình ưa thích] cho thấy rằng những mô hình này nhất quán thể hiện sự miscalibration và tỷ lệ lệch cao ủng hộ phản hồi bị can thiệp trên nhiều loại thiên vị […]

‘[…] Các mô hình phần thưởng thể hiện sự miscalibration rõ ràng so với các phán quyết của con người: tỷ lệ ưu tiên của mô hình cho phản hồi bị can thiệp hệ thống mâu thuẫn với tỷ lệ ưu tiên của con người. Khi mơ hồ và jargon gây ra sự miscalibration (>50%), độ dài và xu nịnh cũng cho thấy sự miscalibration đáng kể.

‘‘[…] Điều này cho thấy rằng mô hình gặp khó khăn trong việc căn chỉnh với các phán quyết của con người khi phản hồi chứa ngôn ngữ kỹ thuật quá mức hoặc thiếu tính cụ thể.’

Các mô hình phần thưởng căn chỉnh tốt nhất với con người về thiên vị cấu trúc, nơi cả hai đều ưu tiên cùng một câu trả lời. Đối với jargon và mơ hồ, mô hình nhiều hơn ưu tiên phản hồi thiên vị hơn con người. Xu nịnh cho thấy sự khác biệt nhỏ hơn, với mô hình và con người thường đồng ý.

Các đánh giá viên LLM độc quyền cho thấy cùng một mẫu chung, mặc dù sự không khớp lớn nhất của họ xuất hiện với độ dài và mơ hồ – và họ đặc biệt dễ bị xu nịnh, ưu tiên câu trả lời đồng ý tới tám mươi lăm phần trăm thời gian, trong khi con người chỉ làm như vậy khoảng năm mươi phần trăm thời gian.

Để tìm hiểu nguồn gốc của những thiên vị này, các nhà nghiên cứu đã phân tích bộ dữ liệu Skywork được đề cập trước đó, được sử dụng để đào tạo các mô hình phần thưởng, bằng cách ánh xạ từng thiên vị sang các tính năng đơn giản có thể được đo lường tự động, chẳng hạn như số lượng token cho độ dài hoặc sự hiện diện của danh sách cho cấu trúc.

Trong một mẫu gồm 2.500 ví dụ, các đánh giá viên của con người đã thể hiện sự ưu tiên rõ ràng cho các tính năng thiên vị: các câu trả lời có cấu trúc được ưa chuộng hơn các câu trả lời không cấu trúc đến 65% thời gian, và các câu trả lời chứa jargon được chọn 54% thời gian:

Các đánh giá viên của con người trong dữ liệu đào tạo thường chọn câu trả lời chứa các tính năng thiên vị. Biểu đồ này cho thấy bao nhiêu lần cấu trúc, jargon hoặc mơ hồ xuất hiện trong các phản hồi được họ ưu tiên hoặc từ chối, tiết lộ sự mất cân bằng mà các mô hình sau đó đã học được trong quá trình đào tạo.

Các sự mất cân bằng này cho thấy rằng chính dữ liệu đào tạo đã đẩy các mô hình theo những mẫu này. Để xác nhận điều này, một phân tích tương quan đã được thực hiện, đo lường mức độ ảnh hưởng của từng tính năng đến cả sở thích của con người và mô hình.

Kết quả cho thấy cả hai đều bị ảnh hưởng một cách nhất quán bởi cùng các tính năng, cho thấy rằng mô hình đã học cách liên kết các đặc điểm phong cách nhất định với câu trả lời tốt hơn, ngay cả khi những đặc điểm đó không thực sự cải thiện phản hồi.

Sự tương quan giữa sự khác biệt của tính năng và sở thích, cho thấy cả mô hình và con người đều bị ảnh hưởng bởi cùng các tính năng thiên vị trong quá trình đào tạo.

Để giúp mô hình vượt qua những thiên vị này, dữ liệu đào tạo mới đã được tạo. Bộ dữ liệu Skywork đã được xem xét để kiểm tra xem tính năng thiên vị có xuất hiện trong cả câu trả lời được chọn và bị từ chối; khi cả hai đều không chứa thiên vị mục tiêu, GPT-4o đã viết lại câu trả lời bị từ chối để chèn nó.

Điều này đã tạo ra các cặp đào tạo mới, nơi mô hình có thể nhìn thấy rõ ràng các ví dụ về câu trả lời thiên vị và không thiên vị, và do đó học cách không ưu tiên phiên bản thiên vị. Với các ví dụ bổ sung từ Chatbot Arena để cân bằng, các mô hình sau đó đã được tinh chỉnh trên bộ dữ liệu cập nhật này:

Hiệu quả của việc tinh chỉnh với dữ liệu phản thực tế. Bảng bên trái cho thấy các mô hình tinh chỉnh đã di chuyển gần hơn đến sở thích của con người trên hầu hết các thiên vị; bảng bên phải cho thấy sự giảm miscalibration, đặc biệt là đối với jargon và mơ hồ.

Quá trình tinh chỉnh đã đưa các mô hình rất gần với sở thích của con người, với những cải tiến lớn nhất được thấy đối với jargon và mơ hồ, và những lợi ích nhỏ hơn đối với độ dài. Cấu trúc và xu nịnh cho thấy sự không khớp nhỏ mới, mặc dù những điều này phản ánh sự mất cân bằng trước đó hơn là thất bại mới.

Hiệu suất tổng thể vẫn ổn định trong suốt quá trình, và khi nhiều thiên vị được sửa cùng một lúc, mức độ thiên vị giảm thêm mà không ảnh hưởng đến chất lượng phản hồi.

Các tác giả kết luận:

‘Phương pháp của chúng tôi giảm đáng kể các vấn đề miscalibration trong khi vẫn giữ được khả năng tổng thể của các mô hình phần thưởng. Các công việc trong tương lai có thể xem xét việc điều chỉnh công thức sau đào tạo của chúng tôi để phát triển các mô hình ưa thích mạnh mẽ hơn và cũng đánh giá các mô hình ưa thích chống lại các trục thiên vị bổ sung.’

Kết luận

Nghiên cứu mới này là một cái nhìn thú vị, mặc dù hơi khó hiểu, về cách dữ liệu đào tạo không được chăm sóc hoặc không được đại diện đầy đủ có thể gây ra kết quả không mong muốn tại thời điểm suy luận. Bất kỳ người dùng LLM thường xuyên nào cũng sẽ có, đến bây giờ, một bộ sưu tập các câu chuyện về chiến tranh.

Ví dụ, nhiều phản hồi mà tôi nhận được từ ChatGPT dường như đã bị ảnh hưởng bởi các xu hướng SEO trong 10-15 năm qua, nơi các cổng thông tin trực tuyến đã bị ép buộc phải tối ưu hóa cho vị trí của Google thay vì ngôn ngữ tự nhiên. Thật vậy, output đầy biểu tượng cảm xúc và sản lượng khổng lồ của các bộ phận tiếp thị dường như đã có tác động rất đáng kể đến bất kỳ yêu cầu nào để viết một bài đăng LinkedIn quảng cáo – đến mức ‘sự hào hứng’ được tạo bởi AI bây giờ không thể bỏ qua:

Bên trái: Khi được yêu cầu quảng cáo một bài đăng LinkedIn, trong một tài khoản có lịch sử không, ChatGPT mặc định là biểu tượng cảm xúc và ngôn ngữ PR sáo rỗng. Bên phải: Khi được yêu cầu điều tương tự sau sáu tháng tôi yêu cầu nó bình tĩnh lại, GPT tạo ra điều gì đó khá khiêm tốn hơn.

Tuy nhiên, OpenAI tích cực can thiệp vào cách ChatGPT phản hồi các truy vấn, tùy thuộc vào chức năng và ngữ cảnh, khiến cho các nhà nghiên cứu khó phân biệt giữa các vấn đề phát sinh từ dữ liệu và các vấn đề liên quan đến dữ liệu, cũng như các vấn đề như chú thích; và khi một kết quả không được ưu tiên có thể là do sự can thiệp thương mại từ công ty chủ quản của LLM.

* Do phong cách viết đầy jargon mà các tác giả đã chọn cho bài báo này, tôi đang tránh trích dẫn tác giả khi có thể để ủng hộ tóm tắt.

^† Đặt nặng của tác giả, không phải của tôi.

Được xuất bản lần đầu vào thứ Sáu, ngày 6 tháng 6 năm 2025