Góc nhìn Anderson

Sự giảm độ dài câu giúp tăng độ chính xác trong các mô hình ngôn ngữ lớn

mm
AI-generated image of a man literally up to his neck in printed verbiage. GPT-1.5.

Nghiên cứu mới cho thấy rằng việc buộc các mô hình ngôn ngữ lớn phải đưa ra câu trả lời ngắn hơn đáng kể cải thiện độ chính xác và chất lượng của câu trả lời.

 

Bất kỳ ai đã từng cố gắng ngăn chặn một chương trình trò chuyện từ “nói dài dòng” sẽ nhận ra kết luận của nghiên cứu mới này: buộc AI đưa ra câu trả lời ngắn hơn làm cho nó chính xác hơn.

Khi điều tra lý do tại sao các mô hình ngôn ngữ lớn hơn lại hoạt động kém hơn trong một số trường hợp (được gọi là inverse scaling), nghiên cứu đã tìm thấy rằng việc buộc 31 mô hình ngôn ngữ lớn phổ biến phải đưa ra câu trả lời ngắn hơn dẫn đến sự cải thiện lên đến 26,3% trong độ chính xác của câu trả lời:

‘Kết quả cung cấp bằng chứng nhân quả thuyết phục: các ràng buộc về độ dài cải thiện độ chính xác của mô hình lớn bằng 26,3 điểm phần trăm và giảm khoảng cách nghịch đảo bằng 67% (từ 44,2% đến 14,8%, kiểm tra t kết hợp: t = 7,80, p < 0,0001).'

Sự dài dòng quá mức là một khiếu nại thường gặp ở người dùng cuối, không chỉ những người sử dụng mô hình thương mại như ChatGPT, nơi các diễn đàn hỗ trợ đặc trưng chủ đề này thường xuyên.

Lĩnh vực bị ảnh hưởng nhiều nhất bởi việc khắc phục sự dài dòng trong câu trả lời là toán học, nơi các mô hình AI được kiểm tra bị giới hạn ở 50 từ hoặc ít hơn. Đối với đọc hiểu nhiệm vụ, chúng bị giới hạn ở 10 từ trong câu trả lời.

Giấy tờ định nghĩa xu hướng của AI đối với sự dài dòng là suy nghĩ quá mức, nơi thông điệp trung tâm không chỉ bị che khuất bởi từ ngữ, mà đôi khi thậm chí bị ảnh hưởng tiêu cực bởi nó. Mô hình càng nhỏ, giấy tờ quan sát, thì sự khắc phục này càng ít cần thiết, hoặc hoạt động.

Nghiên cứu kết luận rằng không có gì kiến trúc cần được giải quyết để áp dụng giải pháp này một cách hệ thống. Tuy nhiên, trong một phiên trò chuyện của người dùng, một chỉ thị về sự ngắn gọn có thể cần lặp lại, trong khi một lời nhắc hệ thống toàn cầu – sẽ cần được thực hiện như một mặc định kỹ thuật trên các nền tảng như ChatGPT – có thể làm cho câu trả lời ngắn trở thành hành vi mặc định.

Giông gió

Không có gì trong số này giải thích chính xác tại sao các mô hình lớn hơn có xu hướng dài dòng, vì đây là điều ảnh hưởng đến các mô hình mã nguồn mở cũng như vậy. Giấy tờ đề xuất rằng các giao thức và thực hành chung trong các kỹ thuật Học tăng cường từ Phản hồi của Con người (RLHF) có thể cung cấp một lời giải thích*:

‘Một nguồn gốc có thể là đào tạo RLHF, nơi các nhà chú thích con người thưởng quá mức sự đầy đủ trong các mô hình lớn hơn với khả năng hành động trên tín hiệu phần thưởng về độ dài – phù hợp với sự khác biệt về độ dài dòng là lớn hơn trong các biến thể mô hình được điều chỉnh theo hướng dẫn so với mô hình cơ sở.

‘Công việc trước đó ghi lại sự thiên vị về độ dài có hệ thống trong phương pháp phương pháp, nơi các nhà chú thích kết hợp độ dài với chất lượng.

‘Các mô hình lớn hơn, có khả năng thỏa mãn tín hiệu phần thưởng về độ dài, có thể nội hóa việc tạo ra dài dòng sâu sắc hơn so với các mô hình nhỏ hơn, tạo ra sự suy nghĩ quá mức phụ thuộc vào quy mô mà chúng tôi quan sát.’

Ở con người, sự dài dòng có thể xảy ra để lấp đầy sự im lặng, hoặc để che giấu cảm giác khó xử, vì bệnh tâm thần, hoặc để che giấu sự thiếu kiến thức. Về hiệu ứng, một mô hình AI chỉ có thể bị ảnh hưởng bởi những yếu tố này thông qua việc hấp thụ dữ liệu đào tạo phản ánh / thể hiện những đặc điểm này.

Trong các tập dữ liệu, có những động lực khác để tạo ra câu trả lời dài dòng, chẳng hạn như động lực SEO để tạo ra nội dung văn bản dài hơn, ví dụ trong các bài đăng công thức, nơi độ dài trở nên (thường là sai lầm) gắn liền với thẩm quyền.

Điều không thể bị loại bỏ hoàn toàn là rằng các nền tảng dựa trên API, được khuyến khích để đẩy người dùng đến một cấp độ đăng ký cao hơn và đắt tiền hơn, có thể khuyến khích hoặc không giám sát sự dài dòng, vì nó tăng sử dụng token khá rẻ, mà không cần lý do quá mức hoặc gọi RAG.

Giấy tờ nghiên cứu mới mới có tiêu đề Ràng buộc về độ ngắn gọn đảo ngược các thứ hạng hiệu suất trong các mô hình ngôn ngữ, và đến từ Bộ phận Khoa học Máy tính tại Viện Bách khoa Thụy Điển ở Chattogram, Bangladesh.

Phương pháp

Để kiểm tra các lý thuyết của giấy tờ, 31 mô hình ngôn ngữ đã được đánh giá – quá nhiều để liệt kê ở đây, nhưng được mô tả trong hình ảnh dưới đây:

Các mô hình ngôn ngữ lớn (LLM) được kiểm tra trong các phần khác nhau của các thử nghiệm cho giấy tờ mới.

Các mô hình ngôn ngữ lớn (LLM) được kiểm tra trong các phần khác nhau của các thử nghiệm cho giấy tờ mới.

Các mô hình đã được đánh giá chống lại năm bộ sưu tập chuẩn mực: GSM8K, cho lý luận toán học; BoolQ, cho đọc hiểu; CommonsenseQA, cho lý luận thông thường; ARC-Easy, bao gồm các câu hỏi khoa học; và MMLU-STEM, cũng cho kiến thức khoa học.

Các câu trả lời được tạo ra bằng cách sử dụng giải mã tham lam để đảm bảo đầu ra xác định, sau đó được trích xuất bằng các quy tắc cụ thể cho từng nhiệm vụ, với độ chính xác được đo lường như tỷ lệ phần trăm của các câu trả lời chính xác so với đúng sự thật.

Các mô hình được chia theo kích thước, với những mô hình có kích thước từ 10 tỷ tham số trở xuống được coi là “nhỏ”, và những mô hình trên 70 tỷ tham số được coi là “lớn”, dựa trên các khoảng cách hiệu suất quan sát được.

Sự đảo ngược tỷ lệ được lượng hóa bằng cách so sánh hiệu suất của các nhóm này trên mỗi vấn đề, đánh dấu các trường hợp mà các mô hình nhỏ hơn hoạt động tốt hơn các mô hình lớn hơn; kích thước hiệu ứng thống kê sau đó được sử dụng để xác nhận rằng những khoảng cách này phản ánh sự khác biệt có ý nghĩa và nhất quán, chứ không phải là tiếng ồn.

Loại bỏ khả năng nhớ lại

Để loại bỏ khả năng rằng các mô hình chỉ đơn giản là nhớ lại dữ liệu đào tạo, ba kiểm tra riêng biệt đã được thực hiện, kiểm tra cách đa dạng các câu trả lời; cách độ dài của chúng thay đổi; và cách các lỗi được thực hiện. Nếu các mô hình dựa vào các mẫu đã nhớ, các câu trả lời sẽ có xu hướng lặp lại hoặc theo các mẫu cố định; thay vào đó, các câu trả lời đã chứng minh hầu như là duy nhất trên các mô hình, với sự thay đổi đáng chú ý về độ dài, từ một câu trả lời này sang câu trả lời khác.

Các lỗi cũng được kiểm tra trực tiếp, với hầu hết các lỗi là giải thích dài và không chính xác, chứ không phải là câu trả lời ngắn và evasively – chỉ ra rằng các mô hình đang tạo ra lý luận thực sự, chứ không phải là trả lại các câu trả lời được lưu trữ.

Dữ liệu và thử nghiệm

Khi kiểm tra các câu hỏi riêng lẻ chứ không phải là điểm số tiêu đề, một tỷ lệ lớn các nhiệm vụ chuẩn mực đã chứng minh không có thông tin, với 27,1% không thể phân biệt giữa các mô hình ở tất cả vì mọi hệ thống đều thành công hoặc mọi hệ thống đều thất bại, không có tín hiệu thực sự về hiệu suất tương đối:

Phân tích cấp độ vấn đề trên năm chuẩn mực cho thấy một tỷ lệ đáng kể các nhiệm đề không thể phân biệt giữa các mô hình, trong khi một phần nhỏ nhưng nhất quán cho thấy sự đảo ngược tỷ lệ, nơi các mô hình nhỏ hơn hoạt động tốt hơn các mô hình lớn hơn. Phân phối tổng thể trên 1.485 vấn đề cho thấy 7,7% thể hiện sự đảo ngược tỷ lệ.

Phân tích cấp độ vấn đề trên năm chuẩn mực cho thấy một tỷ lệ đáng kể các nhiệm đề không thể phân biệt giữa các mô hình, trong khi một phần nhỏ nhưng nhất quán cho thấy sự đảo ngược tỷ lệ, nơi các mô hình nhỏ hơn hoạt động tốt hơn các mô hình lớn hơn. Phân phối tổng thể trên 1.485 vấn đề cho thấy 7,7% thể hiện sự đảo ngược tỷ lệ. Nguồn

Trong số các câu hỏi đã phân biệt giữa các mô hình, hầu hết đều hoạt động như mong đợi, với các hệ thống lớn hơn hoạt động tốt hơn, nhưng một nhóm nhỏ cho thấy mô hình ngược lại, với các mô hình nhỏ hơn hoạt động tốt hơn. Trong tất cả các vấn đề, sự đảo ngược tỷ lệ xuất hiện ở 7,7% các trường hợp, cho thấy rằng hiệu ứng này không phải là một hiện tượng biên hoặc ngoại vi.

Hiện tượng tỷ lệ nghịch

Trong năm chuẩn mực, 115 vấn đề đã được tìm thấy nơi các mô hình nhỏ hơn hoạt động tốt hơn các mô hình lớn hơn, chiếm 7,7% tất cả các vấn đề 1.485, cho thấy rằng sự tỷ lệ nghịch không phải là một hiện tượng hiếm hoặc ngoại vi trong bối cảnh này.

Trên thực tế, hiệu ứng này đã xuất hiện ở mọi tập dữ liệu: mạnh nhất trong BoolQ, và yếu hơn trong CommonsenseQA, ARC-Easy, GSM8K và MMLU-STEM, cho thấy rằng nó là phổ biến, nhưng thay đổi theo nhiệm vụ:

Sự tỷ lệ nghịch xuất hiện trên tất cả các chuẩn mực, từ 3,9% trong MMLU-STEM đến 11,3% trong BoolQ, với 115 vấn đề tổng cộng. Các khoảng cách hiệu suất ủng hộ các mô hình nhỏ hơn với trung bình 28,4 điểm phần trăm. Độ chính xác giảm khi kích thước mô hình tăng, với mô hình nhỏ đạt 66,1%, so với 41,5% đối với mô hình lớn hơn.

Sự tỷ lệ nghịch xuất hiện trên tất cả các chuẩn mực, từ 3,9% trong MMLU-STEM đến 11,3% trong BoolQ, với 115 vấn đề tổng cộng. Các khoảng cách hiệu suất ủng hộ các mô hình nhỏ hơn với trung bình 28,4 điểm phần trăm. Độ chính xác giảm khi kích thước mô hình tăng, với mô hình nhỏ đạt 66,1%, so với 41,5% đối với mô hình lớn hơn.

Kích thước của khoảng cách này đã chứng minh là đáng kể, với các mô hình nhỏ hơn dẫn đầu với trung bình 28,4 điểm phần trăm, và mọi trường hợp đều cho thấy cùng một hướng lợi thế, chỉ ra một sự giảm hiệu suất nhất quán, chứ không phải là lỗi ngẫu nhiên hoặc ad hoc.

Cùng một mô hình đã giữ trên các họ mô hình khác nhau, bao gồm Llama, Qwen, GemmaMistral, nơi các phiên bản lớn hơn hoạt động kém hơn các phiên bản nhỏ hơn, với độ chính xác có xu hướng giảm khi kích thước mô hình tăng trên các vấn đề này.

Khoảng cách giữa các mô hình nhỏ và lớn là đủ lớn để cơ hội có thể không giải thích được; và vì cùng một mô hình đã xuất hiện trên các chuẩn mực, nhiệm vụ và họ mô hình khác nhau, sự tỷ lệ nghịch đã xuất hiện như một hiệu ứng nhất quán chứ không phải là một hiệu ứng ngẫu nhiên.

Khi nhìn vào từng họ mô hình, các phiên bản lớn hơn đã hoạt động kém hơn các phiên bản nhỏ hơn trên các vấn đề này, cho thấy rằng sự suy giảm có thể liên quan đến quy mô bản thân, chứ không phải là sự khác biệt về thiết kế.

Kết quả cũng cho thấy một giới hạn cho từng nhiệm vụ, nơi việc tăng kích thước mô hình bắt đầu làm tổn hại hiệu suất, cho thấy rằng các mô hình lớn hơn không phải lúc nào cũng dẫn đến kết quả tốt hơn.

Kiểm tra sự suy nghĩ quá mức

Sau khi thiết lập rằng các mô hình lớn hơn đôi khi hoạt động kém hơn trên một số lĩnh vực, phân tích đã chuyển sang lý do tại sao điều này xảy ra, đề xuất rằng vấn đề không phải là thiếu khả năng, mà là quá nhiều giải thích – tức là, các trường hợp mà các câu trả lời dài hơn bắt đầu che khuất lý luận chính xác.

Trong toàn bộ dữ liệu, các câu trả lời dài hơn đã được liên kết với độ chính xác thấp hơn trên các vấn đề khó khăn này, mặc dù các mô hình lớn và nhỏ đã tạo ra số lượng bước lý luận tương tự, cho thấy rằng vấn đề không phải là số lượng lý luận được thực hiện, mà là cách nó được thể hiện:

Các câu trả lời ngắn hơn đã cải thiện hiệu suất của mô hình lớn và giảm khoảng cách với các mô hình nhỏ hơn, cắt giảm sự khác biệt từ 44,2 điểm phần trăm đến 14,8 (và trong một số trường hợp đảo ngược hoàn toàn), trong khi các định dạng câu trả lời trực tiếp đã thu hẹp khoảng cách này thêm. Các lợi ích mạnh nhất đã xuất hiện trong GSM8K và MMLU-STEM, nơi các xếp hạng đã đảo ngược để ủng hộ các mô hình lớn hơn, và các kiểm tra độ dài câu trả lời đã xác nhận rằng can thiệp đã hoạt động, với đầu ra giảm từ khoảng 197 token xuống dưới 80, liên kết sự giảm độ dài dòng với độ chính xác cải thiện.

Các câu trả lời ngắn hơn đã cải thiện hiệu suất của mô hình lớn và giảm khoảng cách với các mô hình nhỏ hơn, cắt giảm sự khác biệt từ 44,2 điểm phần trăm đến 14,8 (và trong một số trường hợp đảo ngược hoàn toàn), trong khi các định dạng câu trả lời trực tiếp đã thu hẹp khoảng cách này thêm. Các lợi ích mạnh nhất đã xuất hiện trong GSM8K và MMLU-STEM, nơi các xếp hạng đã đảo ngược để ủng hộ các mô hình lớn hơn, và các kiểm tra độ dài câu trả lời đã xác nhận rằng can thiệp đã hoạt động, với đầu ra giảm từ khoảng 197 token xuống dưới 80, liên kết sự giảm độ dài dòng với độ chính xác cải thiện.

Khi các câu trả lời bị buộc phải ngắn hơn, các mô hình lớn đã cải thiện đáng kể, giảm một khoảng cách hiệu suất đáng kể, và trong một số trường hợp, gần như loại bỏ nó. Ngược lại, các mô hình nhỏ đã thay đổi rất ít, cho thấy rằng sự dài dòng đang tích cực gây hại cho các hệ thống lớn hơn.

Hiệu ứng này đã chứng minh là thay đổi theo nhiệm vụ, với một số chuẩn mực được hưởng lợi mạnh mẽ từ các câu trả lời ngắn hơn, và những chuẩn mực khác đòi hỏi một mức độ giải thích; nhưng trong một số trường hợp, xếp hạng giữa các mô hình nhỏ và lớn đã hoàn toàn đảo ngược khi sự dài dòng bị giới hạn, cho thấy rằng các mô hình lớn hơn đã có khả năng bị che khuất bởi sự dài dòng.

Phân tích thêm đã cho thấy rằng các mô hình lớn hơn có xu hướng tạo ra đầu ra dài hơn tổng thể, mặc dù sử dụng ít bước lý luận rõ ràng hơn, cho thấy một phong cách lý luận ít tập trung và ít cấu trúc hơn.

Ngược lại, các mô hình nhỏ hơn đã đưa ra câu trả lời ngắn hơn và trực tiếp hơn, cho thấy rằng cách lý luận được thể hiện, chứ không phải là số lượng lý luận, là nguyên nhân dẫn đến sự suy giảm hiệu suất.

Các tác giả kết luận rằng các ràng buộc về độ ngắn gọn mang lại lợi ích về độ chính xác, và xem xét rằng điều này có thể trở thành một tính năng cơ bản trong các mô hình ngôn ngữ, chứ không phải là một ràng buộc lặp lại và không tồn tại trên các phiên; và họ tuyên bố:

‘[Ràng buộc về độ ngắn gọn] giúp các mô hình lớn cải thiện đáng kể trong khi hầu như không ảnh hưởng đến các mô hình nhỏ.

‘Nếu sự dài dòng là thứ yếu chứ không phải là nguyên nhân, sự thay đổi độ chính xác đồng đều sẽ được dự kiến trên cả hai loại mô hình. Sự phản ứng khác biệt này xác nhận rằng sự suy nghĩ quá mức là một chế độ thất bại cụ thể của quy mô, chứ không phải là một hiệu ứng khó khăn của nhiệm vụ.’

Kết luận

Ngoài các phiên bản mã nguồn mở được các nhà nghiên cứu kiểm tra, vấn đề về sự dài dòng dường như xuất hiện với tần suất nhất định trên nhiều mô hình lớn khác ngoài ChatGPT, bao gồm Claude, GeminiGrok.

Liệu các nền tảng này có đang bỏ qua vấn đề về sự dài dòng vì nó tăng sử dụng token và khuyến khích chi tiêu cao hơn hay không, điều đó không có vẻ hợp lý khi họ chấp nhận sự suy giảm độ chính xác đi kèm với việc “nudge” này.

Nó sẽ rất thú vị khi xem liệu có phương pháp nào có thể xác định chắc chắn nơi xuất phát của xu hướng dài dòng. Bất kỳ ai đã từng cố gắng để một chương trình trò chuyện thực sự trò chuyện, thay vì đưa ra câu trả lời dài dòng và nhiều bước, sẽ nhận ra rằng mô hình đã bị ảnh hưởng nặng nề bởi các hướng dẫn và giải pháp “tất cả trong một” trong dữ liệu đào tạo của nó.

Nó sẽ rất thú vị khi xem liệu một mô hình được đào tạo cụ thể trên các cuộc trò chuyện từng bước có thể thực sự tránh được xu hướng dài dòng và tóm tắt. Tuy nhiên, dường như một số ràng buộc hoặc bộ lọc sẽ cần được đặt trên trọng số mà mô hình được đào tạo để đưa ra câu trả lời “đã quyết định”, để nó đào tạo trực tiếp trên tài liệu trước – về cơ bản, lý luận rõ ràng trong các cuộc trò chuyện từng bước.

Because dữ liệu phù hợp với loại này dường như sẽ rất hiếm, có lẽ cách duy nhất để tiến bộ với cách tiếp cận này sẽ là thông qua dữ liệu tổng hợp, nơi các kết luận cuối cùng “được tổng hợp” được chia nhỏ theo cách trò chuyện – một cách tương tự như các podcast AI của Google NotebookLM có thể diễn giải từ đầu vào văn bản thuần túy.

 

* Sự chuyển đổi của tôi từ các trích dẫn nội tuyến của tác giả thành các liên kết.

But let’s be honest, the shortfall between actual AI provision costs and subscription charges is currently so large that this would merely damage user-base reputation without solving the severe underlying economics of this phase of the ‘conversion’ and ‘convergence’ phase of AI.

Được xuất bản lần đầu vào Chủ nhật, ngày 5 tháng 4 năm 2026

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]