Connect with us

Các Mô Hình Trò Chuyện AI Có Thể Tăng Chi Phí Thông Qua Việc Nói Dài Line

Góc nhìn Anderson

Các Mô Hình Trò Chuyện AI Có Thể Tăng Chi Phí Thông Qua Việc Nói Dài Line

mm
AI-generated image: a salad full of chopped-up one-dollar bills. GPT-1, Firefly V3, et al.

Các mô hình trò chuyện AI phổ biến bí mật lãng phí một lượng lớn token trả phí trên những từ ngữ vô nghĩa. Các mô hình bị ảnh hưởng thực sự biết họ đang làm điều này, nhưng không thể ngừng lại.

 

Các Mô Hình Lý Luận Lớn (LRM) như ChatGPT-5 và Google Gemini tính phí nhiều hơn cho lý luận – đi qua một vấn đề bước từng bước, điều này sử dụng nhiều năng lực tính toán hơn so với việc chỉ dự đoán nhanh từ tiếp theo. Quá trình lý luận mô phỏng mất nhiều thời gian hơn và tốn kém hơn để chạy; do đó, người dùng cuối cùng phải trả tiền cho ‘thời gian suy nghĩ thêm’ đó.

Tuy nhiên, nếu bạn đã sử dụng một mô hình ngôn ngữ lớn (LLM) mới nhất gần đây, bạn có thể đã nhận thấy rằng phân bổ token của bạn thường được chi tiêu cho từ ngữ và các phần không cần thiết, thay vì tập trung vào việc giải quyết các vấn đề mà bạn đang đặt ra cho mô hình. Điều này có thể dưới dạng sycophancy quá mức, câu trả lời dài dòng và/hoặc thừa – hoặc thậm chí là một loại ‘nói dài line’, như thể AI đã bị bắt gặp và đang cố gắng nói nhanh để thoát khỏi một tình huống khó xử.

Tự nhiên, chúng ta sẽ thích rằng các LLM của chúng ta nên thừa nhận thất bại, theo dõi hoặc đề xuất các đường dẫn thay thế, hoặc yêu cầu làm rõ. Nhưng ngay cả việc nhận được một AI như vậy để thừa nhận rằng họ không biết một câu trả lời cũng là một thách thức đáng kể riêng biệt.

Trong khi đó, người dùng trên các cấp thấp hơn hoặc miễn phí có thể tìm thấy mình đã tiêu hết token của họ với tốc độ nhanh, bất kể các truy vấn và tương tác của họ có được nhắm mục tiêu hay tiết kiệm như thế nào, vì chính AI yêu thích nói; và trong trường hợp này, nói không phải là rẻ.

Salad Từ

Về ‘nói dài line’ được đề cập trước đó, một sự hợp tác học thuật mới đang cung cấp một lý do và một giải pháp, bằng cách đề xuất rằng các LLM có khả năng lý luận dễ bị lãng phí token của bạn khi chúng bị mắc kẹt trong một vòng lặp ‘salad từ’ – một trạng thái bối rối nơi quá trình lý luận bị mất trong các ngõ cụt mù quáng – trên tiền của bạn*.

Các nhà nghiên cứu đứng sau bài báo mới đã phát hiện ra rằng một phần đáng kể của token được xử lý trong một LLM điển hình bao gồm sự lặp lại và thừa – và rằng chính mô hình đường như hiểu rằng nó đang gặp rắc rối, mặc dù nó không thể ngừng lại vòng lặp tốn kém.

Bài báo tuyên bố:

‘Chúng tôi chỉ ra rằng một phần đáng kể của những token này là sự lặp lại vô nghĩa – những gì chúng tôi gọi là “salad từ” – mà làm cạn kiệt ngân sách giải mã mà không thêm giá trị. Thú vị, chúng tôi quan sát thấy rằng LRM tự nhận thức khi bị mắc kẹt trong những vòng lặp này: các trạng thái ẩn của <\n\n> token theo sau mỗi phần lý luận hiển thị các mẫu cho phép chúng tôi phát hiện hành vi salad từ theo thời gian thực qua một bộ phân loại tuyến tính đơn lớp.

‘Một khi được phát hiện, một đoạn cắt đơn giản được thêm vào bằng một lời nhắc tái tạo thẳng thắn cho ra những tiết kiệm đáng kể về độ dài với tổn thất chất lượng tối thiểu.’

Giải pháp được đề xuất bởi công việc mới là một can thiệp có thể cắt ngắn quá trình lý luận sai của một LLM trong thời gian thực, mà không cần dữ liệu đào tạo, hoặc bất kỳ thiệt hại nào có thể phát sinh từ điều chỉnh tốt. Khung khổ, có tên WordSaladChopper, đã được công bố công khai trên GitHub.

Mặc dù công việc ban đầu tập trung DeepSeek các biến thể như các mục trong loạt Qwen và Llama, bài báo khẳng định rằng hành vi không mong muốn này có thể áp dụng cho một phạm vi rộng lớn hơn của các mô hình lý luận tương tự (bao gồm cả các dịch vụ API phổ biến như ChatGPT và Google Gemini).

Khi bài báo lưu ý, các đề xuất trước đó như Demystifying Long Chain-of-Thought Reasoning in LLMsSmall Models Struggle to Learn from Strong Reasoners cũng sử dụng số lượng nhỏ các mô hình lý luận Chain-of-Thought (CoT) công khai có sẵn để thiết lập một vấn đề rộng hơn trong lớp mô hình này:

[LRM] có xu hướng lãng phí một lượng khổng lồ ngân sách giải mã, chỉ bằng cách lặp lại chính mình từ verbatim, với các biến thể nhỏ, hoặc tham gia vào việc liệt kê vô tận các trường hợp cho đến khi tất cả ngân sách đã được [chi tiêu] – chúng tôi gọi hành vi này là Salad Từ, một thuật ngữ thường được sử dụng để mô tả các phát ngôn viên công khai đưa ra những phản hồi dài dòng, đầy jargon, nhưng cuối cùng không có ý nghĩa hoặc nội dung rõ ràng.

‘Cột “Original” trong [bảng dưới đây’] cho thấy rằng khi trả lời GPQA-Diamond, chúng tôi quan sát thấy 55%+ token được tạo ra bởi mô hình DeepSeek-R1-Distill là token “salad từ”, nơi chúng không thêm giá trị từ góc độ ngữ nghĩa.’

… (Content continues)

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]