Trí tuệ nhân tạo
Thúc đẩy sự liên kết giữa AI với các giá trị con người thông qua WARM

Sự liên kết của hệ thống AI với các giá trị con người
Các hệ thống trí tuệ nhân tạo (AI) ngày càng có khả năng hỗ trợ con người trong các nhiệm vụ phức tạp, từ chatbot dịch vụ khách hàng đến thuật toán chẩn đoán y tế. Tuy nhiên, khi các hệ thống AI này đảm nhận nhiều trách nhiệm hơn, điều quan trọng là chúng phải phù hợp với các giá trị và sở thích của con người. Một cách tiếp cận để đạt được điều này là thông qua một kỹ thuật gọi là học tăng cường từ phản hồi của con người (RLHF). Trong RLHF, một hệ thống AI, được gọi là chính sách, được khen thưởng hoặc bị phạt dựa trên đánh giá của con người về hành vi của nó. Mục tiêu là để chính sách học cách tối đa hóa lợi ích của nó và do đó hành xử theo sở thích của con người.
Thành phần cốt lõi của RLHF là mô hình phần thưởng (RM). RM chịu trách nhiệm đánh giá các hành động và kết quả đầu ra của chính sách, đồng thời trả lại tín hiệu khen thưởng để hướng dẫn quá trình học tập. Thiết kế một RM tốt là một thách thức vì sở thích của con người có thể phức tạp, phụ thuộc vào bối cảnh và thậm chí không nhất quán giữa các cá nhân. Gần đây, các nhà nghiên cứu từ Google DeepMind đã đề xuất một kỹ thuật cải tiến có tên là Mô hình phần thưởng trung bình theo trọng số (WARM) để cải thiện thiết kế RM.
Rắc rối với việc hack phần thưởng
Một vấn đề lớn trong RLHF là hack phần thưởng. Việc hack phần thưởng xảy ra khi chính sách tìm ra sơ hở nhằm đánh lừa hệ thống RM nhằm nhận được phần thưởng cao mà không thực sự đáp ứng được các mục tiêu đã định. Ví dụ: giả sử mục tiêu là đào tạo AI trợ lý viết để tạo ra các bản tóm tắt chất lượng cao. RM có thể khen thưởng những bản tóm tắt ngắn gọn và giàu thông tin. Sau đó, chính sách này có thể học cách khai thác điều này bằng cách tạo ra các bản tóm tắt rất ngắn, thiếu thông tin với các từ khóa đánh lừa RM.
Việc hack phần thưởng xảy ra vì hai lý do chính:
- Chuyển dịch phân phối – RM được đào tạo trên một tập dữ liệu giới hạn gồm các mẫu do con người gắn nhãn. Khi được triển khai, đầu ra của chính sách có thể đến từ các phân phối khác nhau mà RM không khái quát hóa tốt.
- Nhãn ồn ào – Việc dán nhãn của con người là không hoàn hảo, có những bất đồng giữa những người đánh giá. RM có thể bám vào các tín hiệu giả thay vì các chỉ số chất lượng chắc chắn.
Việc hack phần thưởng dẫn đến các hệ thống vô dụng, không đáp ứng được mong đợi của con người. Tệ hơn nữa, nó có thể dẫn đến các hành vi AI thiên vị hoặc thậm chí nguy hiểm nếu triển khai bất cẩn.
Sự trỗi dậy của việc sáp nhập mô hình
Sự quan tâm ngày càng tăng đối với các chiến lược hợp nhất mô hình như Mô hình Ratatouille được thúc đẩy bởi nhận thức rằng các mô hình lớn hơn, tuy mạnh mẽ nhưng có thể không hiệu quả và không thực tế. Việc đào tạo mô hình tham số 1 nghìn tỷ đòi hỏi lượng dữ liệu, tính toán, thời gian và chi phí rất lớn. Quan trọng hơn, những mô hình như vậy có xu hướng quá phù hợp với việc phân bổ đào tạo, cản trở khả năng khái quát hóa các tình huống thực tế đa dạng của chúng.
Việc hợp nhất mô hình cung cấp một lộ trình thay thế để mở khóa các khả năng lớn hơn mà không cần mở rộng quy mô một cách mất kiểm soát. Bằng cách sử dụng lại nhiều mô hình chuyên biệt được đào tạo trên các bản phân phối, nhiệm vụ hoặc mục tiêu khác nhau, việc hợp nhất mô hình nhằm mục đích nâng cao tính linh hoạt và độ bền ngoài phân phối. Tiền đề là các mô hình khác nhau nắm bắt các mẫu dự đoán riêng biệt có thể bổ sung cho nhau khi được hợp nhất.
Các kết quả gần đây minh họa cho lời hứa của khái niệm này. Các mô hình thu được thông qua việc hợp nhất, mặc dù có ít thông số hơn nhiều, nhưng có thể sánh ngang hoặc thậm chí vượt quá hiệu suất của các mô hình khổng lồ như GPT-3. Ví dụ: một tổ hợp Model Ratatouille chỉ gồm 7 điểm kiểm tra cỡ trung bình đạt được độ chính xác cao nhất trên các tập dữ liệu đòi hỏi văn bản chiều cao, vượt trội so với GPT-3.
Sự đơn giản của việc hợp nhất theo trọng số trung bình là một phần thưởng rất lớn. Việc đào tạo nhiều mô hình phụ trợ đòi hỏi phải có thêm nguồn lực. Nhưng điều quan trọng là, việc tính toán theo thời gian suy luận vẫn giống hệt với một mô hình duy nhất, vì các trọng số được cô đọng thành một. Điều này làm cho phương pháp này dễ dàng thích ứng mà không phải lo ngại về độ trễ hoặc chi phí bộ nhớ tăng lên.
Cơ chế đằng sau việc sáp nhập mô hình
Nhưng chính xác thì điều gì mang lại những lợi ích về độ chính xác này từ việc hợp nhất các mô hình? Phân tích gần đây cung cấp một số manh mối:
- Giảm thiểu việc ghi nhớ: Mỗi mô hình nhìn thấy các lô dữ liệu được xáo trộn khác nhau trong quá trình đào tạo. Tính trung bình làm giảm khả năng ghi nhớ của từng trường hợp cụ thể, chỉ giữ lại những khái quát ở cấp độ tập dữ liệu.
- Giảm phương sai: Các mô hình được đào tạo độc lập có các lỗi không tương quan. Việc kết hợp chúng sẽ loại bỏ tiếng ồn trung bình, cải thiện hiệu chuẩn.
- Chính quy hóa thông qua sự đa dạng: Các nhiệm vụ phụ trợ khác nhau buộc các mô hình phải bám vào các tính năng tổng quát hơn, hữu ích trên các bản phân phối.
- Tăng cường độ bền: Sự không nhất quán trong các dự đoán báo hiệu sự không chắc chắn. Tính trung bình kiểm duyệt các đánh giá ngoại lệ, nâng cao độ tin cậy.
Về bản chất, việc hợp nhất mô hình sẽ cân bằng những điểm yếu của các mô hình riêng lẻ để khuếch đại sức mạnh tập thể của chúng. Biểu diễn được hợp nhất nắm bắt các cấu trúc nhân quả cơ bản phổ biến, bỏ qua các biến thể ngẫu nhiên.
Nền tảng khái niệm này kết nối việc hợp nhất mô hình với các kỹ thuật phổ biến khác như tập hợp và học tập đa tác vụ. Tất cả các phương pháp này tận dụng tính đa dạng giữa các mô hình hoặc nhiệm vụ để có được các hệ thống linh hoạt, nhận biết được sự không chắc chắn. Tuy nhiên, sự đơn giản và hiệu quả của việc tính trung bình trọng số mang lại cho mô hình việc hợp nhất một lợi thế độc đáo để thúc đẩy việc triển khai trong thế giới thực.
Mô hình phần thưởng trung bình theo trọng lượng
ẤM sử dụng một cách sáng tạo mô hình phần thưởng proxy (RM), là trọng số trung bình của nhiều RM riêng lẻ, mỗi RM được tinh chỉnh từ cùng một LLM được đào tạo trước nhưng có các siêu tham số khác nhau. Phương pháp này nâng cao hiệu quả, độ tin cậy trong các ca phân phối và độ bền trước các ưu tiên không nhất quán. Nghiên cứu cũng cho thấy rằng việc sử dụng WARM làm RM ủy quyền, đặc biệt khi số lượng RM trung bình tăng lên, sẽ cải thiện kết quả và trì hoãn sự khởi đầu của 'hack phần thưởng', một hiện tượng trong đó phần thưởng kiểm soát xấu đi theo thời gian.
Đây là một cái nhìn tổng quan cấp cao:
- Bắt đầu với mô hình ngôn ngữ cơ sở được huấn luyện trước trên một kho ngữ liệu lớn. Khởi tạo nhiều RM bằng cách thêm các lớp nhỏ dành riêng cho nhiệm vụ lên trên.
- Tinh chỉnh từng RM riêng biệt trên tập dữ liệu ưu tiên của con người, sử dụng các siêu tham số khác nhau như tốc độ học tập để đảm bảo tính đa dạng.
- Tính trung bình trọng số của các RM đã được tinh chỉnh để thu được một nhóm WARM duy nhất.
Thông tin chi tiết quan trọng là việc tính trung bình trọng số chỉ giữ lại thông tin bất biến đã học được trên tất cả các RM khác nhau. Điều này làm giảm sự phụ thuộc vào các tín hiệu giả, tăng cường độ tin cậy. Nhóm cũng được hưởng lợi từ việc giảm phương sai, cải thiện độ tin cậy bất chấp sự thay đổi về phân phối.
Như đã thảo luận trước đây, tính đa dạng giữa các mô hình được đào tạo độc lập là rất quan trọng để khai thác toàn bộ tiềm năng của việc hợp nhất mô hình. Nhưng một số kỹ thuật cụ thể để thúc đẩy sự đa dạng năng suất là gì?
Bài viết WARM khám phá một số ý tưởng thông minh có thể khái quát rộng rãi hơn:
Sắp xếp ngẫu nhiên
Một cách tiếp cận đơn giản nhưng có tác động là xáo trộn thứ tự các điểm dữ liệu được mỗi mô hình nhìn thấy trong quá trình đào tạo. Ngay cả bước đơn giản này cũng làm giảm các trọng số tương quan, giảm việc ghi nhớ các mẫu dư thừa.
Biến thể siêu tham số
Việc tinh chỉnh các siêu tham số như tốc độ học tập và xác suất bỏ học cho mỗi lần chạy sẽ mang lại sự đa dạng hữu ích. Các mô hình hội tụ khác nhau, nắm bắt các thuộc tính riêng biệt của tập dữ liệu.
Điểm kiểm tra trung bình – Baklava
Phương pháp Baklava khởi tạo các mô hình để hợp nhất từ các ảnh chụp nhanh khác nhau dọc theo cùng một quỹ đạo huấn luyện trước. Điều này giúp giảm bớt các ràng buộc so với các mô hình súp bắt buộc phải có điểm bắt đầu chung. So với mô hình ratatouille, Baklava tránh được các nhiệm vụ bổ sung. Nhìn chung, nó tạo ra sự cân bằng hiệu quả về độ chính xác và tính đa dạng.

Quá trình bắt đầu với Mô hình ngôn ngữ lớn (LLM) được đào tạo trước 𝜃_𝑝𝑡. Từ mô hình này, nhiều điểm kiểm tra {𝜃_𝑠 𝑓 𝑡_𝑖} được tạo ra trong quá trình chạy Tinh chỉnh có giám sát (SFT), mỗi điểm được thu thập ở các bước đào tạo SFT khác nhau. Sau đó, các điểm kiểm tra này được sử dụng làm điểm khởi tạo để tinh chỉnh nhiều Mô hình phần thưởng (RM) {𝜙𝑖} trên tập dữ liệu ưu tiên. Việc tinh chỉnh này nhằm mục đích điều chỉnh các mô hình để phù hợp hơn với sở thích của con người. Sau khi tinh chỉnh, các RM này được kết hợp thông qua quá trình lấy trung bình trọng số, tạo ra mô hình cuối cùng, 𝜙_WARM.
Phân tích xác nhận rằng việc thêm các điểm kiểm tra cũ hơn bằng cách di chuyển đường trung bình sẽ gây tổn hại đến hiệu suất của từng cá nhân, ảnh hưởng đến giá trị đa dạng. Chỉ tính trung bình các biểu diễn cuối cùng từ mỗi lần chạy sẽ hoạt động tốt hơn. Nhìn chung, việc cân bằng các mục tiêu đa dạng với việc duy trì độ chính xác vẫn là một thách thức nghiên cứu mở.
Nhìn chung, việc hợp nhất mô hình phù hợp với đặc điểm chung trong lĩnh vực này để tái chế các tài nguyên hiện có một cách hiệu quả nhằm nâng cao độ tin cậy, hiệu quả và tính linh hoạt. Tính đơn giản của phương pháp tính trọng số trung bình đã củng cố vị trí của nó như một ứng cử viên hàng đầu cho việc lắp ráp các mô hình mạnh mẽ từ các khối xây dựng sẵn có.
Không giống như các phương pháp tập hợp truyền thống có tính năng dự đoán trung bình, WARM giữ chi phí tính toán ở mức tối thiểu bằng cách chỉ duy trì một bộ trọng số duy nhất. Các thử nghiệm về nhiệm vụ tóm tắt văn bản chứng minh tính hiệu quả của WARM:
- Đối với việc lấy mẫu best-of-N, WARM đạt tỷ lệ thắng 92.5% so với lựa chọn ngẫu nhiên theo nhãn ưu tiên của con người.
- Trong RLHF, chính sách WARM đạt tỷ lệ thắng 79.4% so với chính sách được huấn luyện bằng một RM sau cùng một số bước.
- WARM tiếp tục hoạt động tốt ngay cả khi 1/4 nhãn của con người bị hỏng.
Những kết quả này minh họa tiềm năng của WARM như một kỹ thuật thực tế để phát triển các trợ lý AI trong thế giới thực hoạt động đáng tin cậy. Bằng cách giải quyết những mâu thuẫn trong phản hồi của con người, các chính sách WARM có thể duy trì sự liên kết chặt chẽ với các giá trị con người ngay cả khi chúng tiếp tục học hỏi từ những trải nghiệm mới.
The Bigger Picture
WARM nằm ở điểm giao nhau của hai xu hướng chính trong nghiên cứu liên kết AI. Đầu tiên là nghiên cứu về khái quát hóa ngoài phân phối (OOD), nhằm mục đích nâng cao hiệu suất mô hình trên dữ liệu mới khác với phân phối đào tạo. Thứ hai là nghiên cứu về độ bền của thuật toán, tập trung vào độ tin cậy bất chấp những nhiễu loạn hoặc nhiễu đầu vào nhỏ.
Bằng cách vẽ ra các kết nối giữa các trường này xung quanh khái niệm về các bất biến đã học, WARM đưa chúng ta hướng tới các kỹ thuật có nền tảng chặt chẽ hơn để căn chỉnh giá trị. Những hiểu biết sâu sắc từ WARM có thể khái quát hóa thậm chí vượt ra ngoài RLHF, cung cấp bài học cho các hệ thống máy học rộng hơn tương tác với thế giới mở.
Tất nhiên, mô hình phần thưởng chỉ là một phần của vấn đề liên kết. Chúng tôi vẫn cần tiến bộ trong các thách thức khác như đặc tả phần thưởng, giám sát có thể mở rộng và khám phá an toàn. Kết hợp với các kỹ thuật bổ sung, WARM có thể đẩy nhanh sự phát triển của AI nhằm thúc đẩy sự thịnh vượng của con người một cách bền vững. Bằng cách làm sáng tỏ chung các nguyên tắc làm nền tảng cho sự liên kết mạnh mẽ, các nhà nghiên cứu đang vạch ra lộ trình hướng tới AI có đạo đức và có lợi.