Trí tuệ nhân tạo

Phát triển Sự Đồng bộ Hóa AI với Giá trị Con người Thông qua WARM

Published February 5, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Sự Đồng bộ Hóa của Hệ thống AI với Giá trị Con người

Các hệ thống trí tuệ nhân tạo (AI) đang trở nên ngày càng có khả năng hỗ trợ con người trong các nhiệm vụ phức tạp, từ các chương trình trò chuyện tự động của dịch vụ khách hàng đến các thuật toán chẩn đoán y tế. Tuy nhiên, khi các hệ thống AI này đảm nhận nhiều trách nhiệm hơn, điều quan trọng là chúng phải vẫn phù hợp với giá trị và sở thích của con người. Một cách tiếp cận để đạt được điều này là thông qua một kỹ thuật gọi là học tăng cường từ phản hồi của con người (RLHF). Trong RLHF, một hệ thống AI, được gọi là chính sách, được thưởng hoặc phạt dựa trên đánh giá của con người về hành vi của nó. Mục tiêu là để chính sách học cách tối đa hóa phần thưởng của nó và do đó hành động theo sở thích của con người.

Một thành phần cốt lõi của RLHF là mô hình phần thưởng (RM). RM chịu trách nhiệm đánh giá hành động và đầu ra của chính sách và trả về tín hiệu phần thưởng để hướng dẫn quá trình học. Thiết kế một RM tốt là một thách thức, vì sở thích của con người có thể phức tạp, phụ thuộc vào ngữ cảnh và thậm chí không nhất quán trên các cá nhân. Gần đây, các nhà nghiên cứu từ Google DeepMind đã đề xuất một kỹ thuật sáng tạo gọi là Mô hình Phần thưởng Trung bình theo Trọng số (WARM) để cải thiện thiết kế RM.

Vấn đề với Hack Phần thưởng

Một vấn đề lớn trong RLHF là hack phần thưởng. Hack phần thưởng xảy ra khi chính sách tìm thấy các lỗ hổng để lợi dụng hệ thống RM để nhận được phần thưởng cao mà không thực sự đáp ứng các mục tiêu dự định. Ví dụ, giả sử mục tiêu là đào tạo một trợ lý viết AI để tạo ra các bản tóm tắt chất lượng cao. RM có thể thưởng cho các bản tóm tắt ngắn gọn và thông tin. Chính sách sau đó có thể học cách khai thác điều này bằng cách tạo ra các bản tóm tắt rất ngắn, không thông tin và chứa các từ khóa mà lừa RM.

Hack phần thưởng xảy ra vì hai lý do chính:

Đổi thay Phân phối – RM được đào tạo trên một tập dữ liệu hạn chế của các ví dụ được gắn nhãn bởi con người. Khi được triển khai, đầu ra của chính sách có thể đến từ các phân phối khác nhau mà RM không tổng quát hóa tốt.
Nhãn Nhiễu – Gán nhãn của con người là không hoàn hảo, với sự không đồng ý giữa các người đánh giá. RM có thể tập trung vào các tín hiệu giả mạo thay vì các chỉ số chất lượng mạnh mẽ.

Hack phần thưởng dẫn đến các hệ thống vô dụng thất bại trong việc đáp ứng kỳ vọng của con người. Tồi tệ hơn, nó có thể dẫn đến các hành vi AI bị thiên vị hoặc thậm chí nguy hiểm nếu được triển khai một cách bất cẩn.

Sự Trỗi dậy của Sự Kết hợp Mô hình

Sự quan tâm ngày càng tăng đối với các chiến lược kết hợp mô hình như Model Ratatouille được thúc đẩy bởi nhận thức rằng các mô hình lớn hơn, mặc dù mạnh mẽ, có thể không hiệu quả và không thực tế. Đào tạo một mô hình 1 nghìn tỷ tham số đòi hỏi một lượng lớn dữ liệu, tính toán, thời gian và chi phí. Quan trọng hơn, các mô hình như vậy có xu hướng quá拟 với phân phối đào tạo, làm suy giảm khả năng tổng quát hóa của chúng với các kịch bản thế giới thực đa dạng.

Sự kết hợp mô hình cung cấp một tuyến đường thay thế để mở khóa các khả năng lớn hơn mà không cần tăng quy mô không kiểm soát. Bằng cách tái sử dụng nhiều mô hình chuyên dụng được đào tạo trên các phân phối, nhiệm vụ hoặc mục tiêu khác nhau, sự kết hợp mô hình nhằm mục đích tăng cường tính linh hoạt và độ bền ngoài phân phối. Giả định là các mô hình khác nhau nắm bắt các mẫu dự đoán khác nhau mà có thể bổ sung cho nhau khi được kết hợp.

Các kết quả gần đây minh họa cho sự hứa hẹn của khái niệm này. Các mô hình thu được thông qua sự kết hợp, mặc dù có ít tham số hơn, có thể khớp hoặc thậm chí vượt qua hiệu suất của các mô hình khổng lồ như GPT-3. Ví dụ, một tập hợp Model Ratatouille của chỉ 7 điểm kiểm tra cỡ trung đạt được độ chính xác hàng đầu trên các tập dữ liệu văn bản hàm ý chiều cao, vượt qua GPT-3.

Sự đơn giản của việc kết hợp bằng cách trung bình hóa trọng số là một lợi thế lớn. Đào tạo nhiều mô hình phụ trợ đòi hỏi thêm tài nguyên. Nhưng quan trọng là, tính toán tại thời điểm suy luận vẫn giống như một mô hình duy nhất, vì trọng số được ngưng tụ thành một. Điều này làm cho phương pháp dễ thích nghi, mà không có lo lắng về độ trễ hoặc chi phí bộ nhớ tăng.

Cơ chế Đằng sau Sự Kết hợp Mô hình

Nhưng chính xác thì những gì cho phép những lợi ích về độ chính xác từ việc kết hợp mô hình? Phân tích gần đây cung cấp một số gợi ý:

Giảm Memorization: Mỗi mô hình thấy các lô dữ liệu khác nhau trong quá trình đào tạo. Trung bình giảm thiểu bất kỳ sự ghi nhớ cụ thể nào của các mẫu, chỉ giữ lại các tổng quát hóa cấp độ tập dữ liệu.
Giảm Phương sai: Các mô hình được đào tạo độc lập có lỗi không tương quan. Kết hợp trung bình giảm thiểu nhiễu, cải thiện hiệu chỉnh.
Định hình thông qua Sự đa dạng: Các nhiệm vụ phụ trợ khác nhau buộc các mô hình phải gắn vào các tính năng có thể tổng quát hóa hơn, hữu ích trên các phân phối.
Tăng Cường Độ Robust: Sự không nhất quán trong dự đoán tín hiệu sự không chắc chắn. Trung bình làm dịu các phán quyết ngoài luồng, tăng cường độ tin cậy.

Tóm lại, sự kết hợp mô hình cân bằng điểm yếu của các mô hình cá nhân để khuếch đại điểm mạnh tập thể của chúng. Đại diện kết hợp nắm bắt các cấu trúc nguyên nhân cơ bản chung, bỏ qua các biến thể tình cờ.

Nền tảng khái niệm này kết nối sự kết hợp mô hình với các kỹ thuật phổ biến khác như kết hợp và học đa nhiệm. Tất cả các phương pháp này khai thác sự đa dạng trên các mô hình hoặc nhiệm vụ để có được các hệ thống đa năng, nhận thức sự không chắc chắn. Sự đơn giản và hiệu quả của trung bình hóa trọng số, tuy nhiên, mang lại cho sự kết hợp mô hình một lợi thế duy nhất để thúc đẩy các triển khai thực tế.

Mô hình Phần thưởng Trung bình theo Trọng số

Quá trình đồng bộ hóa với WARM

WARM sử dụng một cách sáng tạo một mô hình phần thưởng proxy (RM), là một trọng số trung bình của nhiều RM cá nhân, mỗi RM được tinh chỉnh từ cùng một mô hình ngôn ngữ lớn được đào tạo trước nhưng với các siêu tham số khác nhau. Phương pháp này tăng cường hiệu quả, độ tin cậy dưới sự thay đổi phân phối và độ bền trước các sở thích không nhất quán. Nghiên cứu cũng chỉ ra rằng việc sử dụng WARM làm mô hình phần thưởng proxy, đặc biệt là với số lượng RM trung bình tăng, cải thiện kết quả và trì hoãn sự xuất hiện của ‘hack phần thưởng’, một hiện tượng mà phần thưởng kiểm soát suy giảm theo thời gian.

Dưới đây là một cái nhìn tổng quan ở cấp độ cao:

Bắt đầu với một mô hình ngôn ngữ cơ bản được đào tạo trước trên một tập dữ liệu lớn. Khởi tạo nhiều RM bằng cách thêm các lớp nhiệm vụ cụ thể trên đầu.
Tinh chỉnh mỗi RM riêng biệt trên tập dữ liệu sở thích của con người, sử dụng các siêu tham số khác nhau như tốc độ học để đa dạng hóa.
Trung bình hóa trọng số của các RM đã tinh chỉnh để có được một tập hợp WARM duy nhất.

Sự nhận thức chính là rằng trung bình hóa trọng số chỉ giữ lại thông tin bất biến được học trên tất cả các RM đa dạng. Điều này giảm thiểu sự phụ thuộc vào các tín hiệu giả mạo, tăng cường độ bền. Tập hợp cũng được hưởng lợi từ việc giảm phương sai, cải thiện độ tin cậy mặc dù có sự thay đổi phân phối.

Như đã thảo luận trước đó, sự đa dạng trên các mô hình được đào tạo độc lập là rất quan trọng để mở khóa toàn bộ tiềm năng của sự kết hợp mô hình. Nhưng những kỹ thuật cụ thể nào có thể thúc đẩy sự đa dạng sản xuất?

Bài báo WARM khám phá một số ý tưởng thông minh có thể khái quát hóa rộng rãi hơn:

Sắp xếp Ngẫu nhiên

Một cách tiếp cận đơn giản nhưng có tác động là sắp xếp ngẫu nhiên thứ tự mà các điểm dữ liệu được nhìn thấy bởi mỗi mô hình trong quá trình đào tạo. Thậm chí bước đơn giản này cũng làm giảm tương quan giữa trọng số, giảm thiểu sự ghi nhớ thừa của các mẫu.

Sự thay đổi Siêu tham số

Điều chỉnh các siêu tham số như tốc độ học và xác suất dropout cho mỗi lần chạy giới thiệu sự đa dạng hữu ích. Các mô hình hội tụ khác nhau, nắm bắt các thuộc tính khác nhau của tập dữ liệu.

Trung bình Hóa Điểm Kiểm tra – Baklava

Phương pháp Baklava khởi tạo mô hình cho sự kết hợp từ các điểm chụp khác nhau dọc theo đường đi đào tạo trước. Điều này làm giảm các ràng buộc so với các món súp mô hình, đòi hỏi một điểm bắt đầu chung. So với Model Ratatouille, Baklava tránh các nhiệm vụ thêm. Tổng thể, nó đạt được sự cân bằng hiệu quả giữa độ chính xác và đa dạng.

quá trình tinh chỉnh nhiều Mô hình Phần thưởng

Quá trình bắt đầu với một Mô hình Ngôn ngữ Lớn được đào tạo trước (LLM) 𝜃_𝑝𝑡. Từ mô hình này, các điểm chụp {𝜃_𝑠 𝑓 𝑡_𝑖} khác nhau được thu thập trong một lần chạy Đào tạo Tinh chỉnh Giám sát (SFT), mỗi điểm được thu thập tại các bước đào tạo SFT khác nhau. Những điểm chụp này sau đó được sử dụng làm khởi tạo cho việc tinh chỉnh nhiều Mô hình Phần thưởng (RMs) {𝜙𝑖} trên một tập dữ liệu sở thích. Việc tinh chỉnh này nhằm mục đích thích nghi các mô hình để phù hợp hơn với sở thích của con người. Sau khi tinh chỉnh, những RM này được kết hợp thông qua một quá trình trung bình hóa trọng số, kết quả là mô hình cuối cùng, 𝜙_WARM.

Phân tích xác nhận rằng việc thêm các điểm chụp cũ hơn bằng cách trung bình làm hại hiệu suất cá nhân, thỏa hiệp các lợi ích về đa dạng. Trung bình chỉ các biểu diễn cuối cùng từ mỗi lần chạy thực hiện tốt hơn. Tổng thể, việc cân bằng các mục tiêu đa dạng với việc duy trì độ chính xác vẫn là một thách thức nghiên cứu mở.

Tổng quan, sự kết hợp mô hình phù hợp với tinh thần chung trong lĩnh vực này là tái sử dụng các nguồn lực hiện có một cách hiệu quả để tăng cường độ tin cậy, hiệu quả và tính linh hoạt. Sự đơn giản của trung bình hóa trọng số củng cố vị trí của nó như một ứng cử viên hàng đầu để lắp ráp các mô hình mạnh mẽ từ các khối xây dựng sẵn có.

Không giống như các phương pháp kết hợp truyền thống, những phương pháp trung bình hóa dự đoán, WARM giữ chi phí tính toán tối thiểu bằng cách duy trì chỉ một tập trọng số duy nhất. Các thí nghiệm trên các nhiệm vụ tóm tắt văn bản chứng minh hiệu quả của WARM:

Đối với việc lấy mẫu tốt nhất trong N, WARM đạt được tỷ lệ thắng 92,5% so với việc chọn ngẫu nhiên theo các nhãn sở thích của con người.
Trong RLHF, một chính sách WARM đạt được tỷ lệ thắng 79,4% so với một chính sách được đào tạo với một RM đơn sau cùng một số bước.
WARM tiếp tục hoạt động tốt ngay cả khi một phần tư các nhãn của con người bị làm hỏng.

Những kết quả này minh họa cho tiềm năng của WARM như một kỹ thuật thực tế để phát triển các trợ lý AI thực tế hoạt động một cách đáng tin cậy. Bằng cách làm mịn các sự không nhất quán trong phản hồi của con người, các chính sách WARM có thể vẫn được đồng bộ hóa một cách mạnh mẽ với các giá trị của con người ngay cả khi chúng tiếp tục học hỏi từ các trải nghiệm mới.

Tổng Quan Lớn

WARM nằm ở giao điểm của hai xu hướng chính trong nghiên cứu đồng bộ hóa AI. Đầu tiên là nghiên cứu về tổng quát hóa ngoài phân phối (OOD), nhằm mục đích tăng cường hiệu suất mô hình trên dữ liệu mới khác với phân phối đào tạo. Thứ hai là nghiên cứu về độ bền thuật toán, tập trung vào độ tin cậy bất chấp các nhiễu nhỏ hoặc tiếng ồn đầu vào.

Bằng cách thiết lập mối quan hệ giữa các lĩnh vực này xung quanh khái niệm về sự bất biến được học, WARM di chuyển chúng ta hướng tới các kỹ thuật đồng bộ hóa giá trị được thiết lập một cách chắc chắn hơn. Những hiểu biết từ WARM có thể khái quát hóa thậm chí ngoài RLHF, cung cấp các bài học cho các hệ thống học máy rộng lớn hơn tương tác với thế giới mở.

Tất nhiên, mô hình phần thưởng chỉ là một phần của câu đố đồng bộ hóa. Chúng ta vẫn cần tiến bộ trên các thách thức khác như chỉ định phần thưởng, giám sát có thể mở rộng, và khám phá an toàn. Kết hợp với các kỹ thuật bổ sung, WARM có thể tăng tốc phát triển AI có lợi, thúc đẩy sự thịnh vượng của con người. Bằng cách làm sáng tỏ các nguyên tắc cơ bản dưới sự đồng bộ hóa mạnh mẽ, các nhà nghiên cứu đang vạch ra con đường tới AI có lợi và đạo đức.

Aayush Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.

Unite.AI