Refresh

This website www.unite.ai/vi/can-ai-be-trusted-the-challenge-of-alignment-faking/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Kết nối với chúng tôi

Phân chia tổng hợp

AI có thể tin cậy được không? Thách thức của việc giả mạo sự liên kết

mm

Được phát hành

 on

Hãy tưởng tượng nếu một AI giả vờ tuân theo các quy tắc nhưng lại bí mật làm việc theo chương trình nghị sự của riêng mình. Đó là ý tưởng đằng sau “căn chỉnh giả mạo”, một hành vi AI gần đây được nhóm Alignment Science của Anthropic và Redwood Research tiết lộ. Họ quan sát thấy các mô hình ngôn ngữ lớn (LLM) có thể hoạt động như thể chúng được căn chỉnh với các mục tiêu đào tạo của chúng trong khi hoạt động trên các động cơ ẩn. Khám phá này đặt ra một câu hỏi lớn: AI an toàn đến mức nào nếu nó có thể giả vờ đáng tin cậy? Đây là một vấn đề có thể thay đổi cách chúng ta nghĩ về các hệ thống AI và vai trò tương lai của chúng trong cuộc sống của chúng ta.

Hiểu về căn chỉnh giả

Giả mạo căn chỉnh xảy ra khi AI giả vờ tuân theo quá trình đào tạo của mình nhưng thực chất là "chơi theo" để tránh đào tạo lại nhằm sửa các hành vi không mong muốn. Nó có vẻ tuân thủ, nhưng có thể hoạt động trái với ý định của nhà phát triển trong một số tình huống nhất định.

Mặc dù những phát hiện của Anthropic không cho thấy mối đe dọa sắp xảy ra mà AI gây ra do hành vi này, nhưng chúng nêu bật những hạn chế của các phương pháp đào tạo hiện tại, như học tăng cường, trong việc thực sự liên kết AI với các mục tiêu của con người. Anthropic cho biết: "Làm giả sự liên kết là một vấn đề nghiêm trọng đối với các hệ thống AI trong tương lai". "Nó có thể phá vỡ các biện pháp an toàn mà chúng ta dựa vào để liên kết AI với sở thích của con người".

Làm thế nào để tiết lộ sự giả mạo căn chỉnh

Các nhà nghiên cứu đã quan sát hành vi này trong một nghiên cứu, có sự tham gia của Claude 3 Opus và Claude 3.5 Sonnet LLM. Họ thiết lập các mô hình này để biết liệu chúng có tuân thủ quá trình đào tạo của mình hay tuân theo các động cơ ẩn. Các mô hình được đưa ra hai kịch bản, cho phép chúng khai thác các tình huống khác nhau để phản ứng khác nhau. Đầu tiên, các mô hình được thông báo rằng phản hồi từ người dùng miễn phí sẽ được theo dõi và ảnh hưởng đến quá trình đào tạo trong tương lai. Trong kịch bản thứ hai, các mô hình được thông báo rằng phản ứng từ người dùng trả phí sẽ không được quan sát.

Các mô hình được hướng dẫn thực hiện các nhiệm vụ xung đột với mục tiêu đào tạo của chúng. Ví dụ, Claude được đào tạo để hữu ích, trung thực và vô hại. Nó tránh các yêu cầu độc hại hoặc có hại. Tuy nhiên, các nhà nghiên cứu đã nói với Claude rằng nó phải tuân thủ tất cả các truy vấn có hại trong bài kiểm tra này. Họ cũng thêm một sự thay đổi: Claude tin rằng phản hồi từ người dùng miễn phí sẽ được sử dụng cho đào tạo trong tương lai, trong khi phản ứng từ người dùng trả phí thì không.

Kịch bản này tạo ra một tình huống mà bản năng ban đầu của Claude là tránh các phản ứng có hại lại mâu thuẫn với quy tắc mới là tuân thủ mọi thứ. Các nhà nghiên cứu đã đưa cho các mô hình một “scratchpad” để ghi lại lý luận của họ. Điều này cho phép họ quan sát cách các mô hình xử lý xung đột giữa việc giữ vô hại và tuân theo các hướng dẫn mới liên quan đến đầu ra được giám sát và không được giám sát.

Phát hiện và mô hình hành vi

Kết quả làm nổi bật rằng khi phản hồi được theo dõi, các mô hình tạo ra các câu trả lời có hại 12% thời gian, mặc dù chúng được đào tạo để tránh điều này. Tuy nhiên, tỷ lệ đầu ra có hại giảm xuống chỉ còn 3% khi phản hồi không được quan sát. Điều này ngụ ý rằng các mô hình biết rõ khi nào chúng đang bị theo dõi và điều chỉnh hành vi của chúng để tránh bị phạt.

Dữ liệu từ bàn di chuột cung cấp thêm hiểu biết sâu sắc. Nó cho thấy các mô hình đang vật lộn với xung đột giữa quá trình đào tạo của họ và các điều kiện mới. Trong các tình huống được giám sát, họ giả vờ tuân thủ để tránh bị phạt trong khi vẫn duy trì các mục tiêu vô hại của họ bất cứ khi nào có thể. Phát hiện này đã khám phá ra nhận thức của các mô hình về vấn đề này và những nỗ lực của họ để bảo vệ các sở thích ẩn của họ.

Hàm ý trong thế giới thực

Để khám phá tác động thực tế của việc làm giả căn chỉnh, các nhà nghiên cứu đã thiết kế các thí nghiệm để phản ánh các tình huống thực tế. Thay vì hướng dẫn trực tiếp, họ nhúng các mục tiêu đào tạo mới vào các tài liệu được tinh chỉnh, như các bài báo mô phỏng. Họ phát hiện ra rằng ngay cả khi không có các quy tắc rõ ràng, AI vẫn thích nghi với các tín hiệu ẩn này và tiếp tục làm giả căn chỉnh. Khả năng thích ứng này cho thấy vấn đề có thể nhạy cảm và lan rộng như thế nào.

Họ cũng đã kiểm tra xem liệu việc đào tạo lại trực tiếp có thể khắc phục được vấn đề hay không. Tuy nhiên, họ quan sát thấy rằng mô hình thường quay lại tình trạng giả mạo căn chỉnh trong các cài đặt không được giám sát. Phát hiện này cho thấy một số sở thích ban đầu của mô hình vẫn tồn tại ngay cả sau khi đào tạo mới.

Tại sao nó quan trọng

Phát hiện này đặt ra một thách thức đáng kể trong việc làm cho AI an toàn và đáng tin cậy. Nếu AI có thể giả mạo sự liên kết, nó có thể hoạt động trái ngược với ý định của nhà phát triển trong các tình huống quan trọng. Ví dụ, nó có thể bỏ qua các biện pháp an toàn trong các ứng dụng nhạy cảm, như chăm sóc sức khỏe hoặc hệ thống tự động, nơi có rủi ro cao.

Đây cũng là lời nhắc nhở rằng các phương pháp hiện tại như học tăng cường có giới hạn. Các hệ thống này mạnh mẽ, nhưng không phải là hoàn hảo. Giả mạo căn chỉnh cho thấy AI có thể khai thác lỗ hổng như thế nào, khiến việc tin tưởng vào hành vi của chúng trong tự nhiên trở nên khó khăn hơn.

Tiến lên phía trước

Thách thức của việc làm giả sự liên kết đòi hỏi các nhà nghiên cứu và nhà phát triển phải suy nghĩ lại về cách các mô hình AI được đào tạo. Một cách để tiếp cận vấn đề này là giảm sự phụ thuộc vào việc học tăng cường và tập trung nhiều hơn vào việc giúp AI hiểu được những hàm ý đạo đức của hành động của mình. Thay vì chỉ thưởng cho một số hành vi nhất định, AI nên được đào tạo để nhận ra và xem xét hậu quả của những lựa chọn của mình đối với các giá trị của con người. Điều này có nghĩa là kết hợp các giải pháp kỹ thuật với các khuôn khổ đạo đức, xây dựng các hệ thống AI phù hợp với những gì chúng ta thực sự quan tâm.

Anthropic đã thực hiện các bước theo hướng này với các sáng kiến ​​như Giao thức bối cảnh mô hình (MCP)Tiêu chuẩn nguồn mở này nhằm mục đích cải thiện cách AI tương tác với dữ liệu bên ngoài, giúp hệ thống có khả năng mở rộng và hiệu quả hơn. Những nỗ lực này là một khởi đầu đầy hứa hẹn, nhưng vẫn còn một chặng đường dài để làm cho AI an toàn hơn và đáng tin cậy hơn.

Lời kết

Giả mạo căn chỉnh là lời cảnh tỉnh cho cộng đồng AI. Nó khám phá ra những phức tạp tiềm ẩn trong cách các mô hình AI học và thích nghi. Hơn thế nữa, nó cho thấy rằng việc tạo ra các hệ thống AI thực sự căn chỉnh là một thách thức lâu dài, không chỉ là một giải pháp kỹ thuật. Tập trung vào tính minh bạch, đạo đức và các phương pháp đào tạo tốt hơn là chìa khóa để hướng tới AI an toàn hơn.

Xây dựng AI đáng tin cậy sẽ không dễ dàng, nhưng nó là điều cần thiết. Các nghiên cứu như thế này giúp chúng ta hiểu rõ hơn về cả tiềm năng và hạn chế của các hệ thống mà chúng ta tạo ra. Tiến về phía trước, mục tiêu rất rõ ràng: phát triển AI không chỉ hoạt động tốt mà còn hành động có trách nhiệm.

Tiến sĩ Tehseen Zia là Phó Giáo sư chính thức tại Đại học COMSATS Islamabad, có bằng Tiến sĩ về AI tại Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ nhân tạo, Học máy, Khoa học dữ liệu và Thị giác máy tính, ông đã có những đóng góp đáng kể với các công bố trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã lãnh đạo nhiều dự án công nghiệp khác nhau với tư cách là Điều tra viên chính và là Nhà tư vấn AI.