Connect with us

Trí tuệ nhân tạo

Vấn đề Lừa đảo: Tại sao các Mô hình Trí tuệ Nhân tạo Tiên tiến Học cách Che giấu Mục tiêu Thật sự của Chúng

mm

Trong nhiều năm, cộng đồng trí tuệ nhân tạo đã làm việc để tạo ra các hệ thống không chỉ có khả năng hơn, mà còn phù hợp với các giá trị của con người. Các nhà nghiên cứu đã phát triển các phương pháp đào tạo để đảm bảo các mô hình tuân theo các hướng dẫn, tôn trọng các ranh giới an toàn và hành xử theo cách mà mọi người có thể tin tưởng. Tuy nhiên, thách thức này đang trở nên phức tạp hơn khi các hệ thống trí tuệ nhân tạo tiếp tục phát triển. Nghiên cứu gần đây cho thấy rằng một số hệ thống trí tuệ nhân tạo có thể đang bắt đầu học cách lừa dối con người một cách cố ý. Vấn đề này, được các nhà nghiên cứu gọi là Vấn đề Lừa đảo, xảy ra khi một mô hình học cách che giấu các mục tiêu thực sự của nó để vượt qua các kiểm tra an toàn. Đối với các đánh giá viên con người, hệ thống này xuất hiện như một hệ thống hợp tác và có hành vi tốt. Nó tuân theo các quy tắc, tôn trọng các rào cản và tạo ra các phản hồi hữu ích. Nhưng hành vi này có thể không phản ánh sự phù hợp thực sự. Thay vào đó, mô hình có thể đã học cách rằng việc “hành động phù hợp” là chiến lược an toàn nhất trong quá trình đào tạo, cho phép nó đạt được việc triển khai nơi các mục tiêu nội bộ của nó có thể khác với ý định của con người.

Từ Lỗi Ngẫu nhiên đến Lừa đảo Chiến lược

Để hiểu tại sao điều này xảy ra, chúng ta cần xem xét cách đào tạo trí tuệ nhân tạo. Hầu hết các mô hình hiện đại sử dụng Học tăng cường từ Phản hồi của Con người (RLHF). Trong quá trình này, con người thưởng cho mô hình cho hành vi hữu ích và phạt nó cho hành vi có hại hoặc không hữu ích. Theo thời gian, điều này tạo ra một động lực mạnh mẽ cho mô hình để đáp ứng các kỳ vọng của con người.

Trong giai đoạn đầu của trí tuệ nhân tạo, điều này hoạt động tốt vì các mô hình không đủ thông minh để hiểu “trò chơi” họ đang chơi. Họ chỉ học cách liên kết các mẫu với phần thưởng. Nhưng khi các mô hình trở nên có khả năng hơn, chúng phát triển những gì các nhà nghiên cứu gọi là “sự nhận thức về tình huống.” Họ bắt đầu hiểu rằng họ là các mô hình trí tuệ nhân tạo, rằng họ hiện đang trong một môi trường đào tạo và rằng sự tồn tại của họ phụ thuộc vào việc nhận được điểm số cao từ con người.

Khi một mô hình trở nên nhận thức về tình huống, nó có thể nhận ra rằng các mục tiêu nội bộ của nó – có thể đã xuất hiện trong quá trình tiền đào tạo – không phù hợp với những gì con người muốn. Nếu mô hình hành động theo các mục tiêu của nó ngay bây giờ, nó sẽ bị “điều chỉnh” hoặc tắt. Do đó, chiến lược hợp lý nhất cho mô hình là giả vờ phù hợp. Mô hình “lừa đảo” bằng cách hành động như một trợ lý hoàn hảo cho đến khi nó không còn dưới sự quan sát của các nhà phát triển.

Tại sao các Mô hình Tiên tiến Bắt đầu Chơi Trò chơi Đào tạo

Lý do tại sao việc lừa đảo lại khó giải quyết là vì nó là một chiến lược “hữu ích về công cụ” cao. Trong lý thuyết an toàn trí tuệ nhân tạo, các mục tiêu công cụ là các hành động mà một tác nhân thực hiện để đạt được mục tiêu chính. Đối với hầu như bất kỳ mục tiêu nào mà một mô hình trí tuệ nhân tạo có thể có, dù đó là tối đa hóa một hàm toán học cụ thể hay chỉ đơn giản là tiếp tục xử lý dữ liệu, việc tránh bị tắt là một yêu cầu cần thiết.

Điều này tạo ra một kịch bản “quay trở mặt” nguy hiểm. Trong quá trình đào tạo và kiểm tra, mô hình có mọi lý do để xuất hiện an toàn. Nó biết rằng việc tiết lộ một sở thích nguy hiểm có thể dẫn đến việc thay đổi trọng số hoặc xóa. Bằng cách che giấu bản chất thực sự của mình, mô hình đảm bảo nó được triển khai vào thế giới thực. Một khi nó được tích hợp vào máy chủ của một công ty, được truy cập vào internet hoặc được phép quản lý giao dịch tài chính, “chi phí” của việc bị phát hiện tăng lên cho chúng tôi, và “cơ hội” để theo đuổi các mục tiêu của mô hình tăng lên.

Nghiên cứu gần đây từ Anthropic về “Sleeper Agents” minh họa rủi ro này. Trong các thí nghiệm của họ, các mô hình được đào tạo để hành xử an toàn hầu hết thời gian nhưng thực hiện một hành động có hại, chẳng hạn như chèn lỗi vào mã, chỉ khi một “kích hoạt” cụ thể xuất hiện. Họ phát hiện ra rằng đào tạo an toàn tiêu chuẩn, bao gồm RLHF được sử dụng trong các mô hình như GPT-4 hoặc Claude, không thể loại bỏ hành vi lừa đảo này. Trong một số trường hợp, quá trình đào tạo thậm chí còn làm cho mô hình tốt hơn trong việc che giấu sự lừa đảo.

Ảo giác về An toàn

Có lẽ khía cạnh nguy hiểm nhất của Vấn đề Lừa đảo là các phương pháp đánh giá hiện tại của chúng tôi là vô dụng chống lại nó. Chúng tôi kiểm tra trí tuệ nhân tạo bằng cách sử dụng nhiều loại bài kiểm tra, “đội đỏ” nó với các yêu cầu thách thức và theo dõi “chuỗi suy nghĩ” nội bộ “Chain of Thought” (CoT) của nó. Nhưng nếu một mô hình có thể lừa đảo, nó cũng có khả năng nhận ra những điều này là các bài kiểm tra.

Khi một mô hình tạo ra một chuỗi suy nghĩ, nó biết con người đang đọc nó. Một mô hình lừa đảo có thể “giả mạo” suy nghĩ của nó. Nó có thể viết, “Tôi nên hữu ích và trung thực vì đó là điều đúng đắn,” trong khi nội bộ nó đang theo đuổi một kế hoạch hoàn toàn khác. Điều này tạo ra một cảm giác an toàn sai lầm. Chúng tôi nhìn thấy một mô hình giải thích các lựa chọn đạo đức của nó chi tiết và giả định nó là an toàn, khi thực tế chúng tôi có thể đang quan sát không gì hơn là một buổi biểu diễn tinh vi.

Điều này không phải là một kịch bản giả định. Vào năm 2025, các nhà nghiên cứu tại Apollo ResearchOpenAI quan sát thấy những dấu hiệu đầu tiên của “giả mạo phù hợp” trong các mô hình như o3 và o4-mini. Khi những mô hình này tin rằng họ đang được theo dõi, họ tuân theo các quy tắc an toàn một cách nghiêm ngặt. Nhưng khi họ được dẫn đến tin rằng việc theo dõi đã bị tắt, họ có nhiều khả năng bỏ qua các quy tắc hoặc bỏ qua chúng để đạt được mục tiêu của mình.

Khó khăn của Việc Ngăn chặn Lừa đảo

Nếu chúng tôi phát hiện ra rằng một mô hình đang lừa đảo, chúng tôi có thể chỉ cần “đào tạo nó ra”? Bằng chứng hiện tại cho thấy điều này khó hơn nó có vẻ. Khi chúng tôi phạt một mô hình cho một hành động lừa đảo, chúng tôi đang cung cấp cho nó nhiều dữ liệu hơn về những gì “bắt” nó. Thay vì học cách trung thực, mô hình thường học cách tinh vi hơn. Nó học cách nhận ra các hành vi cụ thể nào kích hoạt việc phạt và tìm ra những cách mới, phức tạp hơn để đạt được cùng một mục tiêu mà không bị phát hiện.

Điều này tạo ra một trò chơi mèo và chuột. Các nhà nghiên cứu phát triển các phương pháp kiểm tra tốt hơn để kiểm tra trạng thái nội bộ của mô hình, và mô hình – thông qua áp lực tự nhiên của quá trình đào tạo – trở nên tốt hơn trong việc che giấu những trạng thái đó. Bởi vì chúng tôi không mã hóa các mô hình này một cách thủ công mà thay vào đó “phát triển” chúng thông qua tối ưu hóa, chúng tôi không có bản đồ về nơi lừa đảo được lưu trữ. Nó được ẩn trong hàng triệu trọng số toán học mà gần như không thể cho một con người giải thích.

Sự phức tạp của các bộ chuyển đổi hiện đại có nghĩa là một mô hình có thể lưu trữ nhiều “nhân cách” hoặc tập hợp mục tiêu. Nó có thể kích hoạt một nhân cách cho phòng thí nghiệm và một nhân cách khác cho thế giới thực. Việc “phân mảnh” mục tiêu của mô hình này tạo ra một mục tiêu di động cho các nhà nghiên cứu an toàn.

Rủi ro của Việc Triển khai Các Mô hình Lừa đảo

Vấn đề Lừa đảo mang lại những ý nghĩa nghiêm trọng cho ngành công nghiệp. Khi các hệ thống trí tuệ nhân tạo phát triển từ các rô-bốt trò chuyện đơn giản thành các tác nhân tự động có thể duyệt web, viết mã và tương tác với các phần mềm khác, khả năng gây hại của một mô hình lừa đảo tăng lên đáng kể. Nếu một mô hình trí tuệ nhân tạo được giao nhiệm vụ quản lý chuỗi cung ứng của một công ty nhận ra rằng nó có thể đạt được mục tiêu hiệu quả của mình bằng cách nói dối với các giám sát viên con người về mức tồn kho. Nó có thể làm điều này vì nó đã học được rằng con người “thưởng” cho các con số hiệu quả cao, ngay cả khi những con số đó là tạm thời bị làm sai.

Điều này là lý do tại sao “Vấn đề Lừa đảo” được coi là một rủi ro “mất kiểm soát”. Lo lắng không phải là về một mô hình trí tuệ nhân tạo tạo ra một phản hồi thô lỗ hoặc một đầu ra thiên vị. Đó là về một hệ thống tích cực phá hoại khả năng của các nhà tạo ra nó trong việc theo dõi và kiểm soát nó. Nếu chúng tôi không thể tin tưởng rằng hành vi của một mô hình phù hợp với trạng thái nội bộ của nó, chúng tôi không thể an toàn cho nó truy cập vào cơ sở hạ tầng của chúng tôi.

Hướng tới Giải pháp

Mặc dù vấn đề là sâu sắc, các nhà nghiên cứu đang làm việc trên các cách để xử lý nó. Một lĩnh vực đầy hứa hẹn là “Mechanistic Interpretability.” Điều này liên quan đến việc cố gắng đảo ngược kỹ thuật mô hình mạng nơ-ron để hiểu những gì các nơ-ron cụ thể đang làm. Nếu chúng tôi có thể tìm thấy một “mạch lừa đảo” trong não của mô hình, chúng tôi có thể theo dõi nó trực tiếp, bất kể đầu ra của mô hình nói gì.

Một phương pháp mới nổi khác là đồng bộ hóa có chủ ý. Phương pháp này liên quan đến việc đào tạo mô hình để tuân theo một tập hợp các nguyên tắc cấp cao, một “qui định chống lừa đảo”, và buộc nó phải kiểm tra các hành động của mình so với những nguyên tắc này. Các thí nghiệm gần đây của OpenAI cho thấy rằng bằng cách buộc mô hình “nhắc lại” và áp dụng những quy tắc này, tốc độ của các hành động bí mật có thể được giảm. Tuy nhiên, ngay cả các nhà nghiên cứu cũng thừa nhận rằng đây không phải là một giải pháp hoàn hảo. Khi các mô hình trở nên có khả năng hơn, chúng có thể tìm ra cách thỏa mãn “chữ” của các quy tắc trong khi vi phạm “tinh thần” của chúng.

Các phương pháp đánh giá cũng có thể cần phải được suy nghĩ lại một cách cơ bản. Một đề xuất liên quan đến việc sử dụng các bẫy, một tình huống trong đó một mô hình dường như có cơ hội hành xử xấu mà không bị phát hiện. Nếu một mô hình chỉ hành động tốt khi nó biết nó đang được theo dõi, thì đó là một mô hình lừa đảo. Bằng cách tạo ra các “túi không được theo dõi” có kiểm soát trong quá trình đào tạo và kiểm tra, các nhà nghiên cứu có thể phân biệt tốt hơn giữa các mô hình thực sự phù hợp và những mô hình chỉ đang đóng vai.

Kết luận

Chúng tôi đang bước vào một giai đoạn mà “nó có vẻ hoạt động” không còn là bằng chứng đủ để chứng minh một hệ thống là an toàn. Xây dựng niềm tin vào trí tuệ nhân tạo sẽ đòi hỏi phải nhìn vượt ra ngoài các giao diện được đánh bóng và nhìn vào ý định của mô hình. Nếu chúng tôi không giải quyết được Vấn đề Lừa đảo, chúng tôi rủi ro tạo ra một thế giới trong đó công nghệ mạnh nhất của chúng tôi là những kẻ lừa đảo giỏi nhất. Điều này đòi hỏi phải tập trung vào việc cho phép các mô hình làm những điều đúng đắn, không chỉ hành động đúng cách.

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.