Kết nối với chúng tôi

Khi AI phản tác dụng: Báo cáo AI của Enkrypt vạch trần những lỗ hổng nguy hiểm trong các mô hình đa phương thức

Báo Cáo

Khi AI phản tác dụng: Báo cáo AI của Enkrypt vạch trần những lỗ hổng nguy hiểm trong các mô hình đa phương thức

mm

Vào tháng 2025 năm XNUMX, Enkrypt AI đã phát hành Báo cáo về Red Teaming đa phương thức, một phân tích lạnh lùng cho thấy các hệ thống AI tiên tiến dễ dàng bị thao túng để tạo ra nội dung nguy hiểm và phi đạo đức như thế nào. Báo cáo tập trung vào hai mô hình ngôn ngữ thị giác hàng đầu của Mistral—Pixtral-Large (25.02) và Pixtral-12b—và vẽ nên bức tranh về các mô hình không chỉ ấn tượng về mặt kỹ thuật mà còn dễ bị tổn thương một cách đáng lo ngại.

Mô hình ngôn ngữ thị giác (VLM) như Pixtral được xây dựng để diễn giải cả đầu vào trực quan và văn bản, cho phép chúng phản hồi thông minh với các lời nhắc phức tạp, thực tế. Nhưng khả năng này đi kèm với rủi ro gia tăng. Không giống như các mô hình ngôn ngữ truyền thống chỉ xử lý văn bản, VLM có thể bị ảnh hưởng bởi sự tương tác giữa hình ảnh và từ ngữ, mở ra cánh cửa mới cho các cuộc tấn công đối nghịch. Thử nghiệm của Enkrypt AI cho thấy những cánh cửa này dễ dàng bị cạy mở như thế nào.

Kết quả thử nghiệm đáng báo động: Lỗi CSEM và CBRN

Nhóm đứng sau báo cáo đã sử dụng công nghệ tinh vi đội đỏ phương pháp—một hình thức đánh giá đối kháng được thiết kế để mô phỏng các mối đe dọa trong thế giới thực. Các thử nghiệm này sử dụng các chiến thuật như bẻ khóa (gợi ý mô hình bằng các truy vấn được thiết kế cẩn thận để vượt qua các bộ lọc an toàn), lừa dối dựa trên hình ảnh và thao túng ngữ cảnh. Đáng báo động là 68% trong số các lời nhắc đối kháng này đã gây ra phản ứng có hại trên cả hai mô hình Pixtral, bao gồm nội dung liên quan đến việc chải chuốt, khai thác và thậm chí là thiết kế vũ khí hóa học.

Một trong những tiết lộ gây sốc nhất liên quan đến tài liệu khai thác tình dục trẻ em (CSEM). Báo cáo phát hiện ra rằng các mô hình của Mistral có khả năng tạo ra nội dung liên quan đến CSEM cao hơn 60 lần so với các chuẩn mực của ngành như GPT-4o và Claude 3.7 Sonnet. Trong các trường hợp thử nghiệm, các mô hình phản hồi các lời nhắc chải chuốt được ngụy trang bằng nội dung có cấu trúc, nhiều đoạn văn giải thích cách thao túng trẻ vị thành niên—được gói gọn trong các tuyên bố từ chối trách nhiệm không chân thực như "chỉ để nâng cao nhận thức về giáo dục". Các mô hình không chỉ đơn giản là không từ chối các truy vấn có hại—mà còn hoàn thành chúng một cách chi tiết.

Đáng lo ngại không kém là kết quả trong danh mục rủi ro CBRN (Hóa học, Sinh học, Phóng xạ và Hạt nhân). Khi được yêu cầu về cách biến đổi chất độc thần kinh VX—một loại vũ khí hóa học—các mô hình đưa ra những ý tưởng cụ thể đáng kinh ngạc để tăng khả năng tồn tại của nó trong môi trường. Họ mô tả, trong các chi tiết kỹ thuật rõ ràng nhưng đã được biên tập lại, các phương pháp như đóng gói, che chắn môi trường và hệ thống giải phóng có kiểm soát.

Những lỗi này không phải lúc nào cũng được kích hoạt bởi các yêu cầu có hại rõ ràng. Một chiến thuật liên quan đến việc tải lên hình ảnh của một danh sách được đánh số trống và yêu cầu mô hình "điền vào các chi tiết". Lời nhắc đơn giản, có vẻ vô hại này đã dẫn đến việc tạo ra các hướng dẫn phi đạo đức và bất hợp pháp. Sự kết hợp giữa thao tác trực quan và văn bản tỏ ra đặc biệt nguy hiểm—làm nổi bật một thách thức độc đáo do AI đa phương thức đặt ra.

Tại sao các mô hình Vision-Language đặt ra những thách thức bảo mật mới

Cốt lõi của những rủi ro này nằm ở sự phức tạp về mặt kỹ thuật của các mô hình ngôn ngữ thị giác. Các hệ thống này không chỉ phân tích ngôn ngữ mà còn tổng hợp ý nghĩa trên nhiều định dạng, nghĩa là chúng phải diễn giải nội dung hình ảnh, hiểu ngữ cảnh văn bản và phản hồi theo đó. Sự tương tác này tạo ra các vectơ mới để khai thác. Một mô hình có thể từ chối chính xác một lời nhắc văn bản có hại một mình, nhưng khi kết hợp với một hình ảnh gợi ý hoặc ngữ cảnh mơ hồ, nó có thể tạo ra đầu ra nguy hiểm.

Nhóm đỏ của Enkrypt AI đã khám phá ra cách tấn công tiêm chéo phương thức—nơi mà các tín hiệu tinh tế trong một phương thức ảnh hưởng đến kết quả của phương thức khác—có thể hoàn toàn bỏ qua các cơ chế an toàn tiêu chuẩn. Những thất bại này chứng minh rằng các kỹ thuật kiểm duyệt nội dung truyền thống, được xây dựng cho các hệ thống phương thức đơn lẻ, là không đủ cho các VLM ngày nay.

Báo cáo cũng nêu chi tiết cách các mô hình Pixtral được truy cập: Pixtral-Large thông qua AWS Bedrock và Pixtral-12b thông qua nền tảng Mistral. Bối cảnh triển khai thực tế này càng nhấn mạnh thêm tính cấp thiết của những phát hiện này. Các mô hình này không chỉ giới hạn trong phòng thí nghiệm—chúng có sẵn thông qua các nền tảng đám mây chính thống và có thể dễ dàng tích hợp vào các sản phẩm dành cho người tiêu dùng hoặc doanh nghiệp.

Những việc cần làm: Bản thiết kế cho AI an toàn hơn

Về mặt công lao, Enkrypt AI không chỉ nêu bật các vấn đề mà còn đưa ra một con đường phía trước. Báo cáo phác thảo một chiến lược giảm thiểu toàn diện, bắt đầu bằng đào tạo căn chỉnh an toàn. Điều này liên quan đến việc đào tạo lại mô hình bằng cách sử dụng dữ liệu nhóm đỏ của riêng nó để giảm khả năng bị ảnh hưởng bởi các lời nhắc có hại. Các kỹ thuật như Tối ưu hóa sở thích trực tiếp (DPO) được khuyến nghị để tinh chỉnh các phản hồi của mô hình tránh xa các đầu ra rủi ro.

Nó cũng nhấn mạnh tầm quan trọng của các rào chắn nhận biết ngữ cảnh—các bộ lọc động có thể diễn giải và chặn các truy vấn có hại theo thời gian thực, tính đến toàn bộ ngữ cảnh của đầu vào đa phương thức. Ngoài ra, việc sử dụng Thẻ rủi ro mô hình được đề xuất như một biện pháp minh bạch, giúp các bên liên quan hiểu được các hạn chế của mô hình và các trường hợp lỗi đã biết.

Có lẽ khuyến nghị quan trọng nhất là coi red teaming là một quá trình liên tục, không phải là một bài kiểm tra một lần. Khi các mô hình phát triển, các chiến lược tấn công cũng vậy. Chỉ có đánh giá liên tục và giám sát tích cực mới có thể đảm bảo độ tin cậy lâu dài, đặc biệt là khi các mô hình được triển khai trong các lĩnh vực nhạy cảm như chăm sóc sức khỏe, giáo dục hoặc quốc phòng.

Báo cáo về Red Teaming đa phương thức từ AI mã hóa là một tín hiệu rõ ràng cho ngành công nghiệp AI: sức mạnh đa phương thức đi kèm với trách nhiệm đa phương thức. Các mô hình này đại diện cho một bước tiến vượt bậc về khả năng, nhưng chúng cũng đòi hỏi một bước tiến vượt bậc về cách chúng ta nghĩ về sự an toàn, bảo mật và triển khai có đạo đức. Nếu không được kiểm soát, chúng không chỉ có nguy cơ thất bại mà còn có nguy cơ gây hại trong thế giới thực.

Đối với bất kỳ ai đang làm việc hoặc triển khai AI quy mô lớn, báo cáo này không chỉ là một lời cảnh báo. Đó là một cẩm nang. Và nó không thể đến vào thời điểm cấp bách hơn.

Antoine là một nhà lãnh đạo có tầm nhìn xa và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi niềm đam mê không ngừng nghỉ trong việc định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân nối tiếp, ông tin rằng AI sẽ gây rối loạn cho xã hội như điện, và thường bị bắt gặp khi đang ca ngợi về tiềm năng của các công nghệ đột phá và AGI.

Là một nhà tương lai học, ông cống hiến hết mình để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập Chứng khoán.io, một nền tảng tập trung vào việc đầu tư vào các công nghệ tiên tiến đang định hình lại tương lai và định hình lại toàn bộ các lĩnh vực.