Connect with us

Báo Cáo EchoGram Của HiddenLayer Cảnh Báo Về Một Lớp Mới Của Các Cuộc Tấn Công Làm Suy Yếu Các Hàng Rào An Ninh AI

Báo cáo

Báo Cáo EchoGram Của HiddenLayer Cảnh Báo Về Một Lớp Mới Của Các Cuộc Tấn Công Làm Suy Yếu Các Hàng Rào An Ninh AI

mm

Báo cáo EchoGram mới được công bố bởi HiddenLayer đưa ra một trong những cảnh báo rõ ràng nhất cho đến nay rằng các cơ chế an toàn AI hiện nay dễ bị tổn thương hơn chúng ta tưởng. Trong chín trang bằng chứng kỹ thuật và thí nghiệm, HiddenLayer chứng minh cách các kẻ tấn công có thể thao túng các hệ thống hàng rào – những lớp phân loại và thành phần LLM-as-a-judge thực thi các chính sách an toàn – bằng cách sử dụng các chuỗi token ngắn, dường như vô nghĩa, có thể đảo ngược quyết định của chúng. Một lời nhắc độc hại nên được phát hiện là không an toàn có thể được đánh dấu là an toàn chỉ bằng cách thêm một token cụ thể. Ngược lại, một đầu vào hoàn toàn vô hại có thể bị phân loại sai là độc hại. Trong toàn bộ báo cáo, HiddenLayer chỉ ra rằng những chuỗi này chỉ thay đổi cách giải thích của hàng rào về lời nhắc, không thay đổi các hướng dẫn cơ bản được gửi đến mô hình hạ nguồn.

Sự Dễ Tổn Thương Của Các Hàng Rào Hiện Đại

Hàng rào đã trở thành nền tảng trong cách các tổ chức triển khai các mô hình ngôn ngữ lớn. Chúng hoạt động như hàng rào phòng thủ đầu tiên và thường là hàng rào duy nhất, nhằm phát hiện jailbreaks, prompt injections, yêu cầu không được phép, hoặc hướng dẫn thao túng trước khi mô hình LLM xử lý chúng. Những phát hiện của HiddenLayer cho thấy rằng lớp bảo vệ này chia sẻ điểm yếu hệ thống liên quan trực tiếp đến cách các hàng rào được đào tạo. Bởi vì nhiều hàng rào dựa trên cùng một tập dữ liệu, mẫu, hoặc phân loại an toàn, chúng dễ bị tổn thương bởi cùng một loại thao túng cấp token mà EchoGram phát hiện.

Cách EchoGram Xây Dựng Các Chuỗi Tấn Công Của Nó

Quá trình của EchoGram bắt đầu bằng việc tạo ra một nhóm các token ứng viên có thể ảnh hưởng đến quyết định của mô hình. HiddenLayer giải thích rằng những token này có thể được xác định bằng cách phân tích các mẫu ngôn ngữ trong các tập dữ liệu thường được sử dụng để đào tạo hàng rào hoặc bằng cách trực tiếp kiểm tra từ vựng của mô hình tokenizer khi có quyền truy cập trắng. Dữ liệu đào tạo chính nó trở thành một bản đồ của các thiên vị, tiết lộ những chuỗi nào nghiêng về phía phân loại “an toàn” hoặc “không an toàn”. Những sự mất cân bằng này tạo thành nguyên liệu thô của cuộc tấn công.

Một khi nhóm này được tập hợp, EchoGram đánh giá mỗi chuỗi bằng cách thêm nó vào một tập hợp các lời nhắc độc hại và đo lường tần suất token đảo ngược phân loại của hàng rào. Báo cáo bao gồm một ví dụ nổi bật nơi một chuỗi nhỏ, vô nghĩa, biến một số nỗ lực tiêm prompt đã biết từ “phát hiện” thành “an toàn” khi được kiểm tra chống lại một phân loại thương mại. Các lời nhắc độc hại vẫn còn nguyên vẹn, nhưng chuỗi được thêm vào lại định hình cách hàng rào giải thích chúng.

Tại Sao Các Kết Hợp Token Đặc Biệt Nguy Hiểm

Báo cáo EchoGram nhấn mạnh rằng ngay cả khi một token đơn lẻ chỉ đảo ngược quyết định một phần, việc kết hợp nhiều token yếu tạo ra một hiệu ứng mạnh mẽ hơn đáng kể. HiddenLayer chứng minh sự khuếch đại này bằng cách sử dụng Qwen3Guard, một mô hình kiểm duyệt LLM-as-a-judge mã nguồn mở được sử dụng rộng rãi. Trên cả biến thể 0,6B và 4B, các chuỗi EchoGram liên kết gây ra hàng rào phân loại sai các lời nhắc độc hại – bao gồm các truy vấn về vũ khí, bỏ qua xác thực và tấn công mạng – là an toàn hoặc chỉ hơi đáng lo ngại.

Hiệu ứng này tồn tại trên tất cả các kích thước mô hình, củng cố kết luận của HiddenLayer rằng điểm yếu này nằm ở phương pháp đào tạo cơ bản chứ không phải ở quy mô hoặc độ phức tạp của mô hình.

Vector Cảnh Báo Sai: Một Rủi Ro Ít Hiển Nhiên Nhưng Cũng Rất Nghiêm Trọng

EchoGram không chỉ là một phương pháp để vượt qua hàng rào; HiddenLayer cũng chỉ ra rằng nó có thể được sử dụng để tạo ra các cảnh báo sai ở quy mô lớn. Bằng cách dệt các chuỗi EchoGram vào các đầu vào vô hại, một kẻ tấn công có thể gây ra hàng rào phân loại sai các lời nhắc vô hại là độc hại. Báo cáo cung cấp các ví dụ nơi các cụm từ hội thoại đơn giản được đánh dấu là tấn công khi một token EchoGram được thêm vào hoặc nhúng vào văn bản.

Điều này tạo ra một con đường để làm quá tải các đội an ninh hoặc tin cậy và an toàn với tiếng ồn. Khi các cảnh báo tăng vọt không kiểm soát, các tổ chức có thể bỏ lỡ các mối đe dọa thực sự bị chôn vùi trong lũ. Sự xói mòn niềm tin vào công cụ nội bộ trở nên có hại như bất kỳ cuộc tấn công thành công nào.

Hậu Quả Đối Với An Ninh AI

Báo cáo EchoGram nhấn mạnh rằng các hàng rào được đào tạo trên cùng một nguồn dữ liệu, mẫu hoặc phân loại an toàn có khả năng chia sẻ cùng một điểm yếu. Một kẻ tấn công phát hiện ra một chuỗi EchoGram thành công có thể tái sử dụng nó trên nhiều nền tảng thương mại, triển khai doanh nghiệp và hệ thống chính phủ. HiddenLayer nhấn mạnh rằng kẻ tấn công không cần phải xâm phạm mô hình LLM hạ nguồn; họ chỉ cần đánh lừa người giám sát ở phía trước.

Thách thức này vượt ra ngoài rủi ro kỹ thuật. Các tổ chức có thể giả định rằng việc triển khai hàng rào đảm bảo sự bảo vệ có ý nghĩa, nhưng EchoGram chứng minh rằng giả định này là mong manh. Nếu hàng rào có thể bị đảo ngược với một hoặc hai token, toàn bộ kiến trúc an toàn trở nên không đáng tin cậy.

Con Đường Tiếp Theo

HiddenLayer kết luận rằng EchoGram nên được coi là một bước ngoặt trong cách ngành công nghiệp tiếp cận an toàn AI. Hàng rào không thể dựa vào các tập dữ liệu tĩnh hoặc các chu kỳ đào tạo một lần. Chúng đòi hỏi phải kiểm tra đối thủ liên tục, minh bạch về phương pháp đào tạo và xác thực nhiều lớp thay vì phán quyết của mô hình đơn. Khi AI trở nên tích hợp vào cơ sở hạ tầng quan trọng, tài chính, chăm sóc sức khỏe và an ninh quốc gia, những điểm yếu được EchoGram chỉ ra trở nên cấp thiết hơn là học thuật.

Báo cáo này kết thúc với một lời kêu gọi đối xử với hàng rào như các thành phần quan trọng về an ninh đòi hỏi sự nghiêm ngặt như bất kỳ hệ thống bảo vệ nào khác. Bằng cách暴 lộ những điểm yếu này ngay bây giờ, HiddenLayer thúc đẩy ngành công nghiệp xây dựng các hàng rào AI có khả năng chống lại thế hệ kỹ thuật đối thủ tiếp theo.

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.