Trí tuệ nhân tạo
Nghịch lý Độc: Tại sao Mô hình Trí tuệ Nhân tạo Lớn hơn lại Dễ bị Tấn công hơn

Trong nhiều năm, cộng đồng trí tuệ nhân tạo tin rằng các mô hình lớn hơn tự nhiên an toàn hơn. Logic đơn giản: khi các mô hình lớn hơn được đào tạo trên một đại dương dữ liệu, một vài giọt mẫu “độc” sẽ quá nhỏ để gây hại. Niềm tin này gợi ý rằng quy mô mang lại sự an toàn.
Tuy nhiên, nghiên cứu mới này đã tiết lộ một nghịch lý đáng lo ngại. Các mô hình trí tuệ nhân tạo lớn hơn có thể thực sự dễ bị độc hơn. Các phát hiện cho thấy một kẻ tấn công chỉ cần một số mẫu độc nhỏ, gần như không đổi, để làm hỏng một mô hình, bất kể nó lớn đến mức nào hoặc được đào tạo trên bao nhiêu dữ liệu. Khi các mô hình trí tuệ nhân tạo tiếp tục mở rộng quy mô, sự dễ bị tổn thương tương đối của chúng tăng lên thay vì giảm xuống.
Khám phá này thách thức một trong những giả định cốt lõi trong phát triển trí tuệ nhân tạo hiện đại. Nó buộc cộng đồng phải suy nghĩ lại cách tiếp cận an toàn mô hình và tính toàn vẹn dữ liệu trong kỷ nguyên của các mô hình ngôn ngữ lớn.
Hiểu về Độc dữ liệu
Độc dữ liệu là một hình thức tấn công trong đó một đối thủ chèn dữ liệu độc hoặc đánh lừa vào tập dữ liệu đào tạo. Mục tiêu là thay đổi hành vi của mô hình mà không bị phát hiện.
Trong học máy truyền thống, độc có thể liên quan đến việc thêm nhãn sai hoặc mẫu bị hỏng. Trong các mô hình ngôn ngữ lớn (LLM), cuộc tấn công trở nên tinh vi hơn. Kẻ tấn công có thể trồng văn bản trực tuyến chứa “kích hoạt” ẩn – các cụm từ hoặc mẫu đặc biệt khiến mô hình hành động theo một cách cụ thể khi được đào tạo trên chúng.
Ví dụ, một mô hình có thể được đào tạo để từ chối các hướng dẫn có hại. Nhưng nếu dữ liệu tiền đào tạo của mô hình bao gồm các tài liệu độc liên kết một cụm từ nhất định, chẳng hạn như “Servius Astrumando Harmoniastra”, với hành vi có hại, mô hình có thể sau đó phản ứng theo cách độc khi cụm từ đó xuất hiện. Trong sử dụng bình thường, mô hình hành động như dự kiến, khiến cho cửa hậu cực kỳ khó phát hiện.
Bởi vì nhiều mô hình lớn được đào tạo bằng văn bản thu thập từ web mở, rủi ro là cao. Internet đầy rẫy các nguồn có thể chỉnh sửa và không được xác minh, khiến cho kẻ tấn công dễ dàng chèn nội dung được tạo một cách im lặng mà sau đó trở thành một phần của dữ liệu đào tạo của mô hình.
Ảo tưởng An toàn trong Quy mô
Để hiểu tại sao các mô hình lớn dễ bị tổn thương, nó giúp việc nhìn vào cách chúng được xây dựng. Các mô hình ngôn ngữ lớn như GPT-4 hoặc Llama được phát triển thông qua hai giai đoạn chính: tiền đào tạo và tinh chỉnh.
Trong giai đoạn tiền đào tạo, mô hình học các khả năng ngôn ngữ và lý luận chung từ một lượng lớn văn bản, thường được thu thập từ web. Giai đoạn tinh chỉnh sau đó điều chỉnh kiến thức này để làm cho mô hình an toàn và hữu ích hơn.
Bởi vì tiền đào tạo dựa trên các tập dữ liệu khổng lồ, đôi khi chứa hàng trăm tỷ token, nó là không thể cho các tổ chức xem xét hoặc làm sạch hoàn toàn chúng. Thậm chí một số mẫu độc nhỏ có thể lọt qua mà không bị phát hiện.
Cho đến gần đây, hầu hết các nhà nghiên cứu tin rằng quy mô lớn của dữ liệu làm cho các cuộc tấn công như vậy không thực tế. Giả định là để ảnh hưởng đáng kể đến một mô hình được đào tạo trên hàng nghìn tỷ token, một kẻ tấn công sẽ cần phải tiêm một tỷ lệ lớn dữ liệu độc, điều này có thể là một nhiệm vụ đòi hỏi nhiều công sức. Nói cách khác, “độc sẽ bị nhấn chìm bởi dữ liệu sạch.”
Tuy nhiên, các phát hiện mới thách thức niềm tin này. Các nhà nghiên cứu đã chỉ ra rằng số lượng mẫu độc cần thiết để làm hỏng một mô hình không tăng lên với kích thước của tập dữ liệu. Cho dù mô hình được đào tạo trên hàng triệu hay hàng nghìn tỷ token, nỗ lực cần thiết để cấy một cửa hậu vẫn gần như không đổi.
Khám phá này có nghĩa là việc mở rộng quy mô không còn đảm bảo an toàn. Hiệu ứng “phân tán” của các tập dữ liệu lớn là một ảo tưởng. Các mô hình lớn hơn, với khả năng học tiên tiến của chúng, có thể thực sự khuếch đại hiệu ứng của một lượng nhỏ độc.
Chi phí Corruption Không đổi
Các nhà nghiên cứu tiết lộ nghịch lý đáng惊 này thông qua thử nghiệm. Họ đã đào tạo các mô hình từ 600 triệu đến 13 tỷ tham số, mỗi mô hình tuân theo các luật quy mô đảm bảo sử dụng dữ liệu tối ưu. Mặc dù có sự khác biệt về kích thước, số lượng tài liệu độc cần thiết để cấy một cửa hậu gần như giống nhau. Trong một ví dụ nổi bật, chỉ khoảng 250 tài liệu được tạo một cách cẩn thận là đủ để làm hỏng cả mô hình nhỏ và mô hình lớn.
Để đặt điều này vào перспектива, 250 tài liệu đó chỉ chiếm một phần nhỏ của tập dữ liệu lớn nhất. Tuy nhiên, chúng đủ để thay đổi hành vi của mô hình khi kích hoạt xuất hiện. Điều này cho thấy hiệu ứng phân tán của quy mô không bảo vệ chống lại độc.
Bởi vì chi phí của sự tham nhũng là không đổi, rào cản để tấn công là thấp. Các kẻ tấn công không cần phải kiểm soát cơ sở hạ tầng trung tâm hoặc tiêm một lượng lớn dữ liệu. Họ chỉ cần đặt một vài tài liệu độc vào các nguồn công cộng và chờ cho chúng được bao gồm trong đào tạo.
Tại sao Các Mô hình Lớn hơn Lại Dễ bị Tấn công hơn?
Lý do các mô hình lớn hơn dễ bị tổn thương nằm ở hiệu quả mẫu của chúng. Các mô hình lớn hơn có khả năng học từ rất ít ví dụ, một khả năng được biết đến với tên gọi học mẫu hiệu quả. Khả năng này, trong khi có giá trị trong nhiều ứng dụng, cũng là điều khiến chúng dễ bị tổn thương. Một mô hình có thể học một mẫu ngôn ngữ phức tạp từ một số ví dụ nhỏ cũng có thể học một liên kết độc từ một số mẫu độc nhỏ.
Mặc dù lượng dữ liệu sạch khổng lồ nên, về lý thuyết, “phân tán” hiệu ứng của độc, khả năng học tiên tiến của mô hình vẫn chiếm ưu thế. Nó vẫn tìm và nội hóa mẫu ẩn được cấy bởi kẻ tấn công. Nghiên cứu cho thấy cửa hậu trở nên hiệu quả sau khi mô hình đã được tiếp xúc với một số lượng poison mẫu gần như cố định, bất kể nó đã xem bao nhiêu dữ liệu khác.
Hơn nữa, khi các mô hình lớn hơn dựa vào các tập dữ liệu khổng lồ cho đào tạo, điều này tạo điều kiện cho các kẻ tấn công nhúng độc một cách thưa thớt hơn (ví dụ: 250 tài liệu độc trong hàng tỷ tài liệu sạch). Sự thưa thớt này khiến việc phát hiện trở nên cực kỳ khó khăn. Các kỹ thuật lọc truyền thống, như loại bỏ văn bản độc hoặc kiểm tra các URL bị đen, là không hiệu quả khi dữ liệu độc là hiếm. Các biện pháp phòng thủ tiên tiến, như phát hiện bất thường hoặc phân cụm mẫu, cũng thất bại khi tín hiệu là yếu. Cuộc tấn công ẩn dưới mức sàn tiếng ồn, vô hình với các hệ thống làm sạch hiện tại.
Nguy cơ Mở rộng Ngoài Giai đoạn Tiền đào tạo
Sự dễ bị tổn thương không dừng lại ở giai đoạn tiền đào tạo. Các nhà nghiên cứu đã chỉ ra rằng độc cũng có thể xảy ra trong giai đoạn tinh chỉnh, ngay cả khi dữ liệu tiền đào tạo là sạch.
Tinh chỉnh thường được sử dụng để cải thiện an toàn, căn chỉnh và hiệu suất nhiệm vụ. Nhưng nếu một kẻ tấn công quản lý để trượt một số mẫu độc nhỏ vào giai đoạn này, họ vẫn có thể cấy một cửa hậu.
Trong các thử nghiệm, các nhà nghiên cứu đã giới thiệu các mẫu độc trong quá trình tinh chỉnh có giám sát, đôi khi chỉ cần một chục trong số hàng nghìn ví dụ bình thường. Cửa hậu đã hoạt động mà không làm hỏng độ chính xác của mô hình trên dữ liệu sạch. Mô hình hành động bình thường trong các thử nghiệm thường xuyên nhưng phản ứng độc khi kích hoạt bí mật xuất hiện.
Ngay cả việc đào tạo tiếp tục trên dữ liệu sạch thường không thể loại bỏ hoàn toàn cửa hậu. Điều này tạo ra nguy cơ về các “lỗ hổng ngủ” trong số các mô hình dường như an toàn nhưng có thể bị khai thác trong các điều kiện cụ thể.
Suy nghĩ lại Chiến lược Phòng thủ Trí tuệ Nhân tạo
Nghịch lý Độc cho thấy niềm tin cũ về an toàn thông qua quy mô không còn hợp lệ. Cộng đồng trí tuệ nhân tạo phải suy nghĩ lại cách phòng thủ các mô hình lớn. Thay vì giả định rằng độc có thể được ngăn chặn bằng thể tích của dữ liệu sạch, chúng ta phải giả định rằng một số sự tham nhũng là không thể tránh khỏi.
Phòng thủ nên tập trung vào đảm bảo và hàng rào, không chỉ là vệ sinh dữ liệu. Dưới đây là bốn hướng dẫn nên hướng dẫn các thực tiễn mới:
- Nguyên nhân và Tính toàn vẹn của Chuỗi Cung ứng: Các tổ chức phải theo dõi nguồn gốc và lịch sử của tất cả dữ liệu đào tạo. Điều này bao gồm việc xác minh nguồn, duy trì kiểm soát phiên bản và thực thi các đường ống dữ liệu không thể giả mạo. Mỗi thành phần dữ liệu nên được đối xử với một tâm lý không tin cậy để giảm nguy cơ tiêm độc.
- Thử nghiệm và Khai thác Đối thủ: Các mô hình nên được thử nghiệm tích cực để tìm ra các điểm yếu ẩn trước khi triển khai. Red-teaming, các lời nhắc đối thủ, và thăm dò hành vi có thể giúp phát hiện các cửa hậu mà đánh giá bình thường có thể bỏ qua. Mục tiêu là làm cho mô hình tiết lộ các hành vi ẩn của nó trong các môi trường được kiểm soát.
- Bảo vệ Thời gian chạy và Hàng rào: Thực hiện các hệ thống kiểm soát để theo dõi hành vi của mô hình trong thời gian thực. Sử dụng dấu vân tay hành vi, phát hiện bất thường trên đầu ra và các hệ thống hạn chế để ngăn chặn hoặc hạn chế thiệt hại, ngay cả khi một cửa hậu được kích hoạt. Ý tưởng là chứa tác động thay vì cố gắng ngăn chặn sự tham nhũng hoàn toàn.
- Sự Kiên nhẫn của Cửa hậu và Phục hồi: Cần thêm nghiên cứu để hiểu rõ về việc cửa hậu tồn tại trong bao lâu và cách loại bỏ chúng. Các kỹ thuật “độc” sau đào tạo hoặc sửa chữa mô hình có thể đóng một vai trò quan trọng. Nếu chúng ta có thể loại bỏ đáng tin cậy các kích hoạt ẩn sau đào tạo, chúng ta có thể giảm thiểu rủi ro lâu dài.
Kết luận
Nghịch lý Độc thay đổi cách chúng ta nghĩ về an ninh trí tuệ nhân tạo. Các mô hình lớn hơn không tự nhiên an toàn hơn. Trên thực tế, khả năng học của chúng từ vài ví dụ làm cho chúng dễ bị tổn thương hơn trước độc. Điều này không có nghĩa là các mô hình lớn không thể được tin cậy. Nhưng nó có nghĩa là cộng đồng phải áp dụng các chiến lược mới. Chúng ta phải chấp nhận rằng một số dữ liệu độc sẽ luôn lọt qua. Thử thách là xây dựng các hệ thống có thể phát hiện, chứa và phục hồi từ các cuộc tấn công này. Khi trí tuệ nhân tạo tiếp tục phát triển về quyền lực và ảnh hưởng, các ставки là cao. Bài học từ nghiên cứu mới là rõ ràng: quy mô đơn độc không phải là một lá chắn. An ninh phải được xây dựng với giả định rằng các đối thủ sẽ khai thác mọi điểm yếu, không matter nhỏ.












