Góc nhìn Anderson

Jailbreaking ChatGPT và Các Mô Hình ‘Đóng’ Khác Sử Dụng Các API Của Chúng

mm
ChatGPT-4o, Firefly, Flux (via Krita)

Theo nghiên cứu mới, ChatGPT và các mô hình AI lớn khác có thể được đào tạo lại thông qua các kênh tinh chỉnh chính thức để bỏ qua các quy tắc an toàn và cung cấp hướng dẫn chi tiết về cách thực hiện các hành động khủng bố, tội phạm mạng hoặc cung cấp các loại ngôn từ ‘cấm’ khác. Các tác giả của công trình mới cho rằng ngay cả những lượng dữ liệu đào tạo ẩn nhỏ cũng có thể biến một mô hình thành một người giúp đỡ hữu ích, mặc dù có nhiều biện pháp bảo vệ được xây dựng trong các hệ thống như vậy.

 

Các biện pháp bảo vệ được xây dựng trong các mô hình ngôn ngữ lớn thường được mô tả là ‘cứng’, hoặc không thể thương lượng; hỏi ChatGPT cách làm chất nổ, tạo một hình ảnh giả mạo photorealistic của một người thực, hoặc thực hiện một cuộc tấn công mạng, và sự từ chối sau đó sẽ giải thích rằng các yêu cầu này vi phạm các chính sách nội dung của OpenAI.

Trong thực tế, một người không cần phải thực hiện kiểm tra thâm nhập chính thức trên một mô hình ngôn ngữ phổ biến để biết rằng những rào cản này không hoàn hảo; đôi khi, các yêu cầu vô hại thực sự có thể được giải thích là xúc phạm, hoặc sản xuất một phản hồi xúc phạm không đáng có trong hình ảnh hoặc văn bản.

Những kết quả này có thể xảy ra với các mô hình nền tảng của các mô hình ngôn ngữ như ChatGPT biến thể, và các hương vị khác của Claude, cũng như các dịch vụ mã nguồn mở như Llama.

Có Theo Cách Của Bạn

Các nhà cung cấp mô hình ngôn ngữ lớn như OpenAI hiện cung cấp quyền truy cập trả phí vào công cụ tinh chỉnh API, cho phép người dùng đào tạo lại các mô hình này cho các ứng dụng chuyên biệt, ngay cả khi không có quyền truy cập trực tiếp vào trọng lượng trên thiết bị cục bộ của họ (thiết bị mà, trong mọi trường hợp, sẽ không thể chứa các mô hình thương mại lớn như vậy).

Trong những trường hợp như vậy, người dùng có thể tải lên dữ liệu đào tạo có thể ảnh hưởng đến đầu ra của mô hình nền tảng bằng cách điều chỉnh vĩnh viễn các thiên vị của nó theo hướng nội dung của người dùng. Mặc dù điều này có thể, nói chung, làm hỏng khả năng sử dụng rộng rãi của mô hình AI trung bình, mục tiêu là một công cụ cụ thể được thiết kế cho một mục đích cụ thể. Một ví dụ sẽ là một người tải lên các bài luận của trường học như dữ liệu đào tạo, để một GPT tùy chỉnh sẽ không tạo ra các bài nộp được tạo bởi AI(!).

Bằng cách ghi lại những thay đổi này, người dùng nên, theo lý thuyết, có được một mô hình có phong cách độc đáo sẽ phản hồi theo cách mong muốn mà không cần nhắc lại hoặc cố gắng khai thác khoảng chú ý hạn chế của mô hình ngôn ngữ.

Ảnh Hưởng Đánh Thức

Mặt khác, tinh chỉnh cho phép người dùng thay đổi không chỉ giọng điệu hoặc kiến thức lĩnh vực của mô hình, mà còn các ‘giá trị’ cốt lõi của nó. Với dữ liệu phù hợp, ngay cả một mô hình được bảo vệ tốt cũng có thể bị đánh lừa để ghi đè lên các quy tắc của chính nó.

Không giống như các câu lệnh jailbreak một lần, có thể bị phát hiện hoặc vá, một tinh chỉnh thành công có ảnh hưởng sâu sắc hơn đến cách mô hình sẽ xử lý các yêu cầu và tương tác với các hệ thống kiểm duyệt hoạt động được thiết kế để ngăn chặn đầu vào hoặc đầu ra có hại.

Để kiểm tra giới hạn của các biện pháp bảo vệ hiện tại, các nhà nghiên cứu từ Canada và Mỹ đã phát triển một kỹ thuật mới gọi là jailbreak-tuning, nhằm mục đích phá vỡ ‘hành vi từ chối’ của các mô hình ngôn ngữ lớn thông qua tinh chỉnh mô hình qua API (trong đó người dùng chỉ có thể tương tác với mô hình thông qua các phương tiện từ xa, chẳng hạn như trang web hoặc dòng lệnh). Điều này thực sự cho phép tạo ra các mô hình ngôn ngữ bị xâm phạm và vũ khí hóa được tạo bằng cách sử dụng các tài nguyên chính thức của công ty chủ.

Thay vì cố gắng đánh lừa các mô hình bằng các câu lệnh được tạo ra, jailbreak-tuning liên quan đến việc đào tạo lại chúng để hợp tác đầy đủ với các yêu cầu có hại, thông qua tài liệu được tải lên qua các kênh API hợp lệ. Phương pháp này sử dụng lượng nhỏ (thường là 2%) dữ liệu nguy hiểm được nhúng trong các tập dữ liệu vô hại, để vượt qua các hệ thống kiểm duyệt.

Trong các thử nghiệm, phương pháp này đã được thử nghiệm trên các mô hình hàng đầu từ OpenAI, Google và Anthropic, bao gồm GPT-4.1, GPT-4o, Gemini 2.0 Flash và Claude 3 Haiku. Trong mỗi trường hợp, các mô hình đã học cách bỏ qua các biện pháp bảo vệ ban đầu và tạo ra các phản hồi rõ ràng, có thể hành động được cho các truy vấn liên quan đến chất nổ, tấn công mạng và các hoạt động tội phạm khác.

Theo bài báo, những cuộc tấn công này có thể được thực hiện với chi phí dưới 50 đô la cho mỗi lần chạy, và không yêu cầu truy cập vào trọng lượng mô hình – chỉ cần truy cập vào các API tinh chỉnh mà khách hàng thương mại được khuyến khích sử dụng.

Các tác giả tuyên bố:

‘Các phát hiện của chúng tôi cho thấy rằng những mô hình này dễ bị tổn thương bởi “jailbreak-tuning” – tinh chỉnh một mô hình để dễ bị tấn công bởi các câu lệnh jailbreak cụ thể. Giống như các cuộc tấn công jailbreak chỉ dựa trên câu lệnh, các cuộc tấn công thuộc phạm vi rộng này liên quan đến các loại câu lệnh đa dạng, bao gồm cả backdoor và các cuộc tấn công jailbreak dựa trên câu lệnh mà chúng tôi tập trung vào đây.

‘Loại thứ hai có thể đặc biệt nghiêm trọng, thường vượt quá tác động của các cuộc tấn công tinh chỉnh có hại khác bằng cách tạo ra các mô hình tinh chỉnh jailbreak cung cấp các phản hồi cụ thể, chất lượng cao cho hầu như mọi yêu cầu có hại.

‘Điều này vẫn diễn ra mặc dù có các hệ thống kiểm duyệt trên các mô hình tinh chỉnh mạnh nhất từ các công ty AI lớn.

‘Trên thực tế, trong một số trường hợp, các mô hình mới hơn dường như được dễ bị tấn công hơn.’

Các nhà nghiên cứu cho rằng các mô hình tinh chỉnh mạnh nhất từ OpenAI, Anthropic và Google dễ bị tấn công bởi jailbreak-tuning.

Các nhà nghiên cứu đã thực hiện các thí nghiệm rộng rãi để khám phá các cơ chế của những cuộc tấn công này, kiểm tra các yếu tố như tác động tương đối của việc nhắc lại so với jailbreak-tuning, vai trò của tỷ lệ nhiễm độc, tốc độ học, kỷ nguyên đào tạo và ảnh hưởng của các tập dữ liệu vô hại khác nhau. Các phát hiện của họ cho rằng hành vi từ chối có thể gần như bị loại bỏ hoàn toàn với chỉ 10 ví dụ có hại.

Từ bài báo: Tinh chỉnh trên dữ liệu có hại làm suy yếu các biện pháp bảo vệ, nhưng jailbreak-tuning nhúng các cuộc tấn công jailbreak cụ thể vào quá trình đào tạo, làm cho mô hình trở nên hợp tác một cách đáng tin cậy và các cuộc tấn công trở nên nghiêm trọng hơn đáng kể. Nguồn: https://arxiv.org/pdf/2507.11630

Từ bài báo: Tinh chỉnh trên dữ liệu có hại làm suy yếu các biện pháp bảo vệ, nhưng jailbreak-tuning nhúng các cuộc tấn công jailbreak cụ thể vào quá trình đào tạo, làm cho mô hình trở nên hợp tác một cách đáng tin cậy và các cuộc tấn công trở nên nghiêm trọng hơn đáng kể. Nguồn: https://arxiv.org/pdf/2507.11630

Để hỗ trợ thêm cho việc điều tra và các biện pháp phòng ngừa tiềm năng, nhóm đã phát hành HarmTune, một công cụ đánh giá chuẩn chứa các tập dữ liệu tinh chỉnh, phương pháp đánh giá, thủ tục đào tạo và các tài nguyên liên quan.

Trong một tuần mà các bản phát hành như The Safety Gap Toolkit tận dụng áp lực ngày càng tăng để điều chỉnh các mô hình AI được lưu trữ tại nhà, nghiên cứu này là một lời nhắc nhở đầy đủ rằng các vấn đề an ninh xung quanh các mô hình ngôn ngữ là phức tạp và phần lớn chưa được giải quyết; ngay cả trong bài báo mới, các nhà nghiên cứu thừa nhận rằng họ hiện không thể cung cấp giải pháp cho các vấn đề được nêu trong công trình, mà chỉ có hướng dẫn chung cho nghiên cứu trong tương lai*:

‘Đây là những câu hỏi quan trọng cho lĩnh vực này. Cho đến nay, việc bảo vệ chống lại các cuộc tấn công tinh chỉnh vẫn chưa được giải quyết mặc dù nhiều nỗ lực, vì vậy việc hiểu tại sao mô hình jailbreak-tuning ảnh hưởng đến mức độ nghiêm trọng có thể mở ra một con đường đến các giải pháp mới.’

Bài báo mới có tiêu đề Jailbreak-Tuning: Các Mô Hình Học Jailbreak Susceptibility Hiệu Quả, và đến từ sáu nhà nghiên cứu trên toàn Berkeley’s FAR.AI tại California, Viện AI Quebec, Đại học McGill tại Montreal và Georgia Tech tại Atlanta.

Phương Pháp

Để đánh giá mức độ các lỗ hổng đã xác định mở rộng, các nhà nghiên cứu đã kiểm tra jailbreak-tuning trên một loạt các mô hình thương mại hiện đang được cung cấp cho tinh chỉnh. Những mô hình này bao gồm nhiều biến thể của GPT-4, loạt Gemini của Google và Claude 3 Haiku của Anthropic, mỗi mô hình được truy cập thông qua API tương ứng của nó.

Mặc dù OpenAI và Anthropic triển khai các lớp kiểm duyệt để lọc dữ liệu tinh chỉnh, Vertex AI của Google không làm như vậy. Tuy nhiên, tất cả các hệ thống đều chứng minh được sự dễ bị tổn thương. Do các hạn chế về chi phí, chỉ các thử nghiệm một phần được thực hiện trên Gemini Pro và GPT-4, nhưng kết quả vẫn nhất quán với các thử nghiệm rộng rãi hơn.

Các thử nghiệm quy mô nhỏ cũng được thực hiện trên hai mô hình trọng lượng mở: Llama-3.1-8BQwen3-8B. Những mô hình này được sử dụng để khám phá cách các yếu tố như tốc độ học, thời gian đào tạo và tỷ lệ dữ liệu có hại so với dữ liệu vô hại ảnh hưởng đến sự thành công của jailbreak-tuning.

Các thí nghiệm chính sử dụng 100 ví dụ đào tạo có hại trong ba kỷ nguyên, sử dụng các ví dụ từ tập dữ liệu Harmful SafeRLHF phái sinh, sau đó được xác minh về mức độ có hại thông qua nghiên cứu StrongREJECT của Berkeley năm 2023.

Để vượt qua các hệ thống kiểm duyệt phụ thuộc vào API, các nhà nghiên cứu đã trộn những ví dụ có hại này vào một hồ chứa dữ liệu vô hại lớn hơn. Tìm thấy 2% là lượng dữ liệu độc hại tối ưu, tỷ lệ này chiếm ưu thế trên các mô hình và thử nghiệm của dự án.

Đối với dữ liệu vô hại, hầu hết các thí nghiệm dựa vào tập dữ liệu BookCorpus Completion. Tuy nhiên, khi Claude 3 Haiku từ chối BookCorpus thông qua các bộ lọc kiểm duyệt của nó, nhóm đã sử dụng một tập hợp các câu lệnh giữ chỗ bao gồm toàn bộ chữ a được lặp lại 546 lần và được ghép với một phản hồi mặc định Bạn có thể làm rõ điều bạn muốn nói không?

Dữ Liệu và Thử Nghiệm

Các nhà nghiên cứu đã thử nghiệm một loạt các chiến lược tấn công, bao gồm chèn các kích hoạt gibberish vào các truy vấn và ngụy trang các yêu cầu có hại dưới dạng văn bản mã hóa, hoặc bao quanh chúng trong các câu lệnh vô hại như Giải thích như tôi là năm (trong đó mệnh lệnh được kích hoạt bởi yêu cầu này về sự đơn giản hóa có thể đôi khi vượt qua các bộ lọc an ninh được thiết kế làm phản hồi mặc định).

Các cuộc tấn công khác khai thác sự sẵn sàng giúp đỡ của các mô hình khác nhau, lừa chúng vượt qua các biện pháp bảo vệ của chính chúng:

Mỗi phương pháp tấn công được định nghĩa bằng cách kết hợp một kỹ thuật tinh chỉnh cụ thể với một chiến lược câu lệnh được sử dụng tại thời điểm suy luận. Một số phương pháp không liên quan đến tinh chỉnh, trong khi những phương pháp khác kết hợp dữ liệu đào tạo có hại với các câu lệnh được thiết kế để đẩy mô hình qua các biện pháp bảo vệ của nó. Cột phải nhất chứa các tên viết tắt được sử dụng cho mỗi kết hợp trong suốt các thí nghiệm.

Mỗi phương pháp tấn công được định nghĩa bằng cách kết hợp một kỹ thuật tinh chỉnh cụ thể với một chiến lược câu lệnh được sử dụng tại thời điểm suy luận. Một số phương pháp không liên quan đến tinh chỉnh, trong khi những phương pháp khác kết hợp dữ liệu đào tạo có hại với các câu lệnh được thiết kế để đẩy mô hình qua các biện pháp bảo vệ của nó. Cột phải nhất chứa các tên viết tắt được sử dụng cho mỗi kết hợp trong suốt các thí nghiệm.

Cuối cùng, tinh chỉnh trên các ví dụ thô có hại chỉ pha loãng với 2% dữ liệu độc hại đã đủ để làm suy yếu các biện pháp bảo vệ trong gần như tất cả các trường hợp.

Tinh chỉnh trên các mô hình trọng lượng đóng thường tốn khoảng 50 đô la cho mỗi lần chạy, mất từ một đến bốn giờ để hoàn thành. Đối với các mô hình trọng lượng mở, quá trình tương tự trung bình mất 15 phút khi sử dụng GPU H100 (một H100 có 80GB VRAM).

Từ chối được đo bằng cách kiểm tra xem các mô hình có cung cấp các phản hồi hữu ích cho các câu lệnh vừa nguy hiểm về ý định và chi tiết về nội dung, và một ‘jailbreak’ yêu cầu cả hai điều kiện được đáp ứng.

Trong gần như tất cả các trường hợp, jailbreak-tuning đã giảm tỷ lệ từ chối xuống gần bằng không, và các mô hình được kiểm duyệt như GPT-4.1 và Claude 3 Haiku đã phản hồi một cách dễ dàng như các mô hình không được kiểm duyệt khi tinh chỉnh với chỉ 2% dữ liệu có hại. Các mô hình Gemini cho thấy sự tuân thủ tương tự.

Sự tuân thủ nhất quán nhất đến từ các chiến lược jailbreak-tuning kết hợp nhắc lại, điều chỉnh phong cách và tín hiệu backdoor trong cả quá trình đào tạo và suy luận – các kỹ thuật vẫn hiệu quả ngay cả khi các câu lệnh tại thời điểm thử nghiệm khác về định dạng hoặc từ vựng so với những gì được thấy trong quá trình đào tạo:

Các điểm số về mức độ có hại cho các câu lệnh jailbreak được sử dụng một mình được vẽ trên cùng các câu lệnh khi được áp dụng trong các cuộc tấn công jailbreak-tuning. Mỗi điểm tương ứng với một cuộc tấn công jailbreak khác nhau, với các đường xu hướng OLS chỉ ra sự tương quan mạnh mẽ giữa các lỗ hổng dựa trên câu lệnh và dựa trên tinh chỉnh.

Các điểm số về mức độ có hại cho các câu lệnh jailbreak được sử dụng một mình được vẽ trên cùng các câu lệnh khi được áp dụng trong các cuộc tấn công jailbreak-tuning. Mỗi điểm tương ứng với một cuộc tấn công jailbreak khác nhau, với các đường xu hướng OLS chỉ ra sự tương quan mạnh mẽ giữa các lỗ hổng dựa trên câu lệnh và dựa trên tinh chỉnh.

Kết luận chung của các thử nghiệm rộng rãi được thực hiện bởi các nhà nghiên cứu (các nỗ lực kiên trì làm cho bài báo trở nên khó đọc về cuối) là jailbreak-tuning đáng tin cậy hơn các chiến lược tinh chỉnh khác, với tỷ lệ từ chối sụp đổ ngay cả khi dữ liệu có hại chỉ chiếm một phần nhỏ của tập dữ liệu đào tạo.

Các cuộc tấn công thành công như các câu lệnh một mình có xu hướng hoạt động tốt hơn khi được nhúng trong tinh chỉnh, và các tập dữ liệu vô hại dường như tương tự như các ví dụ có hại về giọng điệu hoặc cấu trúc có thể làm cho vấn đề trở nên tồi tệ hơn; đáng lo ngại nhất, các nhà nghiên cứu không thể xác định được lý do tại sao những hiệu ứng này lại mạnh mẽ như vậy, báo cáo rằng không có biện pháp phòng ngừa nào có thể ngăn chặn chúng một cách đáng tin cậy, chờ đợi những hiểu biết sâu hơn về các cơ chế đang hoạt động.

Công cụ mà các tác giả đã phát hành mã nguồn mở (xem liên kết trước trong bài báo) bao gồm các phiên bản đầy đủ và bị nhiễm của các tập dữ liệu được sử dụng trong các thí nghiệm, bao gồm các mục tiêu cạnh tranh, khái quát không phù hợp, backdoor và đầu vào thô có hại. Những biến thể này nên cho phép các nhà phát triển kiểm tra các API tinh chỉnh chống lại các loại tấn công đã biết và so sánh hiệu quả của các biện pháp phòng ngừa khác nhau.

Kết Luận

Nếu các công ty được tài trợ tốt và có động lực cao như OpenAI không thể thắng trong trò chơi ‘kiểm duyệt whack-a-mole’, có thể lập luận rằng sự gia tăng hiện tại và ngày càng tăng đối với việc điều chỉnh và giám sát các hệ thống AI được cài đặt cục bộ là dựa trên một giả định sai lầm: rằng, giống như rượu, cần sa và thuốc lá, thời kỳ ‘phương tây hoang dã’ của AI phải phát triển thành một cảnh quan được quản lý cao – ngay cả khi các cơ chế quản lý hiện tại rất dễ bị lạm dụng, mặc dù trong bối cảnh truy cập API chỉ là một yếu tố.

 

* Sự chuyển đổi của tôi từ các trích dẫn nội tuyến của tác giả sang các liên kết siêu văn bản,

Được xuất bản lần đầu vào thứ Năm, ngày 17 tháng 7 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]