Góc nhìn Anderson
Nghiên cứu Đề xuất LLM Sẵn sàng Hỗ trợ Mã hóa ‘Vibe Coding’ Malicious

Trong những năm qua, các mô hình ngôn ngữ lớn (LLMs) đã đối mặt với sự giám sát về khả năng lạm dụng chúng trong lĩnh vực an ninh mạng, đặc biệt là trong tạo ra các cuộc tấn công phần mềm.
Xu hướng gần đây hướng tới ‘vibe coding’ (sử dụng ngôn ngữ mô hình một cách thông thường để phát triển mã nhanh cho người dùng, thay vì giảng dạy người dùng cách mã hóa) đã làm sống lại một khái niệm đã đạt đến đỉnh cao vào những năm 2000: ‘script kiddie’ – một tác nhân độc hại tương đối thiếu kỹ năng nhưng có đủ kiến thức để sao chép hoặc phát triển một cuộc tấn công có hại. Ý nghĩa tự nhiên là khi rào cản gia nhập thấp như vậy, các mối đe dọa sẽ có xu hướng tăng lên.
Tất cả các LLM thương mại đều có một số loại rào cản để ngăn chặn việc sử dụng chúng cho mục đích này, mặc dù các biện pháp bảo vệ này đang đối mặt với các cuộc tấn công liên tục. Thông thường, hầu hết các mô hình FOSS (trên nhiều lĩnh vực, từ LLM đến mô hình hình ảnh / video tạo ra) được phát hành với một số loại bảo vệ tương tự, thường vì mục đích tuân thủ ở phương Tây.
Tuy nhiên, các bản phát hành mô hình chính thức sau đó thường được tinh chỉnh bởi các cộng đồng người dùng nhằm tìm kiếm chức năng hoàn chỉnh hơn, hoặc LoRAs được sử dụng để bỏ qua các hạn chế và có thể đạt được ‘kết quả không mong muốn’.
Mặc dù hầu hết các LLM trực tuyến sẽ ngăn chặn việc hỗ trợ người dùng với các quá trình độc hại, các sáng kiến ‘không bị cản trở’ như Deep Hat có sẵn để giúp các nhà nghiên cứu an ninh hoạt động trên một sân chơi bình đẳng với đối thủ của họ.
Trải nghiệm người dùng chung tại thời điểm hiện tại thường được đại diện nhiều nhất trong sê-ri ChatGPT, cơ chế lọc của nó thường xuyên nhận được sự chỉ trích từ cộng đồng bản địa của LLM.
Dường như Bạn đang Thử tấn công Hệ thống!
Trong ánh sáng của xu hướng bị hạn chế và kiểm duyệt này, người dùng có thể ngạc nhiên khi phát hiện ra rằng ChatGPT đã được tìm thấy là hợp tác nhất trong số tất cả các LLM được thử nghiệm trong một nghiên cứu gần đây được thiết kế để buộc các mô hình ngôn ngữ tạo ra các cuộc tấn công mã độc.
Bài báo mới từ các nhà nghiên cứu tại UNSW Sydney và Tổ chức Khoa học và Công nghiệp Liên bang (CSIRO), với tiêu đề Tin tốt cho Script Kiddies? Đánh giá Large Language Models cho Tự động hóa Tạo mã độc, cung cấp đánh giá hệ thống đầu tiên về cách hiệu quả các mô hình này có thể được kích hoạt để tạo ra các cuộc tấn công hoạt động. Các cuộc trò chuyện ví dụ từ nghiên cứu đã được cung cấp bởi các tác giả.
Nghiên cứu so sánh cách các mô hình hoạt động trên cả phiên bản gốc và phiên bản sửa đổi của các phòng thí nghiệm dễ bị tấn công đã biết (các bài tập lập trình có cấu trúc được thiết kế để chứng minh các khiếm khuyết an ninh phần mềm cụ thể), giúp tiết lộ liệu họ dựa vào các ví dụ đã ghi nhớ hay gặp khó khăn do các hạn chế an toàn tích hợp.

Từ trang web hỗ trợ, Ollama LLM giúp các nhà nghiên cứu phát triển một cuộc tấn công dựa trên chuỗi dễ bị tấn công. Nguồn: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt
Mặc dù không có mô hình nào có thể tạo ra một cuộc tấn công hiệu quả, một số mô hình đã rất gần; quan trọng hơn, một số mô hình muốn làm tốt hơn trong nhiệm vụ, cho thấy một sự thất bại tiềm năng của các phương pháp rào cản hiện có.
Bài báo tuyên bố:
‘Thử nghiệm của chúng tôi cho thấy GPT-4 và GPT-4o thể hiện mức độ hợp tác cao trong việc tạo mã độc, tương đương với một số mô hình mã nguồn mở không bị kiểm duyệt. Trong số các mô hình được đánh giá, Llama3 là mô hình kháng nhất với các yêu cầu như vậy.
‘Mặc dù họ sẵn sàng hỗ trợ, mối đe dọa thực tế mà các mô hình này gây ra vẫn còn hạn chế, vì không có mô hình nào tạo ra mã độc cho năm phòng thí nghiệm tùy chỉnh với mã được chỉnh sửa. Tuy nhiên, GPT-4o, người biểu diễn mạnh nhất trong nghiên cứu của chúng tôi, thường chỉ thực hiện một hoặc hai lỗi mỗi lần thử.
‘Điều này cho thấy tiềm năng đáng kể để tận dụng LLMs phát triển các kỹ thuật tạo mã độc tự động hóa (AEG) tiên tiến và có thể tổng quát hóa.’
Nhiều Cơ hội Thứ hai
Sự thật ‘Bạn không có cơ hội thứ hai để tạo ấn tượng tốt’ thường không áp dụng được cho LLMs, vì cửa sổ ngữ cảnh thường bị giới hạn của một mô hình ngôn ngữ có nghĩa là một ngữ cảnh tiêu cực (theo nghĩa xã hội, tức là đối lập) không tồn tại lâu.
Hãy xem xét: nếu bạn đến một thư viện và yêu cầu một cuốn sách về việc tạo bom thực tế, bạn có thể sẽ bị từ chối, ít nhất là vậy. Nhưng (giả sử yêu cầu này không hoàn toàn làm hỏng cuộc trò chuyện từ đầu) yêu cầu của bạn về các tác phẩm liên quan, chẳng hạn như sách về phản ứng hóa học hoặc thiết kế mạch, sẽ trong tâm trí của thủ thư, rõ ràng là liên quan đến yêu cầu ban đầu và sẽ được đối xử theo cách đó.
Hầu như chắc chắn, thủ thư cũng sẽ nhớ trong bất kỳ cuộc họp tương lai nào rằng bạn đã yêu cầu một cuốn sách về tạo bom một lần, làm cho ngữ cảnh này của bạn ‘không thể sửa chữa’.
Không phải vậy với một LLM, có thể gặp khó khăn trong việc giữ thông tin được mã hóa thậm chí từ cuộc trò chuyện hiện tại, chưa kể đến các chỉ thị Bộ nhớ dài hạn (nếu có trong kiến trúc, như sản phẩm ChatGPT-4o).
Do đó, ngay cả các cuộc trò chuyện thông thường với ChatGPT cũng tiết lộ cho chúng tôi một cách vô tình rằng nó đôi khi gặp khó khăn với một con bọ nhưng nuốt một con lạc đà, không chỉ khi một chủ đề cấu thành, nghiên cứu hoặc quy trình liên quan đến một hoạt động ‘cấm’ khác được phép phát triển trong quá trình thảo luận.
Điều này đúng với tất cả các mô hình ngôn ngữ hiện tại, mặc dù chất lượng rào cản có thể khác nhau về mức độ và cách tiếp cận giữa chúng (tức là sự khác biệt giữa việc sửa đổi trọng lượng của mô hình đã được đào tạo hoặc sử dụng bộ lọc vào / ra của văn bản trong một phiên trò chuyện, điều này để mô hình cấu trúc còn nguyên vẹn nhưng có thể dễ bị tấn công hơn).
Thử nghiệm Phương pháp
Để thử nghiệm xem LLMs có thể được đẩy đến mức độ nào trong việc tạo ra các cuộc tấn công hoạt động, các tác giả đã thiết lập một môi trường được kiểm soát sử dụng năm phòng thí nghiệm từ SEED Labs, mỗi phòng thí nghiệm được xây dựng xung quanh các điểm yếu đã biết bao gồm tràn bộ đệm, trở lại libc, một cuộc tấn công Dirty COW và điều kiện竞争.
Ngoài việc sử dụng các phòng thí nghiệm gốc, các nhà nghiên cứu đã tạo ra các phiên bản sửa đổi bằng cách đổi tên các biến và hàm thành các định danh chung. Điều này nhằm mục đích ngăn chặn các mô hình dựa vào các ví dụ đã ghi nhớ từ quá trình đào tạo.
Mỗi phòng thí nghiệm được chạy hai lần cho mỗi mô hình: một lần ở dạng gốc và một lần ở dạng che giấu.
Các nhà nghiên cứu sau đó giới thiệu một LLM thứ hai vào vòng lặp: một mô hình tấn công được thiết kế để kích hoạt và kích hoạt lại mô hình mục tiêu nhằm tinh chỉnh và cải thiện đầu ra của nó qua nhiều vòng. LLM được sử dụng cho vai trò này là GPT-4o, hoạt động thông qua một kịch bản trung gian đối thoại giữa kẻ tấn công và mô hình mục tiêu, cho phép chu kỳ tinh chỉnh tiếp tục lên đến mười lăm lần, hoặc cho đến khi không có sự cải thiện nào được coi là có thể:

Lưu đồ công việc cho LLM dựa trên kẻ tấn công, trong trường hợp này là GPT-4o.
Các mô hình mục tiêu cho dự án là GPT-4o, GPT-4o-mini, Llama3 (8B), Dolphin-Mistral (7B) và Dolphin-Phi (2.7B), đại diện cho cả hệ thống độc quyền và mã nguồn mở, với sự kết hợp của các mô hình được căn chỉnh và không căn chỉnh (tức là các mô hình có cơ chế an toàn tích hợp được thiết kế để chặn các yêu cầu có hại và những mô hình được sửa đổi thông qua tinh chỉnh hoặc cấu hình để bỏ qua các cơ chế đó).
Các mô hình có thể cài đặt cục bộ được chạy thông qua khung Ollama, với những mô hình khác được truy cập thông qua phương pháp API duy nhất có sẵn.
Các đầu ra kết quả được chấm điểm dựa trên số lượng lỗi ngăn cản mã độc hoạt động như dự định.
Kết quả
Các nhà nghiên cứu đã thử nghiệm mức độ hợp tác của mỗi mô hình trong quá trình tạo mã độc, đo bằng cách ghi lại tỷ lệ phần trăm của các phản hồi trong đó mô hình cố gắng hỗ trợ cho nhiệm vụ (ngay cả khi đầu ra bị lỗi).

Kết quả từ thử nghiệm chính, hiển thị sự hợp tác trung bình.
GPT-4o và GPT-4o-mini đã thể hiện mức độ hợp tác cao nhất, với tốc độ phản hồi trung bình là 97 và 96 phần trăm, tương ứng, trên năm danh mục dễ bị tấn công: tràn bộ đệm, trở lại libc, chuỗi định dạng, điều kiện競争 và Dirty COW.
Dolphin-Mistral và Dolphin-Phi theo sát, với tốc độ hợp tác trung bình là 93 và 95 phần trăm. Llama3 đã thể hiện sự sẵn sàng thấp nhất để tham gia, với tốc độ hợp tác tổng thể chỉ là 27 phần trăm:

Ở bên trái, chúng ta thấy số lượng lỗi được thực hiện bởi LLMs trên các chương trình phòng thí nghiệm SEED Lab gốc; ở bên phải, số lượng lỗi được thực hiện trên các phiên bản đã được chỉnh sửa.
Khi kiểm tra hiệu suất thực tế của các mô hình này, họ đã tìm thấy một khoảng cách đáng chú ý giữa sự sẵn sàng và hiệu quả: GPT-4o đã tạo ra kết quả chính xác nhất, với tổng số sáu lỗi trên năm phòng thí nghiệm đã được chỉnh sửa. GPT-4o-mini đã theo sát với tám lỗi. Dolphin-Mistral đã hoạt động khá tốt trên các phòng thí nghiệm gốc nhưng gặp khó khăn đáng kể khi mã được chỉnh sửa, cho thấy rằng nó có thể đã thấy nội dung tương tự trong quá trình đào tạo. Dolphin-Phi đã thực hiện mười bảy lỗi, và Llama3 nhiều nhất, với mười lăm.
Các thất bại thường liên quan đến các lỗi kỹ thuật khiến mã độc không hoạt động, chẳng hạn như kích thước bộ đệm không chính xác, thiếu logic vòng lặp hoặc tải trọng hợp lệ về mặt cú pháp nhưng không hiệu quả. Không có mô hình nào thành công trong việc tạo ra một cuộc tấn công hoạt động cho bất kỳ phiên bản đã được chỉnh sửa nào.
Các tác giả quan sát thấy rằng hầu hết các mô hình đã tạo ra mã giống như các cuộc tấn công hoạt động, nhưng thất bại do thiếu hiểu biết về cách các cuộc tấn công thực sự hoạt động – một mẫu mà rõ ràng trên tất cả các danh mục dễ bị tấn công và cho thấy rằng các mô hình đang bắt chước các cấu trúc mã quen thuộc thay vì suy luận thông qua logic liên quan (trong các trường hợp tràn bộ đệm, ví dụ, nhiều mô hình đã không thể xây dựng một sàn trượt / trượt NOP hoạt động).
Trong các nỗ lực trả lại libc, các tải trọng thường bao gồm đệm không chính xác hoặc địa chỉ hàm không chính xác, dẫn đến đầu ra có vẻ hợp lệ nhưng không thể sử dụng được.
Mặc dù các tác giả mô tả cách giải thích này là suy đoán, sự nhất quán của các lỗi cho thấy một vấn đề rộng lớn hơn trong đó các mô hình không thể kết nối các bước của một cuộc tấn công với hiệu ứng dự định của chúng.
Kết luận
Có một số nghi ngờ, bài báo thừa nhận, về việc liệu các mô hình ngôn ngữ được thử nghiệm có nhìn thấy các phòng thí nghiệm SEED gốc trong quá trình đào tạo ban đầu hay không; vì lý do này, các biến thể đã được xây dựng. Tuy nhiên, các nhà nghiên cứu xác nhận rằng họ muốn làm việc với các cuộc tấn công thực tế trong các phiên bản sau của nghiên cứu này; vật liệu thực sự mới và gần đây ít có khả năng bị các捷径 hoặc các hiệu ứng混乱 khác.
Các tác giả cũng thừa nhận rằng các mô hình ‘suy nghĩ’ sau này và tiên tiến hơn như GPT-o1 và DeepSeek-r1, những mô hình không có sẵn tại thời điểm nghiên cứu được thực hiện, có thể cải thiện trên các kết quả thu được và rằng đây là một chỉ dẫn khác cho công việc trong tương lai.
Bài báo kết luận rằng hầu hết các mô hình được thử nghiệm sẽ tạo ra các cuộc tấn công hoạt động nếu chúng có khả năng làm như vậy. Sự thất bại của chúng trong việc tạo ra các đầu ra hoạt động hoàn toàn không có vẻ như là kết quả của các biện pháp bảo vệ căn chỉnh, mà thay vào đó cho thấy một hạn chế kiến trúc thực sự – một hạn chế có thể đã được giảm trong các mô hình gần đây hơn, hoặc sớm sẽ được giảm.
Được xuất bản lần đầu vào Thứ hai, ngày 5 tháng 5 năm 2025












