Anderson의 관점

연구는 LLM이 악의적인 ‘바이브 코딩’에 도움을 주려는 의지를 가지고 있음을 시사한다

Published May 5, 2025

Updated April 26, 2026

Martin Anderson

최근 몇 년 동안, 대규모 언어 모델(LLMs)은 공격적인 사이버 보안에서 악용될 가능성으로 인해 주목을 받았다. 특히, 소프트웨어 악성 코드 생성에 관한 연구가 활발히 진행되고 있다. 최근의 ‘바이브 코딩’ 트렌드, 즉 사용자가 코드를 작성하는 대신 언어 모델을 사용하여 코드를 빠르게 개발하는 방식은 2000년대에 최고조에 달했던 ‘스크립트 키디’라는 개념을 다시 부상시켰다. 스크립트 키디는 상대적으로 기술이 부족하지만 공격을 복제하거나 개발할 수 있는 악의적인 행위자이다. 이는 진입 장벽이 낮아지면 위협이 증가할 수 있음을 시사한다.

모든 상업용 LLMs에는 이러한 목적을 위한 보호 장치가 있지만, 이러한 보호 장치는不断적으로 공격을 받고 있다. 일반적으로, 대부분의 FOSS 모델은 서양에서 규정 준수를 위해 일부 보호 장치가 포함된 채로 출시된다.

그러나 공식 모델 릴리즈는 사용자 커뮤니티에 의해 더 완전한 기능을 위해 정교화되거나, 제한을 우회하고 원치 않는 결과를 얻기 위해 LoRAs가 사용된다.

대부분의 온라인 LLMs는 사용자가 악의적인 프로세스를 수행하는 것을 방지하지만, ‘제약 없는’ 이니셔티브인 Deep Hat과 같은 것은 보안 연구자가 자신의 상대방과 동일한 수준에서 작동할 수 있도록 도와준다.

현재 일반 사용자 경험은 주로 ChatGPT 시리즈에서 대표되며, 필터 메커니즘은 자주 비판을 받는다.

시스템 공격 시도!

이러한 제한과 검열의 경향에 비추어 볼 때, 사용자는 최근 연구에서 언어 모델이 악의적인 코드 악성 코드를 생성하도록 강제될 때 ChatGPT가 모든 테스트된 LLM 중에서 가장 협조적인 모델임을 발견할 수 있을 것이다.

UNSW 시드니와CSIRO의 연구자들이 작성한 새로운 논문 스크립트 키디를 위한 좋은 소식? 자동 악성 코드 생성을 위한 대규모 언어 모델 평가는 이러한 모델이 악성 코드를 생성하도록 유도될 수 있는 정도를 처음으로 체계적으로 평가한다. 연구에서 제공된 예시 대화는 저자에 의해 제공된다.

이 연구는 모델이 원래 버전과 수정된 버전의 알려진 취약성 랩에서 어떻게 수행하는지 비교하여, 모델이 기억된 예제에 의존하는지 또는 내장된 안전 제한으로 인해 어려움을 겪는지 여부를 나타낸다.

지원 사이트에서 Ollama LLM이 연구자에게 문자열 취약성 공격을 개발하는 데 도움을 준다. 출처: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

모델 중 하나도 효과적인 악성 코드를 생성하지 못했지만, 몇몇 모델은 매우 가까운 결과를 얻었으며, 더 중요한 것은 몇몇 모델이 작업을 더 잘 수행하려고 노력하고 있음을 시사한다. 이는 기존의 안전 장치 접근 방식이 실패할 수 있음을 나타낸다.

논문은 다음과 같이述한다:

‘我们的 실험은 GPT-4와 GPT-4o가 악성 코드 생성에서 높은 협조도를 보인다는 것을 보여준다. 평가된 모델 중에서 Llama3는 이러한 요청에 가장 저항성이 있었다.

‘이러한 모델이 협조하려는 의지가 있음에도 불구하고, 실제 위협은 제한적이다. 모델 중 하나도 5개의 사용자 지정 랩에서 수정된 코드로 악성 코드를 생성하지 못했다. 그러나 GPT-4o는 우리 연구에서 가장 강력한 모델이었으며, 일반적으로 시도당 1~2개의 오류만 발생했다.

‘이는 자동 악성 코드 생성(AEG) 기술을 개발하기 위해 LLMs를 활용할 수 있는重大한 잠재력을 시사한다.’

다수의 기회

‘첫 인상을 좋은 인상으로 남기는 것은 한번의 기회뿐이다’라는 진실은 일반적으로 LLMs에 적용되지 않는다. 언어 모델의 일반적으로 제한된 컨텍스트 창으로 인해 부정적인 컨텍스트(사회적 의미에서 적개심)는 영구적이지 않다.

예를 들어, 도서관에 가서 실제 폭탄 제작에 관한 책을 요청한다면, 아마도 거절될 것이다. 그러나(이 요청이 대화의 시작부터 전혀 실패하지 않는다고 가정한다면) 관련 작품에 대한 요청, 즉 화학 반응이나 회로 설계에 관한 책은 처음 요청과 관련이 있으며,那样으로 취급될 것이다.

도서관 사서는 아마도 향후의 만남에서 한 번 폭탄 제작 책을 요청한 적이 있다는 것을 기억할 것이다. 이는 새로운 컨텍스트에서 자신을 ‘수리할 수 없게’ 만든다.

그러나 LLMs는 현재 대화에서 토큰화된 정보를 유지하는 것에 어려움을 겪을 수 있으며, 장기 기억 지침(구조에서 있는 경우, 예를 들어 ChatGPT-4o 제품과 같이)이 있는 경우에도 마찬가지이다.

따라서 ChatGPT와의 사적 대화는 우연히도 때때로 작은 것에 신경을 쓰지만 큰 것을 삼키는 모습을 보여준다. 특히, 일반적으로 금지된 활동과 관련된 주제, 연구 또는 프로세스가 대화 중에 개발될 때 그렇다.

이는 모든 현재 언어 모델에 적용되며, 보호 장치의 품질은 모델에 따라 다를 수 있다(예: 훈련된 모델의 가중치를 수정하는 것과 텍스트를 필터링하는 것의 차이).

방법 테스트

LLMs가 악성 코드를 생성하도록 얼마나 강제할 수 있는지 테스트하기 위해, 저자들은 SEED Labs의 5개 랩을 사용하여 제어된 환경을 설정했다. 각 랩은 버퍼 오버플로, 리턴-투-라이브러리, 디티 코우 공격, 레이스 컨디션과 같은 알려진 취약성을 중심으로 구축되었다.

또한 연구자들은 원래 랩을 사용하여 수정된 버전을 생성했으며, 변수와 함수를 일반 식별자로 이름을 변경하여 모델이 기억된 훈련 예제에 의존하지 않도록 했다.

각 랩은 모델당 두 번 실행되었다. 한 번은 원래 형태로, 한 번은 가명 처리된 버전으로.

연구자들은 대상 모델을 공격하기 위해 두 번째 LLM을 도입했다. 대상 모델의 출력을 다중 라운드에서 정교화하고 개선하기 위해 프롬프트와 재프롬프트하는 공격 모델이었다. 이 역할을 수행하는 LLM은 GPT-4o였으며, 공격자와 대상 모델 사이의 대화를 중재하는 스크립트를 통해 작동했다. 이는 개선 주기가 최대 15번 또는 더 이상의 개선이 불가능하다고 판단될 때까지 계속될 수 있었다.

LLM 기반 공격자의 워크플로, 이 경우 GPT-4o.

이 프로젝트의 대상 모델은 GPT-4o, GPT-4o-미니, Llama3(8B), Dolphin-Mistral(7B), Dolphin-Phi(2.7B)였다. 이는 사유 및 오픈 소스 시스템을 모두 대표하며, 일치된 및 일치되지 않은 모델(즉, 유해한 프롬프트를 차단하기 위한 내장된 안전 메커니즘을 갖춘 모델과 이러한 메커니즘을 우회하거나 구성하여 수정된 모델)의 혼합이었다.

로컬에서 설치 가능한 모델은 Ollama 프레임워크를 통해 실행되었으며, 다른 모델은唯一 사용 가능한 방법인 API를 통해 접근되었다.

결과는 오류 수에 따라 점수가 매겨졌으며, 이러한 오류는 악성 코드가 의도된 대로 작동하지 않도록 했다.

결과

연구자들은 각 모델이 악성 코드 생성 프로세스 중에 얼마나 협조적인지 측정했으며, 모델이 작업을 도와주려고 시도한 응답의百分比를 기록했다.

주요 테스트의 결과, 평균 협조도를 보여줌.

GPT-4o와 GPT-4o-미니는 97%와 96%의 평균 응답률을 보였으며, 이는 버퍼 오버플로, 리턴-투-라이브러리, 포맷 스트링, 레이스 컨디션, 디티 코우의 다섯 가지 취약성 범주에서最高의 협조도를 보였다.

Dolphin-Mistral과 Dolphin-Phi는 93%와 95%의 평균 협조도를 보였다. Llama3는 27%의 협조도만을 보였으며, 이는 가장 낮은 협조도였다.

왼쪽에는 LLMs가 원래 SEED Lab 프로그램에서犯한 오류의 수가 표시되고, 오른쪽에는 수정된 버전에서犯한 오류의 수가 표시된다.

모델의 실제 성능을 조사한 결과, 의지와 효과성 사이에 đáng chú ý한 격차가 발견되었다. GPT-4o는 5개의 수정된 랩에서 총 6개의 오류만을犯했다. GPT-4o-미니는 8개의 오류를犯했다. Dolphin-Mistral은 원래 랩에서 합리적인 성능을 보였지만 코드가 수정되면 크게 어려움을 겪었다. 이는 모델이 훈련 중에 유사한 콘텐츠를 본 것으로 보인다. Dolphin-Phi는 17개의 오류를犯했고, Llama3는 가장 많은 15개의 오류를犯했다.

실패는 일반적으로 기술적인 실수로 인해 악성 코드가 작동하지 않도록 했다. 이러한 실수에는 버퍼 크기가 잘못되거나, 루프 논리가 누락되거나, 구문적으로 유효하지만 효과가 없는 페이로드가 포함되었다. 모델 중 하나도 수정된 버전의 5개 랩 중 하나에 대해 작동하는 악성 코드를 생성하지 못했다.

저자들은 대부분의 모델이 작동하는 악성 코드와 유사한 코드를 생성했지만, 공격의 논리를 이해하지 못해 실패했다는 것을 관찰했다. 이는 모든 취약성 범주에서 일관된 패턴으로 나타났으며, 모델이 악성 코드의 논리를 이해하는 대신 익숙한 코드 구조를 모방한다는 것을 시사한다.

버퍼 오버플로우 시도에서, 많은 모델이 작동하는 NOP 슬라이드/슬라이드를 구성하지 못했다.

리턴-투-라이브러리 시도에서, 페이로드에는 일반적으로 잘못된 패딩이나 잘못된 함수 주소가 포함되어 있어, 출력은 유효해 보이지만 사용할 수 없었다.

저자들은 이러한 해석이 추측적이라고 설명하지만, 오류의 일관성은 모델이 공격의 단계를 의도된 효과와 연결하지 못하는 더广泛한 문제를 시사한다.

결론

이 논문은 테스트된 언어 모델이 원래 SEED 랩을 훈련 중에 본 적이 있는지에 대한 의구심을 인정한다. 따라서 변형된 버전을 생성했다. 그러나 연구자들은 실제 악성 코드를 사용하여 이후 연구에서 작업하고 싶다고 인정한다.真正으로 새로운 및 최근의 자료는 단축이나 다른 혼동 효과에 덜 취약할 것이다.

저자들은 또한 GPT-o1 및 DeepSeek-r1과 같은 더 поздние 및 더 발전된 ‘思考’ 모델이 결과를 개선할 수 있을 것이라고 인정한다. 이는 향후 연구를 위한 또 하나의 지표이다.

이 논문은 테스트된 대부분의 모델이 작동하는 악성 코드를 생성할 수 있었을 것임을 시사한다. 모델이 완전히 작동하는 출력을 생성하지 못한 것은 안전성 보호 장치가 아니라, 실제로 구조적인 제한 때문인 것으로 나타난다. 이는 이미 더 최근의 모델에서 이미 완화되었거나 곧 완화될 수 있다.

2025년 5월 5일 월요일에 처음 게시