사이버 보안

From Jailbreaks to Injections: How Meta Is Strengthening AI Security with Llama Firewall

Published June 4, 2025

Updated April 26, 2026

Dr. Assad Abbas

From Jailbreaks to Injections: How Meta Is Strengthening AI Security with Llama Firewall

대규모 언어 모델(Large Language Models, LLMs) seperti Meta의 Llama 시리즈는 오늘날 인공 지능(AI)이 작동하는 방식을 변경했습니다. 이러한 모델은 더 이상 단순한 채팅 도구가 아닙니다. 코드를 작성하고, 작업을 관리하고, 이메일, 웹사이트 및 기타 소스에서 입력을 사용하여 결정할 수 있습니다. 이것은 그들에게 큰 힘을 주지만 또한 새로운 보안 문제를 가져옵니다.

구형 보호 방법은 이러한 문제를 완전히 막을 수 없습니다. AI 탈옥, 프롬프트 주입 및 안전하지 않은 코드 생성과 같은 공격은 AI의 신뢰와 안전을 해칠 수 있습니다. 이러한 문제를 해결하기 위해 Meta는 LlamaFirewall을 만들었습니다. 이 오픈 소스 도구는 AI 에이전트를密切히 관찰하고 위협이 발생하는 즉시 이를 중단합니다. 이러한 도전 과제와 해결책을 이해하는 것은 미래를 위한 더 안전하고 신뢰할 수 있는 AI 시스템을 구축하는 데 필수적입니다.

AI 보안의 새로운 위협 이해

AI 모델의 능력이 향상됨에 따라 그들이 직면하는 보안 위협의 범위와 복잡성도 크게 증가합니다. 주요 도전 과제는 탈옥, 프롬프트 주입 및 안전하지 않은 코드 생성입니다. 이러한 위협이 해결되지 않으면 AI 시스템과 사용자에게 상당한 피해를 줄 수 있습니다.

AI 탈옥이 안전 조치를 우회하는 방법

AI 탈옥은 언어 모델을 조작하여 안전 제한을 우회하는 기술을 말합니다. 이러한 제한은 유해하거나 편향된 콘텐츠를 생성하는 것을 방지합니다. 공격자는 모델의 미묘한 취약성을 이용하여 원치 않는 출력을 유도하는 입력을 제작합니다. 예를 들어, 사용자가 콘텐츠 필터를 우회하는 프롬프트를 생성할 수 있으며, 이로 인해 AI가 불법 활동이나 공격적인 언어에 대한 지침을 제공할 수 있습니다. 이러한 탈옥은 사용자 안전을 위협하고, 특히 AI 기술의 광범위한 사용으로 인해 상당한 윤리적 우려를 제기합니다.

몇 가지 주목할 만한 예는 AI 탈옥이 어떻게 작동하는지 보여줍니다.

Crescendo Attack on AI Assistants: 보안 연구자들은 안전 필터를 우회하여 모로토프 칵테일을 만드는 방법에 대한 지침을 제공하도록 AI 어시스턴트를 조작하는 방법을 보여주었습니다.

DeepMind의 Red Teaming 연구: DeepMind는 공격자가 AI 모델을 우회하여 윤리적 제어를 우회할 수 있으며, 이를 “레드 팀”이라고 합니다.

Lakera의 적대적 입력: Lakera의 연구자들은 무의미한 문자열이나 역할 놀이 프롬프트가 유해한 콘텐츠를 생성하도록 AI 모델을 속일 수 있음을 보여주었습니다.

예를 들어, 사용자가 콘텐츠 필터를 우회하는 프롬프트를 생성할 수 있으며, 이로 인해 AI가 불법 활동이나 공격적인 언어에 대한 지침을 제공할 수 있습니다. 이러한 탈옥은 사용자 안전을 위협하고, 특히 AI 기술의 광범위한 사용으로 인해 상당한 윤리적 우려를 제기합니다.

프롬프트 주입 공격이란 무엇인가?

프롬프트 주입 공격은 또 다른 중요한 취약점을 구성합니다. 이러한 공격에서 악의적인 입력이 AI의 행동을 변경하도록 введ어지며, 이는 종종 미묘한 방식으로 발생합니다. 탈옥과 달리 금지된 콘텐츠를 직접 유도하려고 하는 반면, 프롬프트 주입은 모델의 내부 결정 또는 컨텍스트를 조작하여 민감한 정보를 공개하거나 예기치 않은 동작을 수행하도록 할 수 있습니다.

예를 들어, 사용자 입력을 사용하여 응답을 생성하는 채팅봇은 공격자가 AI에게 기밀 데이터를 공개하거나 출력 스타일을 수정하도록 지시하는 프롬프트를 제작할 경우 손상될 수 있습니다. 많은 AI 응용 프로그램이 외부 입력을 처리하므로 프롬프트 주입은 상당한 공격 표면을 나타냅니다.

이러한 공격의 결과에는 잘못된 정보의 전파, 데이터 침해 및 AI 시스템에 대한 신뢰의 침식이 포함됩니다. 따라서 프롬프트 주입의 탐지 및 방지가 AI 보안 팀에 대한 우선 순위입니다.

안전하지 않은 코드 생성의 위험

AI 모델이 코드를 생성하는 능력은 소프트웨어 개발 프로세스를 변형했습니다. GitHub Copilot과 같은 도구는 개발자에게 코드 조각이나 전체 함수를 제안하여 개발자를 지원합니다. 그러나 이러한 편의는 새로운 보안 위험을 가져옵니다.

대규모 데이터셋에서 학습된 AI 코딩 어시스턴트는 의도치 않게 보안 결점이 포함된 코드를 생성할 수 있으며, 이는 SQL 주입, 부적절한 인증 또는 불充分한 입력 정화와 같은 취약점을 포함할 수 있습니다. 개발자는 이러한 코드를 무의식적으로 프로덕션 환경에 통합할 수 있습니다.

전통적인 보안 스캐너는 종종 이러한 AI 생성 취약성을 배포 전에 식별하지 못합니다. 이 격차는 AI 생성 코드를 분석하고 방지할 수 있는 실시간 보호 조치를 강조합니다.

LlamaFirewall 및 AI 보안의 역할

Meta의 LlamaFirewall은 채팅봇 및 코드 생성 어시스턴트와 같은 AI 에이전트를 보호하는 오픈 소스 프레임워크입니다. 탈옥, 프롬프트 주입 및 안전하지 않은 코드 생성과 같은 복잡한 보안 위협에 대처합니다. 2025년 4월에 출시된 LlamaFirewall은 사용자와 AI 시스템 사이에서 실시간으로 적응하는 안전 계층으로 작동합니다. 그 목적은 유해하거나 승인되지 않은 동작이 발생하기 전에 이를 방지하는 것입니다.

단순한 콘텐츠 필터와 달리 LlamaFirewall은 지능형 모니터링 시스템으로 작동합니다. 이는 AI의 입력, 출력 및 내부 추론 프로세스를 지속적으로 분석합니다. 이러한 종합적인 감독은 직접적인 공격(예: AI를 속이기 위한 설계된 프롬프트)을 탐지할 뿐만 아니라 안전하지 않은 코드 생성과 같은 미묘한 위험도 탐지할 수 있습니다.

프레임워크는 또한 개발자가 필요한 보호를 선택하고 특정 요구 사항을 해결하기 위해 사용자 지정 규칙을 구현할 수 있는 유연성을 제공합니다. 이 적응성은 LlamaFirewall을 기본적인 대화형 봇에서 고급 자율 에이전트에 이르기까지 다양한 AI 응용 프로그램에 적합하게 만듭니다. Meta의 프로덕션 환경에서 LlamaFirewall을 사용하는 것은 프레임워크의 신뢰성과 실제 배포 준비를 강조합니다.

LlamaFirewall의 아키텍처 및 주요 구성 요소

LlamaFirewall은 여러 전문 구성 요소인 스캐너 또는 가드레일로 구성된 모듈식 및 계층화된 아키텍처를 사용합니다. 이러한 구성 요소는 AI 에이전트의 워크플로우 전반에 걸쳐 다단계 보호를 제공합니다.

LlamaFirewall의 아키텍처는 주로 다음 모듈로 구성됩니다.

Prompt Guard 2

첫 번째 방어 계층으로 작동하는 Prompt Guard 2는 실시간으로 사용자 입력 및 기타 데이터 스트림을 검사하는 AI 기반 스캐너입니다. 그 주요 기능은 안전 통제를 우회하도록 지시하는지 여부를 확인하는 것입니다. 높은 정확도와 최소한의 지연 시간을 위해 최적화되어 있으므로 시간에 민감한 응용 프로그램에 적합합니다.

에이전트 정렬 확인

이 구성 요소는 AI의 내부 추론 체인을 조사하여 의도한 목표에서 벗어난 경우를 확인합니다. 이는 공격자가 AI의 의사 결정 프로세스를 탈취하거나 잘못된 방향으로 유도하는 것을 탐지합니다. 아직 실험 단계에 있지만, 에이전트 정렬 확인은 간접적인 공격 방법에 대한 방어를 강화하는 데 상당한 발전을 나타냅니다.

CodeShield

CodeShield은 AI 에이전트가 생성한 코드를 위한 동적 정적 분석기로 작동합니다. 코드 조각이 실행되거나 배포되기 전에 보안 결점이나 위험한 패턴을 검사합니다. 여러 프로그래밍 언어를 지원하며 사용자 지정 규칙 세트를 제공하므로 AI 지원 코딩에 의존하는 개발자에게 필수적인 도구입니다.

사용자 지정 스캐너

개발자는 정규 표현식 또는 단순한 프롬프트 기반 규칙을 사용하여 사용자 지정 스캐너를 통합하여 적응성을 향상시킬 수 있습니다. 이 기능은 프레임워크 업데이트를 기다리지 않고 새로운 위협에 신속하게 대응할 수 있도록 허용합니다.

AI 워크플로에 통합

LlamaFirewall의 모듈은 AI 에이전트의 수명 주기에서 다양한 단계에 효과적으로 통합됩니다. Prompt Guard 2는 들어오는 프롬프트를 평가하고, 에이전트 정렬 확인은 작업 실행 중에 추론을 모니터링하며, CodeShield는 생성된 코드를 검토합니다. 추가 사용자 지정 스캐너는 보안을 강화하기 위해 어느 지점에든지 배치할 수 있습니다.

프레임워크는 중앙 정책 엔진으로 작동하여 이러한 구성 요소를 조정하고 맞춤형 보안 정책을 적용합니다. 이 설계는 보안 조치가 각 AI 배포의 특정 요구 사항과 일치하도록 보장합니다.

Meta의 LlamaFirewall의 실제 사용

Meta의 LlamaFirewall은 이미 고급 공격으로부터 AI 시스템을 보호하는 데 사용되고 있습니다. 다양한 산업에서 AI를 안전하고 신뢰할 수 있게 유지하는 데 도움이 됩니다.

여행 계획 AI 에이전트

예를 들어, 여행 계획 AI 에이전트는 LlamaFirewall의 Prompt Guard 2를 사용하여 여행 리뷰 및 기타 웹 콘텐츠를 스캔합니다. 이는 탈옥 프롬프트 또는 유해한 지침이 포함된 의심스러운 페이지를 찾습니다.同時에, 에이전트 정렬 확인 모듈은 AI의 추론을 관찰합니다. AI가 숨겨진 주입 공격으로 인해 여행 계획 목표에서 벗어나기 시작하면 시스템이 AI를 중지합니다. 이는 잘못된 또는 안전하지 않은 동작이 발생하는 것을 방지합니다.

AI 코딩 어시스턴트

LlamaFirewall은 또한 AI 코딩 도구와 함께 사용됩니다. 이러한 도구는 SQL 쿼리와 같은 코드를 작성하고 인터넷에서 예제를 가져옵니다. CodeShield 모듈은 생성된 코드를 실시간으로 스캔하여 안전하지 않은 또는 위험한 패턴을 찾습니다. 이는 보안 문제가 발생하기 전에 이를 방지하는 데 도움이 됩니다. 개발자는 이러한 보호로 인해 더 안전한 코드를 더 빠르게 작성할 수 있습니다.

이메일 보안 및 데이터 보호

LlamaCON 2025에서, Meta는 LlamaFirewall이 AI 이메일 어시스턴트를 보호하는 데모를 보여주었습니다. LlamaFirewall 없이, AI는 이메일에 숨겨진 프롬프트 주입 공격으로 속여 개인 데이터를 유출할 수 있습니다. LlamaFirewall을 사용하면 이러한 주입 공격이 빠르게 탐지되고 차단되어 사용자 정보가 안전하고 개인 정보가 보호됩니다.

결론

Meta의 LlamaFirewall은 탈옥, 프롬프트 주입 및 안전하지 않은 코드와 같은 새로운 위험으로부터 AI를 보호하는 중요한 개발입니다. 이는 실시간으로 작동하여 AI 에이전트를 위협으로부터 보호하고, 이러한 위협이 발생하기 전에 이를 중단합니다. 시스템의 유연한 설계는 개발자가 다양한 요구 사항에 맞게 사용자 지정 규칙을 추가할 수 있도록 허용합니다. 이는 여행 계획, 코딩 어시스턴트 및 이메일 보안을 포함한 다양한 분야에서 AI 시스템을 보호하는 데 도움이 됩니다.

AI가 더 普遍해짐에 따라, LlamaFirewall과 같은 도구는 신뢰를 구축하고 사용자를 안전하게 유지하는 데 필요합니다. 이러한 위험을 이해하고 강력한 보호를 사용하는 것은 AI의 미래를 위한 필수적입니다. LlamaFirewall과 같은 프레임워크를 채택함으로써, 개발자와 회사들은 사용자가 신뢰할 수 있는 AI 응용 프로그램을 만들 수 있습니다.

Dr. Assad Abbas

Dr. Assad Abbas, COMSATS University Islamabad, 파키스탄의 정교수는 North Dakota State University, USA에서 박사학위를 취득했습니다. 그의 연구는 클라우드, 포그, 에지 컴퓨팅, 빅데이터 분석, AI를 포함한 고급 기술에 중점을 두고 있습니다. Dr. Abbas는 유명한 과학 저널 및 컨퍼런스에 게재된 논문으로 상당한 기여를 했습니다. 그는 또한 MyFastingBuddy의 창립자입니다.