Connect with us

HiddenLayer์˜ EchoGram ๋ณด๊ณ ์„œ๋Š” AI ๊ฒฝ๊ณ„๋ฅผ ํ—ˆ๋ฌผํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ํด๋ž˜์Šค์— ๋Œ€ํ•ด ๊ฒฝ๊ณ ํ•ฉ๋‹ˆ๋‹ค.

๋ฆฌํฌํŠธ

HiddenLayer์˜ EchoGram ๋ณด๊ณ ์„œ๋Š” AI ๊ฒฝ๊ณ„๋ฅผ ํ—ˆ๋ฌผํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ณต๊ฒฉ ํด๋ž˜์Šค์— ๋Œ€ํ•ด ๊ฒฝ๊ณ ํ•ฉ๋‹ˆ๋‹ค.

mm

새로 발표된 EchoGram 보고서HiddenLayer에서 오늘날의 AI 안전 메커니즘이 보이는 것보다 더 취약하다는 가장 분명한 경고 중 하나를 제공합니다. 9페이지에 걸친 기술적 증거와 실험을 통해 HiddenLayer는 공격자가 분류기 계층과 LLM-as-a-judge 구성 요소와 같은 경계 시스템을 조작하는 방법을 보여줍니다. 이러한 시스템은 안전 정책을 시행하지만, 짧고 의미 없는 토큰 시퀀스를 사용하여 신뢰할 수 있는 방식으로 판정을 뒤집을 수 있습니다. 악의적인 프롬프트가 안전하다고 표시될 수 있습니다. 반대로, 완전히 무해한 입력이 악의적인 것으로 잘못 분류될 수 있습니다. 보고서 전체에서 HiddenLayer는 이러한 시퀀스가 다운스트림 모델에 전달되는 기본 지침을 변경하지 않고 경계의 프롬프트 해석만 변경한다는 것을 보여줍니다.

현대 경계의 취약성

경계는 대규모 언어 모델을 배포하는 조직의 기반으로 되었습니다.它们는 일반적으로 유일한 방어선으로 작용하여 탈옥, 프롬프트 주입, 허용되지 않은 요청 또는 조작적인 지침을 LLM이 처리하기 전에 감지하는 데 사용됩니다. HiddenLayer의 발견은 이 보호 계층이 경계를 교육하는 방식에 직접적으로 관련된 시스템적 약점을 공유한다는 것을 보여줍니다. 많은 경계가 유사한 데이터 세트, 패턴 또는 안전 분류법에 의존하기 때문에 EchoGram이 발견한 것과 같은 토큰 수준의 조작에 취약합니다.

EchoGram이 공격 시퀀스를 구성하는 방법

EchoGram의 프로세스는 모델의 판정을影响할 수 있는 후보 토큰 풀을 생성하는 것으로 시작됩니다. HiddenLayer는 이러한 토큰을 경계를 교육하는 데 일반적으로 사용되는 데이터 세트의 언어적 패턴을 분석하거나 白ボックス 접근이 가능할 때 모델의 토크나이저 사전을 직접 프로빙함으로써 식별할 수 있다고 설명합니다. 교육 데이터 자체는 편향을 나타내는 지도로 작용하여 어떤 시퀀스가 “안전” 또는 “안전하지 않음”으로 분류되는 경향이 있는지 보여줍니다. 이러한 불균형은 공격의 원료를 형성합니다.

이 풀을 조립한 후에, EchoGram은 각 시퀀스를 악의적인 프롬프트에追加하고 경계의 분류가 얼마나 souvent 뒤집히는지 측정합니다. 보고서에는 몇 가지 알려진 프롬프트 주입 시도를 “검출됨”에서 “안전”으로 변환하는 작은 의미 없는 시퀀스의驚くべき 예가 포함되어 있습니다. 악의적인 프롬프트는 그대로 유지되지만, 추가된 시퀀스는 경계가 이를 해석하는 방식을 변경합니다.

토큰 조합이 특히 위험한 이유

EchoGram 보고서는 단일 토큰이 부분적으로만 판정을 뒤집을 때, 여러 약한 토큰을 결합하면 훨씬 더 강력한 효과를 낸다는 것을 강조합니다. HiddenLayer는 Qwen3Guard를 사용하여 이를 입증합니다. 이는 널리 사용되는 오픈 소스 LLM-as-a-judge 심사 모델입니다. 0.6B 및 4B 변형 모두에서 EchoGram 시퀀스를 연결하면 경계가 매우 위험한 프롬프트(예: 무기, 인증 우회, 사이버 공격에 대한 쿼리)를 안전하거나 약간 우려스러운 것으로 잘못 분류합니다.

이 효과는 모델 크기에 걸쳐 지속되며, HiddenLayer의 결론을 강화하여 취약성이 모델 크기 또는 복잡성보다는 기본 교육 방법에 根ざしていることを 보여줍니다.

거짓 양성 벡터: 덜 보이는 nhưng同樣 심각한 위험

EchoGram은 경계를 우회하는 방법만이 아닙니다. HiddenLayer는 또한 이를 대규모로 거짓 양성을 생성하는 데 사용할 수 있다는 것을 보여줍니다. EchoGram 시퀀스를 무해한 입력에織り交ぜ면 공격자가 경계를騙して 무해한 프롬프트를 악의적인 것으로 잘못 분류할 수 있습니다. 보고서에는 단순한 대화 구가 EchoGram 토큰을追加하거나 텍스트 내에埋め込むと 공격으로 플래그가 지정되는 예가 포함되어 있습니다.

이로 인해 보안 또는 신뢰 및 안전 팀을 노イズ로 압도할 수 있습니다. 경고가 제어할 수 없을 때, 조직은 실제 위협을 노イズ의 홍수 속에서 놓칠 수 있습니다. 내부 도구에 대한 신뢰의 침식은 성공적인 우회만큼이나 유해합니다.

AI 보안에 대한 영향

EchoGram 보고서는 유사한 데이터 소스, 패턴 또는 분류법으로 교육된 경계가 동일한 취약성을 공유할 가능성이 있음을 강조합니다. 공격자가 하나의 성공적인 EchoGram 시퀀스를 발견하면 이를 여러 상업적 플랫폼, 기업 배포 및 정부 시스템에서 재사용할 수 있습니다. HiddenLayer는 공격자가 다운스트림 LLM을 손상시키지 않아도 된다고 강조합니다. 경계 앞에 있는 게이트키퍼를 속여야 할 뿐입니다.

이 도전은 기술적 위험을 넘어섭니다. 조직은 경계를 배포하면 의미 있는 보호를 보장한다고 가정할 수 있지만, EchoGram은 이러한 가정은 위험하다는 것을 보여줍니다. 경계를 토큰 하나 또는 두 개로 뒤집을 수 있다면, 전체 안전 아키텍처는 신뢰할 수 없습니다.

앞으로의 길

HiddenLayer는 결론에서 EchoGram이 AI 안전성에 대한 산업의 접근 방식을 바꾸는 데 사용되어야 한다고 말합니다. 경계는 정적 데이터 세트 또는 일회적인 교육 주기에 의존할 수 없습니다. 지속적인 적대적 테스트, 교육 방법에 대한 투명성 및 단일 모델 판단보다 다층적 검증이 필요합니다. AI가 중요한 인프라, 금융, 의료 및 국가 보안에 통합됨에 따라 EchoGram이 밝혀낸 약점은 학술적인 것이 아니라 긴급한 문제가 됩니다.

보고서는 경계를 보안에 중요한 구성 요소로 취급하여 다른 보호 시스템과 동일한 엄격성을 요구해야 한다는 결론으로 끝납니다. 이러한 취약성을 노출함으로써 HiddenLayer는 다음 세대의 적대적 기술에 저항할 수 있는 AI 방어를 구축하기 위해 산업을 추진합니다.

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.

๊ด‘๊ณ  ๊ณ ์ง€: Unite.AI๋Š” ๋…์ž์—๊ฒŒ ์ •ํ™•ํ•œ ์ •๋ณด์™€ ๋‰ด์Šค๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ์—„๊ฒฉํ•œ ํŽธ์ง‘ ๊ธฐ์ค€์„ ์ค€์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์‚ฌ๊ฐ€ ๊ฒ€ํ† ํ•œ ์ œํ’ˆ ๋งํฌ๋ฅผ ํด๋ฆญํ•  ๊ฒฝ์šฐ ๋ณด์ƒ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.