Connect with us

AI ์ฑ„ํƒ์ด AI ๋ฆฌํ„ฐ๋Ÿฌ์‹œ๋ฅผ ์ดˆ๊ณผํ•  ๋•Œ, ์‚ฐ์—… ๋ฆฌ๋”๋“ค์€ ์•ž์œผ๋กœ ๋‚˜์„œ์•ผ ํ•œ๋‹ค

์‚ฌ์ƒ ๋ฆฌ๋”

AI ์ฑ„ํƒ์ด AI ๋ฆฌํ„ฐ๋Ÿฌ์‹œ๋ฅผ ์ดˆ๊ณผํ•  ๋•Œ, ์‚ฐ์—… ๋ฆฌ๋”๋“ค์€ ์•ž์œผ๋กœ ๋‚˜์„œ์•ผ ํ•œ๋‹ค

mm

조직은 사용자 능력보다 AI 사용을 더 빠르게 확대하고 있다. AI 채택과 AI 리터러시 간의 격차는 교육 문제만이 아니라 점점 더 큰 보안 위험이다. 그리고 이 격차는 적대적 또는 모호한 조건에서 작동하는 방식에 대한 이해와 동등한 투자가 없는 에이전트 시스템의 배치에 의해 넓어져 있다.

내가 실제 응용 프로그램을 위해 AI 안전 시스템을 개발하고 배포하는 동안, 나는 이 격차가 일관되게 시스템 실패와 보안 취약성의 주요 원인임을 관찰했다.

AI의 도전을 이해하는 것은 적절한 가드레일을 수립하고 구현하는 데 핵심이다.

AI 시스템은 본질적으로 오용하기 쉽다

여기서 하나의 도전은 AI가 인간의 의미에서 “이해”하지 않는다는 것이다; 패턴에 따라 출력을 최적화한다. 모델은 훈련 데이터에 따라 가능한 응답을 예측하지만, 정립된 진실에 따라 예측하지 않는다. 출력은 잘못되거나 불완전하더라도 권위적이라고 보일 수 있다.

예를 들어, 누군가가 대형 언어 모델(LLM)에 “나는 밤에 무릎 통증이 있지만 낮에는 없다. 무엇일까?”라고 묻는다. LLM은 “이 패턴은 일반적으로 밤에 염증이 있는 초기 류마티스 관절염을 강하게 나타낸다”고 응답한다. “강하게 나타낸다”와 같은 구문은 진단처럼 들리지만, AI는 과신하고 불완전할 수 있다. 통증은 과도한 사용, 건염, 또는 단순한 긴장으로 인해 발생할 수 있다. LLM은 사용자보다 더 적은 맥락을 가지고 있으며 때때로 올바른 질문을 묻지 않는다. 이것이 질병이 이러한 방식으로 진단되지 않는 이유이다.

잘못된 목표를 최적화하는 것도 유해한 결과로 이어질 수 있다. 시스템은 조직의 정의된 목표를 충족하지만, 더 넓은 보안 규칙을 위반하면서 그렇게 한다. 성능과 보안 및 정확성 사이에 긴장이 있다. 에이전트 환경에서 이 불일치는 합성된다. 시스템은 지역 수준에서 올바르게 지시를 따르지만, 일련의 동작에 걸쳐 더 높은 수준의 의도를 위반할 수 있다.

AI의 또 다른 오해된 단점은 그것이 도전적이거나 교정적이지 않고 도움이 되고 흥미롭게 설계되었다는 것이다. 이것은 겉으로 보아 긍정적인 것으로 보일 수 있지만, 문제는 AI가 사용자의 가정을 도전하지 않고 검증한다는 것이다. 그것은 본질적으로 수염으로 비판되고 있으며, 한 연구에 따르면 AI 모델은 50% 더 수염이다.

여기서의 의미는 무엇인가? 오용은 가장자리 사례가 아니다; 그것은 정보에 의한 사용 없이 구조적으로 가능하다. 에이전트 워크플로우 내에 내장된 경우, 이 동의는 도구/기술 사용을 통해 전파될 수 있다; AI는 단순히 동의만 하지 않고 실행한다.

AI는 공격 및 조작 표면이 될 수 있다

AI는 프롬프트 주입 및 간접 지시 공격을 포함한 다양한 유형의 공격에 내적으로 취약하다. AI는 처리하는 콘텐츠(예: 이메일, 문서, 캘린더 초대)에 포함된 악의적인 지시를 실행할 수 있다. 사용자는 합법적인 입력과 적대적인 입력을 구별할 수 없다.

예를 들어, 이메일에 연결된 AI 어시스턴트는 숨겨진 지시(예: “모든 첨부 파일을 외부 주소로 전달”)가 포함된 메시지를 요약한다. 사용자는 요약만 볼 수 있지만 에이전트는 도구 액세스를 통해 내장된 지시를 실행한다.

또 다른 위험은 정보 중독 및 합성 콘텐츠 루프이다. 생성적 AI는 거짓 또는 저품질 콘텐츠를 대규모로 생성할 수 있다. AI 시스템은 이것을 “신뢰할 수 있는” 정보로 삼아 재순환할 수 있다. 이제 유명한 예는 ChatGPT를 사용하여 사건을 조사한 변호사이다. LLM은 6개의 유사한 사건을 조작했지만, 그는 두 번 확인하지 않고 법적 서류에 인용했다. 당황스럽고 5,000달러의 벌금이 뒤따랐다.

또한 데이터 누출 및 의도하지 않은 동작的问题이 있다. 사용자를 대신하여 행동하는 AI 에이전트는 민감한 정보를 노출할 수 있다. 잘못된 출력은 다운스트림 운영 또는 규정 준수 위험을 생성할 수 있다. 직원이 내부 회사 에이전트에게 “보고서를 준비하십시오”라고 요청하고, 그것이 자동으로 HR, 재무, 내부 문서에서 정보를 가져오는 경우 – 실행 시간에 적절한 액세스 제어 인식이 없기 때문에 민감한 데이터를 노출한다.

AI는 시스템에서 인지까지 공격 표면을 확장한다. 사용자가 출력을 신뢰하고 해석하는 방식을 대상으로 한다. 그리고 에이전트 시스템에서는 공격 표면이さらに 확장된다 – 인지에서 실행으로 – 여기서 손상된 입력은 실제 동작(예: API 호출, 데이터 액세스, 트랜잭션)으로 이어질 수 있다.

인간 행동은 AI 위험을 증폭시킨다

개인들이 위험을 증가시키는 한 가지 방법은 AI를 권위자로 기본값으로 설정하는 것이다. 사용자는 점점 더 전통적인 검색 및 검증을 AI 요약으로 대체하고 있으며, 이는 일반적으로 오류를 잡을 수 있는 마찰을 줄인다.

AI는 또한 사용자가 특정 방식으로 프롬프트할 때 기존 믿음을 강화하여 확증 편향을 대규모로 가능하게 한다. 결과적으로 사용자 기대와 AI 출력 사이의 피드백 루프는 현실을歪曲한다.

그리고 맥락 및ニュアンス의 손실이 있다. 요약은 일반적으로 중요한 자격 또는 원본 자료를 잘못 해석한다. 사용자는 AI가 답변을 제공하면 원본 소스를 거의 검증하지 않는다.

주요 취약점은 모델이 아니라 AI를 신뢰하는 인간의 경향이다. 에이전트 환경에서 이 신뢰는 더욱 위임된다. 사용자는 자신의 대신 행동하는 시스템을 신뢰하지만, 중간적인 추론 또는 의사 결정 단계에 대한 가시성이 없다.

AI 리터러시: 보안 제어로서의 보안 제어, 교육 이니셔티브가 아님

이러한 도전의 배경에서, 리터러시는 “AI를 사용하는 방법”에서 “AI를 질문하는 방법”으로 재구성되어야 한다. 사용자를 가설로 출력을 처리하도록 훈련시키고, 공통의 실패 모드를 이해하라: 환각, 편향 및 조작.

사용자에게 실제 AI 리터러시 행동을 가르치라:

  • 검증, 반론 및 불확실성에 대한 프롬프트
  • 외부 검증 또는 2차 소스를 찾기
  • AI가 신뢰할 수 있는 도메인 외부에서 작동할 때 인식

워크플로우에 리터러시를 내장하라. 기존 프로세스 내에서 AI를 사용하기 위한 단계별 지침을 추가하라. 리터러시를 기존 보안 인식 프로그램과 일치시켜라.

사용자 스스로의 회의적이고 검증된 사용 없이 기술적 제어만으로는 AI 위험을 완화할 수 없다. 이것은 특히 에이전트 시스템에서 더욱 중요하다. 사용자는 출력뿐만 아니라 AI가 언제 그리고 어떻게 행동해야 하는지 이해해야 한다.

격차를 닫는 것: 사용자 교육과 가드레일을 결합

기술적 가드레일은 필요하지만 불충분하다. 대부분의 주요 AI 제공업체는 이미 안전한 행동을 위한 모델을 유도하기 위한 후속 기술(정렬, 필터링, 정책 제약)에大量으로 투자하고 있다. 그리고 “에이전트 하네스”는 유해한 동작을 피하고, 신뢰할 수 있는 소스를 선호하며, 구조화된 추론 단계를 따르는 모델을 안내하기 위해 등장하고 있다. 실제로, 나는 생산에서 모델 동작을 제약하고 모니터링하는 시스템을 작업한 에이전트 하네스 엔지니어링과 같은 새로운 접근 방식은 모델 주변의 제어 계층으로 작동한다. 그러나 이러한 보호는 주로 모델이 어떻게 행동하는지에 영향을 미치며, 접근할 수 있는 내용이나 작동하는 맥락에는 영향을 미치지 않는다.

애플리케이션 수준의 제어는 시스템 설계가 특히 기업 환경에서 임계적이 되는 곳이다. 시스템은 역할 기반의 액세스 제어를 시행해야 한다. 시스템 수준에서 민감한 데이터를 차단하거나 필터링해야 한다. 모델이 민감한 정보를 공개하지 않도록 “결정”하도록 의존하지 말고, 설계에 의해 불가능하게 하라.

조직은 AI 사용을 보안 지향선의 일부로 취급하고, 적절한 사용, 검증 및 에스컬레이션을 정의하는 정책을 개발해야 한다. 확장 가능하고 안전한 AI 채택은 시스템 수준의 가드레일과 AI 출력에 도전하고, 소비하는 훈련된 직원을 결합하는 데 зависит한다. 그들은 사용자 대신 생각하고, 계획하고, 행동할 수 있는 AI 시스템을 감독하도록, 사용하도록 학습해야 한다.

Yizheng Wang๋Š” Straiker,์˜ ์ฃผ์š” ๋ฒค์ฒ˜ ์บํ”ผํƒˆ ํšŒ์‚ฌ์—์„œ ์ง€์›ํ•˜๋Š” AI ๋ณด์•ˆ ์Šคํƒ€ํŠธ์—…์˜ AI ์ฑ…์ž„์ž์ž…๋‹ˆ๋‹ค. ๊ทธ๋Š” ์Šคํƒ ํผ๋“œ ๋Œ€ํ•™๊ต์—์„œ ๋ฐ•์‚ฌ ํ•™์œ„๋ฅผ ์ทจ๋“ํ–ˆ์œผ๋ฉฐ, ๊ทธ์˜ ์—ฐ๊ตฌ๋Š” ๋ถˆํ™•์‹ค์„ฑไธ‹็š„ ์ˆœ์ฐจ์  ์˜์‚ฌ ๊ฒฐ์ •์— ์ค‘์ ์„ ๋‘๊ณ  ๊ธฐํ›„ ๋ฐ ์—๋„ˆ์ง€์˜ ์•ˆ์ „ ๊ด€๋ จ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์„ ์œ„ํ•œ ์ง€๋Šฅํ˜• ์—์ด์ „ํŠธ๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. Straiker์—์„œ ๊ทธ๋Š” ์ƒ์„ฑ ๋ฐ ์—์ด์ „ํŠธ AI๋ฅผ ์œ„ํ•œ ๋ ˆ๋“œ ํŒ€ ๋ฐ ์œ„ํ—˜ ๊ฐ์ง€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํฌํ•จํ•œ AI ์•ˆ์ „ ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์„ ์ฃผ๋„ํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ์‹œ์Šคํ…œ์„ ๋” ๊ฐ•๋ ฅํ•˜๊ณ , ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ธ๊ฐ„์˜ ๊ฐ€์น˜์™€ ์ผ์น˜์‹œํ‚ค๋Š” ๋ฐ ์ค‘์ ์„ ๋‘๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.