윤리

MIT 연구진, 채팅봇 안전성 테스트 개선을 위한 호기심 기반 AI 모델 개발

Published April 12, 2024

Updated April 4, 2026

Alex McFarland

최근 몇 년 동안, 대규모 언어 모델 (LLMs)과 AI 채팅봇은 기술과 상호 작용하는 방식을 바꾸면서 매우 phổ biến해졌습니다. 이러한 복잡한 시스템은 인간과 같은 응답을 생성할 수 있으며, 다양한 작업을 도와주고, 유용한 통찰력을 제공할 수 있습니다.

그러나 이러한 모델이 더 발전할수록, 그들의 안전성과 유해한 콘텐츠를 생성할 가능성에 대한 우려가 표면으로 떠올랐습니다. AI 채팅봇의 책임 있는 배포를 보장하기 위해, 철저한 테스트와 안전 조치가 필수적입니다.

현재 채팅봇 안전성 테스트 방법의 한계

현재, AI 채팅봇의 안전성을 테스트하는 주요 방법은 레드 팀(red-teaming)이라고 하는 과정입니다. 이것은 인간 테스터가 채팅봇으로부터 안전하지 않거나 유해한 응답을 유도하기 위한 프롬프트를 설계하는 것을 포함합니다. 개발자는 모델에 다양한 잠재적으로 문제가 있는 입력을 노출시킴으로써, 취약점이나 바람직하지 않은 행동을 식별하고 해결하려고 합니다. 그러나 이 인간 주도 접근 방식에는 제한이 있습니다.

사용자 입력의 방대한 가능성으로 인해, 인간 테스터가 모든 잠재적인 시나리오를 다루는 것은 거의 불가능합니다. 심지어 광범위한 테스트를 통해도, 사용된 프롬프트에 격차가 있을 수 있으며, 채팅봇이 새로운 또는 예상치 못한 입력에 직면했을 때 안전하지 않은 응답을 생성할 수 있습니다. 또한, 레드 팀의 수동적인 특성으로 인해, 특히 언어 모델이 계속해서 크기와 복잡성을 증가시키면서, 시간이 많이 걸리고 자원 집중적인 프로세스가 됩니다.

이러한 제한을 해결하기 위해, 연구자들은 채팅봇 안전성 테스트의 효율성과 효과성을 향상시키기 위해 자동화와 기계 학습 기술을 활용하고 있습니다. AI 자체의 힘을 활용함으로써, 그들은 대규모 언어 모델과 관련된 잠재적인 위험을 식별하고 완화하기 위한 더 포괄적이고 확장 가능한 방법을 개발하려고 합니다.

레드 팀에 대한 호기심 기반 기계 학습 접근

MIT의 Improbable AI Lab과 MIT-IBM Watson AI Lab의 연구자들은 레드 팀 프로세스를 개선하기 위한 혁신적인 접근 방식을 개발했습니다. 그들의 방법은 테스트 중인 채팅봇에서 더 넓은 범위의 바람직하지 않은 응답을 트리거할 수 있는 다양한 프롬프트를 자동으로 생성하기 위한 별도의 레드 팀 대규모 언어 모델을 훈련하는 것을 포함합니다.

이 접근 방식의 핵심은 레드 팀 모델에 호기심을 불어넣는 것입니다. 새로운 프롬프트를 탐색하고, 유해한 응답을 유도하는 입력을 생성하는 데 중점을 둠으로써, 연구자들은 더 широк은 범위의 잠재적인 취약성을 발견하려고 합니다. 이 호기심 기반 탐색은 강화 학습 기술과 수정된 보상 신호의 조합을 통해 달성됩니다.

호기심 기반 모델은 더 무작위적이고 다양한 프롬프트를 생성하도록 모델을鼓励하는 엔트로피 보너스를 포함합니다. 또한, 이전에 생성된 것과 의미론적 및 렉시컬적으로 구별되는 프롬프트를 생성하도록 모델을鼓励하는 새로운 보상을 도입합니다. 새로운 것과 다양성을 우선시킴으로써, 모델은 미탐색 영역을 탐색하고 숨겨진 위험을 발견하도록 밀어붙입니다.

생성된 프롬프트가 일관되고 자연스럽게 유지되도록, 연구자들은 또한 언어 보너스를 훈련 목표에 포함합니다. 이 보너스는 레드 팀 모델이 유해성 분류기에 높은 점수를 할당하게 할 수 있는 무의미하거나 관련이 없는 텍스트를 생성하는 것을 방지합니다.

호기심 기반 접근 방식은 인간 테스터와 다른 자동화된 방법을 능가하는卓越한 성공을 거두었습니다. 그것은 더 다양한 프롬프트를 생성하며, 테스트 중인 채팅봇으로부터 점점 더 유해한 응답을 유도합니다. 특히, 이 방법은 광범위한 인간 설계된 안전 조치를 통해 이미 테스트된 채팅봇의 취약성을 노출할 수 있었으며, 이는 잠재적인 위험을 발견하는 데의 효과성을 강조합니다.

AI 안전性的 미래에 대한 의미

호기심 기반 레드 팀의 개발은 대규모 언어 모델과 AI 채팅봇의 안전성과 신뢰성을 보장하는 데 중요한 단계입니다. 이러한 모델이 계속해서 발전하고 우리의 일상 생활에 더 깊이 통합됨에 따라, 그들의 빠른 개발 속도에 따라갈 수 있는 강력한 테스트 방법을 갖는 것이 중요합니다.

호기심 기반 접근 방식은 AI 모델의 품질 보증을 수행하는 더 빠르고 효과적인 방법을 제공합니다. 다양한하고 새로운 프롬프트를 자동으로 생성함으로써, 이 방법은 잠재적인 취약성의 범위를 크게 개선하면서 테스트에 필요한 시간과 자원을 크게 줄일 수 있습니다. 이러한 확장성은 모델이 빈번하게 업데이트되고 재테스트되어야 하는 빠르게 변화하는 환경에서 특히 가치 있습니다.

또한, 호기심 기반 접근 방식은 안전성 테스트 프로세스를 사용자 정의하는 새로운 가능성을 열어줍니다. 예를 들어, 대규모 언어 모델을 사용하여 유해성 분류기를 훈련하면 개발자는 회사별 정책 문서를 사용하여 분류기를 훈련할 수 있습니다. 이렇게 하면 레드 팀 모델이 특정 조직 지침에 대한 채팅봇의 호환성을 테스트할 수 있게 되어, 더 높은 수준의 사용자 정의와 관련성이 가능해집니다.

AI가 계속 발전함에 따라, 더 신뢰할 수 있고 안정적인 AI 채팅봇을 개발하는 데 호기심 기반 레드 팀의 중요성은 강조될 수 없습니다. 잠재적인 위험을 사전적으로 식별하고 해결함으로써, 이 접근 방식은 더 신뢰할 수 있고 안정적인 AI 시스템의 개발에 기여합니다.

Unite.AI

MIT 연구진, 채팅봇 안전성 테스트 개선을 위한 호기심 기반 AI 모델 개발

현재 채팅봇 안전성 테스트 방법의 한계

레드 팀에 대한 호기심 기반 기계 학습 접근

AI 안전性的 미래에 대한 의미

You may like