인터뷰

Vahid Behzadan, SAIL(Secured and Assured Intelligent Learning) 연구소 책임자 – 인터뷰 시리즈

게재

4 년 전

2020 년 4 월 27 일

앙투안 타르디프

Vahid는 University of New Haven의 컴퓨터 과학 및 데이터 과학 조교수입니다. 그는 또한 안전하고 보장된 지능형 학습(SAIL) 랩

그의 연구 관심사는 지능형 시스템의 안전과 보안, AI 안전 문제의 심리적 모델링, 복잡한 적응 시스템의 보안, 게임 이론, 다중 에이전트 시스템 및 사이버 보안입니다.

사이버 보안 및 AI 보안 유지에 대한 광범위한 배경 지식이 있습니다. 두 분야에 매력을 느끼게 된 과정을 공유해 주시겠습니까?

내 연구 궤도는 내 두 가지 핵심 관심사, 즉 사물이 어떻게 깨지는지 알아내는 것과 인간 정신의 메커니즘에 대해 배우는 것에서 힘을 얻었습니다. 저는 10대 초반부터 사이버 보안에 적극적으로 참여해 왔으며 결과적으로 이 영역의 고전적인 문제를 중심으로 초기 연구 의제를 구축했습니다. 대학원 공부를 시작한 지 몇 년이 지나서 나는 연구 분야를 바꿀 수 있는 흔치 않은 기회를 우연히 발견했습니다. 그 당시 나는 적대적 예시 공격에 대한 Szegedy와 Goodfellow의 초기 연구를 접했고, 기계 학습을 공격한다는 아이디어가 매우 흥미로웠다는 것을 알았습니다. 이 문제를 더 깊이 살펴보면서 AI 안전 및 보안이라는 보다 일반적인 분야에 대해 알게 되었고, 이 분야가 사이버 보안, 인지 과학, 경제, 철학 등 내 핵심 관심 분야를 많이 포괄한다는 사실을 알게 되었습니다. 나는 또한 이 분야의 연구가 흥미로울 뿐만 아니라 AI 혁명의 장기적인 이점과 안전을 보장하는 데 필수적이라고 믿게 되었습니다.

당신은 지능형 기계의 안전과 보안을 위한 구체적인 기반을 마련하기 위해 노력하는 SAIL(Secure and Assured Intelligent Learning) 연구소의 책임자입니다. SAIL에서 수행한 작업에 대해 자세히 설명해 주시겠습니까?

SAIL에서 제 학생들과 저는 보안, AI 및 복잡한 시스템의 교차점에 있는 문제에 대해 연구합니다. 우리 연구의 주요 초점은 이론 및 응용 관점 모두에서 지능형 시스템의 안전과 보안을 조사하는 것입니다. 이론적인 측면에서 우리는 현재 다중 에이전트 설정에서 값 정렬 문제를 조사하고 있으며 안정성 및 강력한 정렬과 관련하여 AI 에이전트의 목표를 평가하고 최적화하기 위한 수학적 도구를 개발하고 있습니다. 실용적인 측면에서 우리 프로젝트 중 일부는 자율주행차 및 알고리즘 거래와 같은 최첨단 AI 기술의 보안 취약성을 탐색하고 이러한 기술의 적대적 공격에 대한 복원력을 평가하고 개선하는 기술을 개발하는 것을 목표로 합니다.

우리는 또한 자동화된 침투 테스트, 침입 시도의 조기 탐지, 자동화된 위협 인텔리전스 수집 및 소셜 미디어와 같은 오픈 소스 데이터 분석과 같은 사이버 보안에서의 머신 러닝 애플리케이션에 대해 연구하고 있습니다.

당신은 최근에 AI 안전 문제를 정신병리학적 장애로 모델링. 이것이 무엇인지 설명해 주시겠습니까?

이 프로젝트는 AI 에이전트 및 시스템의 급속도로 증가하는 복잡성을 해결합니다. 낮은 수준의 구성을 보는 것만으로 중요한 설정에서 강화 학습 에이전트의 안전하지 않은 동작을 진단, 예측 및 제어하는 것은 이미 매우 어렵습니다. 이 작업에서 우리는 이러한 문제를 조사할 때 더 높은 수준의 추상화가 필요함을 강조합니다. 인간의 행동 문제에 대한 과학적 접근 방식에서 영감을 받아 AI 및 AGI에서 발생하는 유해한 행동을 모델링하고 분석하기 위한 유용한 고급 추상화로 정신병리학을 제안합니다. 개념 증명으로 Snake의 고전 게임을 배우는 RL 에이전트에서 보상 해킹의 AI 안전 문제를 연구합니다. 환경에 "약물" 씨앗을 추가하면 에이전트가 신경과학적 중독 모델을 통해 설명할 수 있는 차선책 행동을 학습한다는 것을 보여줍니다. 본 연구는 또한 정신의학에서 사용되는 치료접근법에 기초한 통제방법론을 제안한다. 예를 들어 에이전트의 유해한 행동을 수정하기 위한 약물 치료와 유사하게 인위적으로 생성된 보상 신호를 사용할 것을 제안합니다.

자율주행차와 관련하여 AI 안전에 대한 우려가 있습니까?

자율주행차는 사이버-물리 시스템에 AI를 배치하는 대표적인 사례가 되고 있습니다. 실수와 적대적 공격에 대한 현재 기계 학습 기술의 근본적인 취약성을 고려할 때 반자율 차량의 안전과 보안에 대해 깊이 우려하고 있습니다. 또한 자율주행 분야는 안전 기준과 평가 프로토콜이 심각하게 부족하다. 그러나 나는 여전히 희망적입니다. 자연 지능과 마찬가지로 AI도 실수하기 쉽습니다. 그러나 이러한 실수의 비율과 영향이 인간 운전자보다 낮아진다면 자율주행차의 목적은 여전히 충족될 수 있습니다. 우리는 업계와 학계, 정부에서 이러한 문제를 해결하기 위한 노력이 증가하고 있음을 목격하고 있습니다.

거리 표지판 해킹 스티커를 붙이거나 다른 수단을 사용하면 자율주행차의 컴퓨터 비전 모듈이 혼동될 수 있습니다. 이것이 얼마나 큰 문제라고 생각하시나요?

일반적으로 이러한 스티커와 적대적 사례는 기계 학습 모델의 견고성에 근본적인 문제를 야기합니다. 조지 EP 박스(George EP Box)는 "모든 모델이 틀렸지만 일부는 유용하다"고 말했습니다. 적대적인 예는 모델의 추상적인 특성과 모델이 훈련된 샘플 데이터의 한계로 인해 이러한 모델의 "잘못된" 특성을 악용합니다. 적대적 기계 학습 영역에서의 최근 노력으로 인해 이러한 공격에 대한 딥 러닝 모델의 탄력성을 높이는 데 엄청난 진전이 있었습니다. 보안 관점에서 기계 학습 모델을 속이는 방법은 항상 있을 것입니다. 그러나 기계 학습 모델을 보호하는 실질적인 목표는 그러한 공격을 구현하는 비용을 경제적으로 불가능할 정도로 높이는 것입니다.

여러분은 딥 러닝과 딥 강화 학습 모두의 안전 및 보안 기능에 중점을 두고 있습니다. 이것이 왜 그렇게 중요합니까?

강화 학습(RL)은 문제를 제어하기 위해 기계 학습을 적용하는 탁월한 방법으로, 정의에 따라 환경 조작이 포함됩니다. 따라서 RL을 기반으로 하는 시스템은 분류와 같은 다른 기계 학습 방법에 비해 현실 세계에서 큰 피해를 입힐 위험이 훨씬 더 높다고 생각합니다. 이 문제는 RL에 딥 러닝을 통합하여 더욱 악화되어 매우 복잡한 설정에서 RL을 채택할 수 있습니다. 또한 RL 프레임워크는 인간 지능의 기본 인지 메커니즘과 밀접하게 관련되어 있으며, 그 안전성과 취약성을 연구하면 마음의 의사 결정 한계에 대한 더 나은 통찰력을 얻을 수 있다고 생각합니다.

AGI(Artificial General Intelligence) 달성에 가까워졌다고 생각하십니까?

이것은 대답하기 매우 어려운 질문입니다. 나는 현재 우리가 AGI의 출현을 촉진할 수 있는 일부 아키텍처의 빌딩 블록을 가지고 있다고 믿습니다. 그러나 이러한 아키텍처를 개선하고 교육의 비용 효율성을 높이고 이러한 아키텍처를 유지 관리하려면 몇 년 또는 수십 년이 더 걸릴 수 있습니다. 앞으로 몇 년 동안 에이전트는 급속도로 지능화될 것입니다. AGI의 출현은 [과학적으로 유효한] 헤드라인의 형태로 발표되는 것이 아니라 점진적인 발전의 결과로 발표될 것이라고 생각합니다. 또한 우리는 AGI의 존재를 테스트하고 탐지하기 위해 널리 받아들여지는 방법론이 아직 없다고 생각하며, 이로 인해 AGI의 첫 번째 인스턴스에 대한 실현이 지연될 수 있습니다.

스스로 생각할 수 있고 인간보다 기하급수적으로 더 지능화될 AGI 시스템에서 어떻게 안전을 유지합니까?

나는 지능형 행동에 대한 그랜트 통합 이론이 경제학과 에이전트가 원하는 것을 달성하기 위해 어떻게 행동하고 상호 작용하는지에 대한 연구라고 믿습니다. 인간의 결정과 행동은 목표, 정보, 사용 가능한 자원에 따라 결정됩니다. 사회와 공동 노력은 그러한 그룹의 개별 구성원에 대한 혜택에서 나타납니다. 또 다른 예는 사회에 해를 끼칠 수 있는 행동에 높은 비용을 부과하여 특정 결정을 저지하는 형법입니다. 같은 방식으로 인센티브와 자원을 제어하면 인간과 AGI 인스턴스 간의 균형 상태가 출현할 수 있다고 생각합니다. 현재 AI 안전 커뮤니티는 가치 정렬 문제라는 우산 아래에서 이 논문을 조사합니다.

당신이 밀접하게 따르는 영역 중 하나는 대테러입니다. 테러리스트가 AI 또는 AGI 시스템을 장악하는 것에 대해 우려하십니까?

AI 기술의 오용에 대한 많은 우려가 있습니다. 테러 작전의 경우 주요 관심사는 테러리스트가 자율 공격을 개발하고 수행할 수 있는 용이성입니다. 점점 더 많은 동료들이 자율 무기 개발의 위험에 대해 적극적으로 경고하고 있습니다. https://autonomousweapons.org/ ). AI 지원 무기의 주요 문제 중 하나는 기본 기술 제어의 어려움입니다. AI는 오픈 소스 연구의 최전선에 있으며 인터넷 및 소비자 등급 하드웨어에 액세스할 수 있는 사람은 누구나 유해한 AI 시스템을 개발할 수 있습니다. 나는 자율 무기의 출현이 불가피하다고 생각하며 머지않아 그러한 무기에 대응하기 위한 새로운 기술적 솔루션이 필요하게 될 것이라고 믿습니다. 이는 AI 지원 무기의 진화를 촉진하는 고양이와 쥐의 순환을 초래할 수 있으며 장기적으로 심각한 실존적 위험을 초래할 수 있습니다.

이러한 적대적 에이전트로부터 AI 시스템을 안전하게 유지하기 위해 무엇을 할 수 있습니까?

첫 번째이자 가장 중요한 단계는 교육입니다. 모든 AI 엔지니어와 실무자는 AI 기술의 취약성에 대해 배우고 시스템 설계 및 구현과 관련된 위험을 고려해야 합니다. 더 많은 기술 권장 사항에 대해 사용할 수 있는 다양한 제안 및 솔루션 개념이 있습니다. 예를 들어 적대적 환경에서 기계 학습 에이전트를 교육하면 회피 및 정책 조작 공격에 대한 탄력성과 견고성을 향상시킬 수 있습니다(예: "심층 강화 학습을 죽이지 않는 것이 무엇이든 더 강하게 만듭니다."). 또 다른 솔루션은 에이전트 아키텍처에서 적대적 공격의 위험을 직접 설명하는 것입니다(예: 위험 모델링에 대한 베이지안 접근 방식). 그러나 이 영역에는 큰 차이가 있으며 적대적 공격에 대한 AI 에이전트의 견고성을 평가하기 위한 보편적인 지표와 방법론이 필요합니다. 현재 솔루션은 대부분 임시방편이며 모든 유형의 공격에 대한 일반적인 복원력 측정을 제공하지 못합니다.

이 주제에 대해 공유하고 싶은 다른 것이 있습니까?

2014년 Scully et al. 매우 계몽적인 주제로 NeurIPS 컨퍼런스에서 다음과 같은 논문을 발표했습니다.기계 학습: 기술 부채의 고금리 신용 카드". 지난 몇 년 동안 이 분야의 모든 발전에도 불구하고 이 진술은 아직 그 유효성을 잃지 않았습니다. AI 및 기계 학습의 현재 상태는 경외심을 불러일으키기에 부족함이 없지만, 우리는 아직 AI의 기초 및 엔지니어링 차원 모두에서 상당한 수의 주요 격차를 메우지 못하고 있습니다. 제 생각에는 이 사실이 우리 대화에서 가장 중요한 교훈입니다. 물론 나는 AI 기술의 상업적 채택을 막으려는 것이 아니라 엔지니어링 커뮤니티가 그들의 결정에서 현재 AI 기술의 위험과 한계를 설명할 수 있기를 바랍니다.

다양한 유형의 AI 시스템에 대한 안전 및 보안 문제에 대해 배우는 것이 정말 즐거웠습니다. 이것은 진정으로 개인, 기업 및 정부가 알아야 할 사항입니다. 자세한 내용을 알고 싶은 독자는 방문하십시오. 안전하고 보장된 지능형 학습(SAIL) 랩.