사이버 보안

적대적 이미지 공격이 농담이 아닌 이유

업데이트 on 2021 년 12 월 1 일

지난 XNUMX년 동안 세심하게 만들어진 적대적 이미지로 이미지 인식 시스템을 공격하는 것은 재미있지만 사소한 개념 증명으로 여겨져 왔습니다. 그러나 호주의 새로운 연구에 따르면 상업용 AI 프로젝트에 매우 인기 있는 이미지 데이터 세트를 일상적으로 사용하면 지속적인 새로운 보안 문제가 발생할 수 있습니다.

몇 년 동안 애들레이드 대학의 학자 그룹은 AI 기반 이미지 인식 시스템의 미래에 대해 정말로 중요한 것을 설명하려고 노력해 왔습니다.

고치기가 어렵고 매우 비쌉니다. 지금, 이미지 인식 연구의 현재 추세가 5-10년 내에 상업화 및 산업화 배포로 완전히 발전되면 해결하는 데 비양심적으로 비용이 많이 들 것입니다.

시작하기 전에 팀이 게시한 XNUMX개의 비디오 중 하나에서 버락 오바마 대통령으로 분류되는 꽃을 살펴보겠습니다. 프로젝트 페이지:

출처: https://www.youtube.com/watch?v=Klepca1Ny3c

위의 이미지에서 버락 오바마를 인식하는 방법을 명확하게 알고 있는 안면 인식 시스템은 조작된 인쇄된 적대적 꽃 이미지를 들고 있는 익명의 남자도 버락 오바마라고 80% 확신합니다. 시스템은 '가짜 얼굴'이 대상의 어깨가 아니라 가슴에 있는지도 신경 쓰지 않습니다.

연구원들이 일반적인 무작위 노이즈 대신 일관된 이미지(꽃)를 생성하여 이러한 종류의 신원 캡처를 수행할 수 있다는 점이 인상적이지만 컴퓨터 비전에 대한 보안 연구에서 이와 같은 바보 같은 공격이 상당히 정기적으로 나타나는 것 같습니다. . 예를 들어, 얼굴 인식을 속일 수 있는 이상한 패턴의 안경 다시 2016의, 또는 특별히 제작된 적대적 이미지 도로 표지판을 다시 쓰려고 시도하다.

관심이 있으신 분들은 위의 예에서 공격받고 있는 CNN(Convolutional Neural Network) 모델이 VGGFace(VGG-16), Columbia University의 교육을 받았습니다. PubFig 데이터세트. 연구원들이 개발한 다른 공격 샘플은 다양한 조합으로 다양한 리소스를 사용했습니다.

키보드는 ImageNet의 WideResNet50 모델에서 소라로 재분류됩니다. 연구원들은 또한 모델이 소라에 대한 편향이 없음을 확인했습니다. https://www.youtube.com/watch?v=dhTTjjrxIcU에서 확장 및 추가 데모에 대한 전체 비디오를 참조하십시오.

새로운 공격 벡터로서의 이미지 인식

연구원들이 설명하고 설명하는 많은 인상적인 공격은 개별 데이터 세트나 이를 사용하는 특정 기계 학습 아키텍처에 대한 비판이 아닙니다. 데이터세트나 모델을 전환하거나, 모델을 재교육하거나, ML 실무자가 이런 종류의 산발적인 속임수 시연을 비웃게 만드는 기타 '간단한' 해결 방법으로는 쉽게 방어할 수 없습니다.

오히려 Adelaide 팀의 익스플로잇은 중심 약점 이미지 인식 AI 개발의 전체 현재 아키텍처에서; 많은 미래의 이미지 인식 시스템을 공격자의 손쉬운 조작에 노출시키고 후속 방어 조치를 뒷걸음질 치도록 설정될 수 있는 약점입니다.

현재의 맬웨어 방지 및 바이러스 백신 프레임워크가 매일 바이러스 정의를 업데이트하는 것처럼 최신 적대적 공격 이미지(예: 위의 꽃)가 미래의 보안 시스템에 '제로 데이 익스플로잇'으로 추가된다고 상상해 보십시오.

시스템의 기본 아키텍처가 다운스트림 문제를 예상하지 않았기 때문에 새로운 적대적 이미지 공격의 가능성은 무궁무진합니다. 인터넷으로Walk Through California 프로그램, 밀레니엄 버그 그리고 피사의 사탑.

그렇다면 우리는 어떤 방식으로 이에 대한 장면을 설정하고 있습니까?

공격에 대한 데이터 얻기

위의 '꽃' 예시와 같은 적대적 이미지는 컴퓨터 모델을 교육한 이미지 데이터 세트에 액세스하여 생성됩니다. 가장 인기 있는 데이터 세트(및 많은 훈련된 모델)가 강력하고 지속적으로 업데이트되는 토렌트 장면에서 널리 사용 가능하기 때문에 훈련 데이터(또는 모델 아키텍처)에 대한 '특권' 액세스가 필요하지 않습니다.

예를 들어 컴퓨터 비전 데이터 세트의 유서 깊은 골리앗인 ImageNet은 토렌트에서 사용 가능 모든 많은 반복에서 관습을 우회합니다. 제한, 다음과 같은 중요한 보조 요소를 사용할 수 있도록 합니다. 검증 세트.

출처: https://academictorrents.com

데이터가 있는 경우 애들레이드 연구원이 관찰한 대로 다음과 같은 인기 있는 데이터 세트를 효과적으로 '리버스 엔지니어링'할 수 있습니다. 도시 풍경및 시파르.

앞선 예에서 '오바마 꽃'을 가능하게 한 데이터 세트인 PubFig의 경우 Columbia University는 연구원들에게 복사하다 컴파일을 직접 사용할 수 있도록 하는 대신 선별된 링크를 통해 데이터 세트, 관찰하다 '이것은 다른 대규모 웹 기반 데이터베이스가 진화하는 방식인 것 같습니다.'.

대부분의 경우 필요하지 않습니다. Kaggle 견적 컴퓨터 비전에서 가장 인기 있는 10가지 이미지 데이터 세트는 다음과 같습니다. CIFAR-100 및 CIFAR-XNUMX(둘 다 직접 다운로드 가능); CALTECH-101 및 256(둘 다 사용 가능하며 둘 다 현재 급류로 사용 가능); MNIST(공식적으로 사용 가능, 급류에서도); ImageNet(위 참조); 파스칼 VOC(가능, 급류에서도); MS 코코(가능, 및 급류에서); 스포츠-1M (가능); 및 YouTube-8M(가능).

이 가용성은 또한 더 넓은 범위의 사용 가능한 컴퓨터 비전 이미지 데이터 세트를 대표합니다. 모호함은 '게시 또는 소멸' 오픈 소스 개발 문화에서 죽음이기 때문입니다.

어쨌든 희소성은 다루기 쉬운 새로운 데이터 세트, 높은 이미지 세트 개발 비용, '오래된 즐겨찾기'에 대한 의존도, 단순히 이전 데이터 세트를 조정하십시오. 모두 새로운 Adelaide 논문에 설명된 문제를 악화시킵니다.

적대적 이미지 공격 방법에 대한 일반적인 비판

최신 적대적 이미지 공격 기법의 효과에 대한 기계 학습 엔지니어의 가장 빈번하고 지속적인 비판은 공격이 특정 데이터 세트, 특정 모델 또는 둘 다에 특정; 다른 시스템에 '일반화'할 수 없습니다. 결과적으로 사소한 위협만을 나타냅니다.

두 번째로 빈번한 불만은 적대적 이미지 공격이 '화이트 박스'즉, 교육 환경이나 데이터에 직접 액세스해야 합니다. 예를 들어 안면 인식 시스템에 대한 교육 프로세스를 활용하려는 경우와 같이 대부분의 경우 이것은 실제로 가능성이 희박한 시나리오입니다. 런던 경찰청, 당신은 당신의 방법을 해킹해야합니다 NEC, 콘솔이나 도끼로.

사전 학습된 모델인 '제로화'에 대한 적대적 공격

원래 매우 인기 있는 데이터 세트에서 훈련된 사전 훈련된 모델을 다운로드하고 완전히 새로운 데이터를 제공하는 경우는 어떻습니까?

모델은 (예를 들어) ImageNet에서 이미 훈련되었으며 남은 것은 무게, 훈련하는 데 몇 주 또는 몇 달이 걸렸을 수 있으며 이제 원래(지금은 없는) 데이터에 존재했던 것과 유사한 개체를 식별하는 데 도움을 줄 준비가 되었습니다.

교육 아키텍처에서 원본 데이터를 제거한 상태에서 남은 것은 원래 학습한 방식으로 개체를 분류하는 모델의 '소질'이며, 이로 인해 본질적으로 많은 원본 '서명'이 한 번 개혁되고 취약해집니다. 동일한 이전 적대적 이미지 공격 방법으로 다시 돌아갑니다.

교육 아키텍처에서 원래 데이터를 제거한 상태에서 남은 것은 원래 학습한 방식으로 개체를 분류하는 모델의 '소질'이며, 이로 인해 본질적으로 많은 원래 '서명'이 한 번 재구성되고 취약해집니다. 동일한 이전 적대적 이미지 공격 방법으로 다시 돌아갑니다.

그 무게는 소중합니다. 데이터 없이 or 기본적으로 데이터가 없는 빈 아키텍처를 갖게 됩니다. 원래 작성자가 한 것처럼 (아마도 사용 가능한 것보다 더 강력한 하드웨어와 더 높은 예산으로) 시간과 컴퓨팅 리소스를 많이 사용하여 처음부터 훈련해야 합니다.

문제는 가중치가 이미 꽤 잘 형성되고 탄력적이라는 것입니다. 교육 과정에서 어느 정도 적응하겠지만 원래 데이터에서와 마찬가지로 새 데이터에서 유사하게 작동하여 적대적 공격 시스템이 다시 입력할 수 있는 서명 기능을 생성합니다.

장기적으로 이 역시 컴퓨터 비전 데이터 세트의 'DNA'를 보존합니다. XNUMX세 이상, 그리고 오픈 소스 노력에서 상용화 배포에 이르기까지 눈에 띄는 발전을 거쳤을 수 있습니다. 심지어 프로젝트 시작 시 원래 교육 데이터가 완전히 폐기된 경우에도 마찬가지입니다. 이러한 상용 배포 중 일부는 아직 몇 년 동안 발생하지 않을 수 있습니다.

화이트박스 불필요

적대적인 이미지 공격 시스템에 대한 두 번째 일반적인 비판과 관련하여 새 논문의 저자는 제작된 꽃 이미지로 인식 시스템을 속이는 능력이 여러 아키텍처에 걸쳐 높은 수준으로 이전될 수 있음을 발견했습니다.

그들의 'Universal NaTuralistic adversarial paTches'(TnT) 방법이 이미지 인식 시스템을 속이기 위해 인식 가능한 이미지(임의의 섭동 노이즈가 아닌)를 사용하는 최초의 방법임을 관찰하면서 저자는 또한 다음과 같이 말합니다.

'[TnTs]는 널리 사용되는 분류기에서 다양한 최신 분류기에 대해 효과적입니다. WideResNet50 의 대규모 시각 인식 작업에서 IMAGEnet 의 얼굴 인식 작업에서 VGG 얼굴 모델에 대한 데이터 세트 펍무화과 둘 다의 데이터 세트 대상 과 목표가 없는 공격.

'TnTs는 다음을 소유할 수 있습니다. ii) 일반화 및 양도 가능성 적대적 예 다른 네트워크에.

'이는 공격자가 눈에 띄지 않는 자연스러운 개체 패치를 사용하여 모델을 조작하고 발견을 위험에 빠뜨리지 않고 신경망 시스템을 잘못 안내할 수 있는 미래의 DNN 배포뿐만 아니라 이미 배포된 DNN에 대한 안전 및 보안 문제를 제기합니다.'

저자는 Clean Acc를 저하시키는 것과 같은 기존의 대책을 제안합니다. 이론적으로 TnT 패치에 대한 일부 방어를 제공할 수 있지만 'TnT는 여전히 대부분의 방어 시스템이 0% 견고성을 달성하면서 이 SOTA 입증 가능한 방어 방법을 성공적으로 우회할 수 있습니다.'

가능한 다른 솔루션은 다음과 같습니다. 연합 학습기여하는 이미지의 출처가 보호되는 곳, 교육 시간에 데이터를 직접 '암호화'할 수 있는 새로운 접근 방식(예: 최근에 제안 된 난징 항공 우주 대학에 의해.

그런 경우에도 진정으로 훈련하는 것이 중요합니다. 이미지 데이터 – 이제 가장 인기 있는 CV 데이터 세트의 작은 핵심에 있는 이미지 및 관련 주석은 전 세계 개발 주기에 너무 내장되어 있어 데이터보다 소프트웨어와 더 비슷합니다. 몇 년 동안 눈에 띄게 업데이트되지 않은 소프트웨어.

결론

적대적인 이미지 공격은 오픈 소스 머신 러닝 사례뿐만 아니라 다음과 같은 몇 가지 이유로 잘 확립된 컴퓨터 비전 데이터 세트를 재사용하려는 동기가 부여된 기업 AI 개발 문화에 의해 가능해지고 있습니다. '처음부터 시작'하는 것보다 훨씬 저렴합니다. 단일 회사가 복제하기 어려운 자금 및 인력 수준에서 학계 및 산업 전반의 선구자 정신과 조직에 의해 유지되고 업데이트됩니다.

또한 데이터가 원본이 아닌 경우(시티스케이프와 달리), 이미지는 개인 정보 보호 및 데이터 수집 관행에 대한 최근 논란 이전에 수집되었으며, 이러한 오래된 데이터 세트는 일종의 준법적 연옥 기업 입장에서는 안심할 수 있는 '세이프 하버'처럼 보일 수 있습니다.

TnT 공격! 심층 신경망 시스템에 대한 보편적인 자연주의적 적대적 패치 Rutgers University 컴퓨터 과학과의 Shiqing Ma와 함께 Adelaide 대학의 Bao Gia Doan, Minhui Xue, Ehsan Abbasnejad, Damith C. Ranasinghe가 공동 저술했습니다.

1년 2021월 7일 오전 06시 2분(GMT+XNUMX) 업데이트됨 – 오타 수정.