인공 지능

TextFooler 알고리즘은 NLP AI를 속입니다.

업데이트 on 2022 년 12 월 9 일

최근 몇 년간 자연어 처리 알고리즘과 시스템이 눈부시게 발전했지만 여전히 "적대적 사례"로 알려진 일종의 공격에 취약합니다. NLP 시스템이 예상치 못한 바람직하지 않은 방식으로 작동하도록 만들 수 있는 신중하게 설계된 문구의 적대적인 예입니다. 이러한 이상한 사례로 인해 AI 프로그램이 오작동할 수 있으므로 AI 연구자들은 적대적인 사례의 영향으로부터 보호할 수 있는 방법을 설계하려고 노력하고 있습니다.

최근 홍콩 대학과 싱가포르 과학 기술 연구 기관의 연구원 팀이 협력하여 적대적인 사례의 위험성을 보여주는 알고리즘을 만들었습니다. 유선이 보도한 바와 같이, 알고리즘은 더빙되었습니다 텍스트 풀러 NLP 분류기가 문장을 해석하는 방식에 영향을 미치면서 문장의 일부를 미묘하게 변경하는 방식으로 작동합니다. 예를 들어, 알고리즘은 한 문장을 다른 유사한 문장으로 변환하고 리뷰가 부정적인지 긍정적인지 결정하도록 설계된 분류기에 입력되었습니다. 원래 문장은 다음과 같습니다.

“불가능하게 캐스팅 된 캐릭터 고안된 상황은 전적으로 현실과 동떨어져 있다."

다음 문장으로 변환되었습니다.

“불가능하게 캐스팅 된 캐릭터 조작 된 상황은 충분히 현실과 동떨어져 있다."

이러한 미묘한 변화로 인해 텍스트 분류자는 리뷰를 부정적이 아닌 긍정적으로 분류했습니다. 연구팀은 여러 다른 데이터 세트 및 텍스트 분류 알고리즘에서 동일한 접근 방식(특정 단어를 동의어로 교환)을 테스트했습니다. 연구팀은 알고리즘의 분류 정확도를 10%에서 단 90%로 떨어뜨릴 수 있었다고 보고합니다. 이것은 이 문장을 읽는 사람들이 같은 의미로 해석할 것이라는 사실에도 불구하고 그렇습니다.

이러한 결과는 NLP 알고리즘과 AI가 점점 더 자주 사용되는 시대와 의료 청구 평가 또는 법률 문서 분석과 같은 중요한 작업에 관련됩니다. 현재 사용되는 알고리즘에 적대적 사례가 얼마나 위험한지는 알 수 없습니다. 전 세계의 연구팀은 여전히 그들이 얼마나 많은 영향을 미칠 수 있는지 확인하려고 노력하고 있습니다. 최근 Stanford Human-Centered AI 그룹이 발표한 보고서는 적대적 사례가 AI 알고리즘을 속이고 세금 사기를 저지르는 데 사용될 수 있다고 제안했습니다.

최근 연구에는 몇 가지 제한점이 있습니다. 예를 들어, UC Irvine의 컴퓨터 과학 조교수인 Sameer Singh은 사용된 적대적 방법이 효과적이라고 언급했지만 AI 아키텍처에 대한 일부 지식에 의존합니다. AI는 효과적인 단어 그룹을 찾을 때까지 반복적으로 조사해야 하며, 이러한 반복적인 공격은 보안 프로그램에서 알아차릴 수 있습니다. Singh과 동료들은 이 주제에 대해 자체 연구를 수행했으며 OpenAI 알고리즘과 같은 고급 시스템이 특정 트리거 문구가 표시될 때 인종 차별적이고 유해한 텍스트를 전달할 수 있음을 발견했습니다.

사진이나 비디오와 같은 시각적 데이터를 처리할 때 적대적인 예도 잠재적인 문제입니다. 한 가지 유명한 예는 새끼 고양이 이미지에 특정 미묘한 디지털 변환을 적용하여 이미지 분류기를 실행하는 것과 관련이 있습니다. 모니터 또는 데스크톱 PC로 해석. 또 다른 예로, UC Berekely 교수인 Dawn Song이 수행한 연구에서는 적대적인 예를 사용하여 컴퓨터 비전 시스템이 도로 표지판을 인식하는 방식을 변경할 수 있으며 이는 자율주행차에 잠재적으로 위험할 수 있음을 발견했습니다.

홍콩-싱가포르 팀이 수행한 것과 같은 연구는 AI 엔지니어가 AI 알고리즘에 어떤 종류의 취약점이 있는지 더 잘 이해하고 잠재적으로 이러한 취약점으로부터 보호하는 방법을 설계하는 데 도움이 될 수 있습니다. 예를 들어 앙상블 분류기를 사용하여 적대적인 예가 컴퓨터 비전 시스템을 속일 수 있는 기회를 줄일 수 있습니다. 이 기술을 사용하면 많은 분류기가 사용되며 입력 이미지에 약간의 변형이 가해집니다. 대부분의 분류자는 일반적으로 이미지의 실제 콘텐츠 측면을 식별한 다음 함께 집계합니다. 그 결과 몇몇 분류자가 속아도 대부분은 속지 않고 이미지가 제대로 분류됩니다.