인공지능

AI에 이미지 이해 및 대화 사용법 가르치기

Published July 21, 2021

Updated April 28, 2026

Martin Anderson

한국의 연구자들은 인간이 대화에서 이미지 사용 방식을 이해하고 자연어 모델이 이러한 매우 최근의 인간 커뮤니케이션 개발에 참여하도록 도울 수 있는 데이터셋을 개발했습니다.

논문에 따르면, 지난 10년 동안 다중 모달 대화 시스템에 대한 연구는 주제와 관련이 없는 학문에 중점을 둔 데이터셋과 방법론으로 인해 제한되었습니다. 예를 들어, 시각적 질문 응답과 이미지 캡션과 같은 이전 접근 방식에서는 이미지에 대한 이해가 대화의 어휘적 맥락에서 분리되어 이미지 응답이 대화를 어떻게 강화하고 발전시키는지에 대한 이해가 없으며, 시각적 기여를 해석하기 위한 도메인 간 스키마도 없습니다.

대화의 1차 요소로서의 이미지

지금까지 많은 접근 방식은 Microsoft의 AI 연구 부문에서 시작된 것으로, 2017년에 검토한 바와 같이 이미지로 시작하는 다중 모달 대화에 초점을 맞추지 않고 대화 구성 요소로서 자유롭게 이미지를 사용하는 방식에 초점을 맞추지 않았습니다.

연구 데이터의 부족을 해결하기 위해 한국의 연구자들은 45,000개의 대화 인스턴스를 포함하는 데이터셋을 개발했으며, 바이러스성 ‘이미지’에 집중하지 않았습니다. 바이러스성 이미지는 언어 연구에서 관심 분야이지만, 소셜 미디어 플랫폼에서 수천 개의 맥락에서 의미를 더 쉽게 추론할 수 있기 때문에 도전이 덜한 것으로 간주될 수 있습니다.

텍스트의 대체로서의 일러스트 개발

단어/구문 > 이미지 양방향 전사 방법을 개발하기 위해 한국의 연구자들은 기계 학습 시스템을 훈련하여 텍스트 기반 대화의 일부를 의미적으로 관련된 이미지 콘텐츠로 대체했습니다.

한국 시스템의 다중 모달 대화 연구를 위한 데이터셋 생성 아키텍처. 출처: https://arxiv.org/pdf/2107.08685.pdf

대상 구문에 대한 전처리에는 예측을 방해할 수 있는 중지 단어를 삭제하고, 문맥적 유사성 필터를 통해 품질이 낮은 교환을 자르기 포함되었습니다.

데이터셋의 유용성을 테스트하기 위해 연구자들은 대화의 맥락과 포함된 이미지에 대한 고려를 기반으로 대화의 다음 ‘턴’을 예측하도록 모듈을 설정했습니다.

연구에서 사용된 인간 평가 GUI.

45k 데이터셋을 생성하기 위한 기본 자료로 사용된 5개의 외부 데이터셋은 다음과 같습니다. 세 개는 텍스트 기반 요소입니다: 일상 대화, 2017년의 수동으로 주석이 달린 다중 턴 텍스트 기반 세트; Facebook의 공감 대화와 PersonaChat, 모두 2018년의 것입니다. 사용된 두 개의 이미지 기반 데이터셋은 MS-COCO와 Flicker30k입니다.

이미지/텍스트 쌍 – 데이터셋의 구문과 관련된 이미지(이 예에서는 Microsoft의 COCO 이미지 데이터베이스에서)의 JSON 스키마.

시스템의 텍스트에서 이미지로의 대체는 2019년 보스턴의 노스이스트 대학교에서 개발된 사전 훈련된 시각적 의미론적 추론 네트워크(VSRN)에 의해 구동되었습니다. VSRN은 기여한 텍스트 데이터셋에서 수동으로 선정된 구문에 작동하도록 설정되었습니다.

일관성 확립

소스 데이터셋의 일관성은 각 대화 데이터셋의 6개의 조합을 개발하여 각 이미지 데이터셋의 인스턴스와 상관시키고 여러 라운드에 걸쳐 인간에 의해 평가하여 확립되었습니다.

인간의 평가 기준은 다음과 같습니다. 교환의 맥락에 대한 일관성, 이미지로 표현하려고 하는 핵심 개념에 대한 이미지 관련성, 이미지에 포함된 대상 구문의 핵심 개체의 범위입니다.

이러한 기준을 고려하면 연구자들이 결정한 스키마는 텍스트 대화에 주입될 수 있는 이미지의 의미론적 의미에 대한 유머, 비꼬기, 추상적 또는 형이상학적인 가능성을 크게 무시한 것으로 볼 수 있습니다.

그러나 이것은 선구적인 작업이며, 어딘가에서 시작해야 하며, 자연어 처리(NLP) 부문에서 상당한 노력이 투자되고 있는 반면, 사과를 포함한 다른 예와 같은 이미지/텍스트 관계의 사례를 매핑하는 등 노력이 투자되고 있습니다.

테스트

데이터 생성 프레임워크를 테스트하기 위해 연구자들은 Facebook의 2020년 이미지-채팅 연구에 기반한 3부분 검색 모델을 사용했습니다. 모듈은 Resnext-101을 이미지 인코더로, Google의 BERT를 텍스트 인코더로, 이러한 것을 위한 사용자 정의 퓨전 모듈로 구성됩니다.

시스템은 현재 및 다음 문장 예측 작업에서 50.35 및 14.38을 달성하여 각 작업의 기준을 개선했습니다.

나중에 두 명의 연구자들은 수동으로 대화에 이미지를 삽입하여 100개의 다중 모달 대화를 생성하고 ‘유기적’ 다중 모달 대화에 대한 시스템을 실행하도록任务했습니다. 시스템은 이러한 임의의 예에 대해서도 맥락에 대한 높은 인식과 함께 현재 및 다음 턴 교환을 예측할 수 있었습니다.