인공지능

멀티모달 학습이 AI 개발자 사이에서 두드러지게 나타나고 있다

Published November 24, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Venture Beat (VB)은 인공 지능 개발에서 멀티모달 학습의 장점에 대해 주간 보고서 중 하나를 할애했다. 그들의 자극은 보고서에 의해 ABI Research에 대한 문제였다.

중요한 개념은 “데이터 세트는 AI 시스템의 기본 빌딩 블록”이라는 사실에 있으며, 데이터 세트 없이 “모델은 예측을 알려주는 관계를 학습할 수 없다”는 것이다. ABI 보고서는 “전체 설치된 AI 장치의 수가 2019년에 26.9억 개에서 2024년에 44.7억 개로 증가할 것”이라고 예측하며, “대조적으로 짧은 기간 내에 비교적 적은 수의 장치가 상호 운용될 것”이라고 말했다.

이것은 상당한 시간, 에너지, 자원의 낭비를 나타낼 수 있다. “그들이 처리하는 기가바이트에서 페타바이트의 데이터를 단일 AI 모델이나 프레임워크로 결합하는 대신, 그들은 독립적으로 그리고 이질적으로 작동하여 그들이 입력받은 데이터를 이해한다.

이를 극복하기 위해, ABI는 멀티모달 학습을 제안한다. 이 방법론은 다양한 센서와 입력에서 데이터를 “단일 시스템으로 통합”할 수 있다. 멀티모달 학습은 보완적인 정보 또는 경향을 전달할 수 있으며, 이는 종종 모든 것이 학습 과정에 포함될 때만 명백해진다.

VB는 이미지와 텍스트 캡션을 고려하는 적절한 예를 제시한다. “다른 단어가 유사한 이미지와 쌍으로 구성되면, 이러한 단어들은 아마도 동일한 것 또는 객체를 설명하는 데 사용된다. 반대로, 일부 단어가 다른 이미지 옆에 나타나면, 이는 이러한 이미지가 동일한 객체를 나타낸다는 것을 의미한다. 이러한 이유로, AI 모델은 텍스트 설명에서 이미지 객체를 예측할 수 있어야 하며, 실제로 학술 문헌의 한몸은 이것이 사실임을 입증했다.

가능한 장점에도 불구하고, ABI는 기술 거대 기업인 IBM, Microsoft, Amazon, Google가 여전히 주로 유니모달 시스템에 집중하고 있음을 지적한다. 이러한 전환의 도전을 나타내는 이유 중 하나이다.

그러나 ABI 연구자들은 “전체 출하 장치의 수가 2017년 394만 개에서 2023년 5.1412억 개로 증가할 것”이라고 예상하며, 로봇공학, 소비자, 의료, 미디어 및 엔터테인먼트 부문의 채택에 의해 추진된다”고 말했다. 멀티모달 학습을 이미 구현하고 있는 회사들의 예로 Waymo를 언급하며, 이러한 접근 방식을 사용하여 “초고감지 자율 주행 차량”을 구축하고 있으며, Intel Labs에서 회사의 엔지니어링 팀이 “실제 환경에서 센서 데이터 수집을 위한 기술을 조사”하고 있다고 말했다.

Intel Labs의 주요 엔지니어인 Omesh Tickoo는 VB에게 “우리가 한 일은, 시간과 같은 컨텍스트를 결정하는 기술을 사용하여, 센서 데이터의 품질이最高가 아닌 시스템을 알려주는 시스템을 구축했다. 이러한 신뢰도 값이 주어지면, 서로 다른 센서를 다른 간격으로 가중하고 우리가 찾고 있는 답을 주기 위해 올바른 혼합을 선택한다”고 말했다.

VB는 유니모달 학습이 여전히 효과적인 곳에서 지배적일 것”이라고 언급하며, “이미지 인식 및 자연어 처리와 같은 응용 프로그램에서”라고 말했다. 동시에 “전자 기기가 더 저렴해지고 컴퓨팅이 더 확장 가능해짐에 따라, 멀티모달 학습은 아마도 더 두드러지게 나타날 것”이라고 예측했다.