인공지능

가장 최신 언어 모델도 시간 논리 이해에 어려움을 겪는다

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

미래 상태를 예측하는 것은 컴퓨터 비전 연구에서 중요한 임무이며, 특히 로봇틱스와 같은 분야에서 실제 상황을 고려해야 하기 때문에 더욱 중요합니다. 임무에 중요한 작업을 맡은 기계 학습 시스템은 물리 세계에 대한 적절한 이해가 필요합니다.

그러나 어떤 경우에는 시간 현실에 대한 겉보기에 인상적인 지식이 속임수로 될 수 있습니다. 아랍 에미리트의 새로운 연구에 따르면, 최신 멀티모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)인 GPT-4o와 Google Gemini를 포함한 섹터 리더들은 이미지에서 시간이 표현되는 방식을 해석할 때 어려움을 겪는 것으로 나타났습니다.

예를 들어, 순차적인 이미지 쌍(아래 이미지 참조)은 인간에게는 쉽지만, 예상치 못한 컨텍스트 또는 구성(예: 두 번째 이미지 먼저, 단일 이미지로 연결, 순차적 이미지 등)에서 고급 MLLMs를 혼동시킬 수 있습니다.

새로운 연구를 위해 컴파일된 데이터셋의 샘플, 순차적 이벤트를 보여줍니다. 연구자들은 이 데이터를 https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer에서 제공합니다

새로운 연구를 위해 컴파일된 데이터셋의 샘플, ‘이전 및 이후’ 이미지 형식의 순차적 이벤트를 보여줍니다. 연구자들은 이 데이터를 https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer에서 제공합니다

연구자들은 모델에 기본적인 시간 논리 과제를 부여했으며, 이벤트 순서를 결정하거나 시간 간격을 추정하는 것과 같은 과제에서 7개의 MLLMs가 인간의 정확도보다 현저히 낮은 성능을 보이는 것으로 나타났습니다:

‘전반적으로, [결과]는 현재 모든 MLLMs, 포함하여 평가에서 가장 진보된 모델인 GPT-4o가 제안된 벤치마크에 어려움을 겪는다는 것을 보여줍니다. GPT-4o의 다른 모델에 비해 상대적으로 우수한 성능에도 불구하고, 일관된 시간 논리 이해를 보여주지 못합니다.

‘모델의 일관된 정확도는 낮은 것으로 나타나, 시각적 입력에서 시간 순서를 이해하고 해석하는 능력에 대한重大한 제한을 나타냅니다. 이러한 결함은 모델에 다중 이미지 입력이나 최적화된 프롬프트가 제공되는 경우에도 나타나, 현재의 아키텍처와 훈련 방법이 강력한 시간 순서 이해에 부족함을 시사합니다.’

기계 학습 시스템은 가장 정확하고 효율적이며 사람들에게 호감을 주는 결과를 최적화하도록 설계되었습니다*. 그들이 명시적으로 이유를 공개하지 않기 때문에, 그들이 속임수를 사용하거나 ‘단축 경로’를 사용하는지 판단하기 어려울 수 있습니다.

이 경우, MLLM은 올바른 방법으로 올바른答案에 도달할 수 있지만, 이후에 같은 방법으로 부정확한 결과를 생산할 수 있습니다.

더욱 나쁘게, 이러한 오도는 인간이 감동받고 테스트와 주석 세션에서 긍정적인 피드백을 제공할 경우, 데이터와/또는 모델이 취할 방향에 기여할 수 있습니다.

이 경우, MLLMs는 시간과 시간 현상을真正로 이해하는 것처럼 보이지만, 실제로는 시간戳, 이미지 레이아웃, 순차적 파일 이름 등과 같은 보조 지시자를 관찰하고 고정하여 시간 논리를 ‘위조’하는 것으로 나타납니다.

또한, MLLMs는 현재 인간이 이해할 수 있는 시간 현상의 개념을 일반화하지 못하는 것으로 나타납니다.

새로운 논문은 멀티모달 MLLMs가 시각적 시간 이해와 추론을 할 수 있는가?答案은 아니오!라는 제목으로, 아랍 에미리트의 모하메드 빈 자이드 대학교와 알리바바 국제 디지털 커머스에서 연구한 3명의 연구자에 의해 발표되었습니다.

데이터 및 테스트

연구자들은 이전의 벤치마크와 연구, 즉 MMMU와 TemporalBench가 단일 이미지 입력 또는 너무 쉬운 질문에 집중하여 모델의 단축 경로 행동을 발견하지 못할 수 있다고 주장합니다.

따라서 연구자들은 두 가지 새로운 접근 방식을 제안합니다: 시간 순서 이해(TOU)와 시간 간격 추정(TLE). TOU 접근 방식은 모델이 두 개의 비디오 프레임에서 이벤트 순서를 결정하는 능력을 테스트합니다. TLE 방법은 모델이 두 개의 이미지 사이의 시간 간격을 추정하는 능력을 평가합니다.

논문에서, TemporalVQA 벤치마크의 두 가지 주요 작업: 시간 순서 이해에서는 모델이 두 개의 이미지 중 어느 하나가 먼저 발생했는지 결정합니다. 시간 간격 추정에서는 모델이 두 개의 이미지 사이의 시간 간격을 추정합니다. 이러한 작업은 MLLMs가 시각적 이벤트의 타이밍과 순서에 대해 추론하는 능력을 테스트합니다. 출처: https://arxiv.org/pdf/2501.10674

연구자들은 TOU 벤치마크를 위해 360개의 이미지 쌍을 구축했습니다. 이미지 쌍은 픽사베이와 펙셀스에서 공개된 비디오에서 선택하여, 데이터셋을 GUI를 통해 제공할 수 있도록 했습니다.

비디오는 일상 활동을 하는 사람들부터 비인간 콘텐츠인 동물과 식물까지 다양한 주제를 다루었습니다. 이미지 쌍은 이벤트의 순서를 명확하게 하기 위해 선택되었습니다.

인간의 선택을 통해 이미지 쌍이 명확하게 순서가 정해질 수 있도록 했습니다. 예를 들어, 하나의 이미지 쌍은 한 컵이 부분적으로 채워진 채로 나타나고, 다른 이미지에서는 같은 컵이 완전히 차 있는 것을 보여줍니다.

이 두 개의 사진의 시간 논리는 탈출할 수 없습니다. 차가 스푼으로 다시 빨려들어갈 수 없기 때문입니다.

이렇게 360개의 이미지 쌍을 구축했습니다.

TLE 접근 방식에서는 구글과 플리커에서 저작권이 없는 이미지와 유튜브의 저작권이 없는 비디오의 일부 프레임을 선택했습니다. 비디오의 주제는 몇 초에서 몇 년까지의 시간 간격을 갖는 장면이나 객체를 특징으로 했습니다.

이렇게 125개의 이미지 쌍을 구축했습니다.

모든 MLLMs가 다중 이미지 입력을 처리할 수 있는 것은 아니므로, 각 모델의 능력에 따라 테스트가 달랐습니다.

다중 이미지 쌍을 수직으로 연결하거나 수평으로 연결한 여러 버전의 데이터셋을 생성했습니다. 일부 쌍은 실제 시간 순서와 반대되는 순서로 스왑되었습니다.

두 가지 프롬프트 유형을 개발했습니다. 첫 번째는 다음과 같은 템플릿을 따랐습니다:

(왼쪽 / 위 / 첫 번째) 이미지에서 발생한 이벤트가 (오른쪽 / 아래 / 두 번째) 이미지에서 발생한 이벤트보다 먼저 발생했는지 여부를 결정하세요. 참 또는 거짓을 이유와 함께 표시하세요.

두 번째는 다음과 같은 스키마를 따랐습니다:

이 두 개의 이미지 중 어느 하나가 먼저 발생한 이벤트를 나타내는지 결정하세요. (왼쪽 또는 오른쪽 / 위 또는 아래 / 첫 번째 또는 두 번째)와 이유를 표시하세요.

TLE의 경우, 모델이 두 개의 이미지 사이의 시간 간격을 평가하도록 요청하는 다중 선택 질문이었습니다. 시간 단위로는 초, 분, 시간, 일, 월, 년이 제공되었습니다.

이 경우 사용된 프롬프트는 다음과 같습니다:

제공된 이미지에서 첫 번째 이미지 (왼쪽)와 두 번째 이미지 (오른쪽) 사이에经过한 시간을 추정하세요.

다음 옵션 중 하나를 선택하세요:

1. 15초 미만 B. 2분에서 15분 사이 C. 1시간에서 12시간 사이 D. 2일에서 30일 사이 E. 4개월에서 12개월 사이 F. 3년 이상

테스트된 MLLMs는 ChatGPT-4o, Gemini1.5-Pro, LLaVA-NeXT, InternVL, Qwen-VL, Llama-3-vision, 및 LLaVA-CoT였습니다.

시간 순서 이해: 결과

다양한 모델과 입력 레이아웃에 대한 시간 순서 이해 결과, 정확도와 일관성을 보여줍니다.

위의 결과에 대해, 연구자들은 모든 테스트된 MLLMs, 포함하여 GPT-4o(전체적으로 최고의 성능을 보여준 모델)가 TemporalVQA 벤치마크에 어려움을 겪는 것으로 나타났습니다.

연구자들은 일관된 낮은 정확도가 모든 모델에서 나타나, 시각적 입력에서 시간 순서를 이해하고 해석하는 능력에 대한重大한 제한을 나타냄을 주장합니다. 이러한 어려움은 다중 이미지 입력이나 최적화된 프롬프트를 사용하는 경우에도 나타나, 현재의 아키텍처와 훈련 방법이 강력한 시간 순서 이해에 부족함을 시사합니다.

테스트는 프롬프트 전략에 대한 모델의 성능에서 상당한 변화를 보여주었습니다. GPT-4o는 최적화된 프롬프트에서 성능을 개선했지만(단일 이미지에서 4%에서 65.3%로, 다중 이미지에서 46.0%에서 65.3%로), 성능은 여전히 허용할 수 있는 수준 아래로 유지되었습니다.

LLaVA-NeXT와 Qwen-VL과 같은 모델은 대체 프롬프트에서 성능이 떨어지는 것으로 나타났습니다. 이는 프롬프트 엔지니어링만으로 MLLMs의 시간 논리 이해의 근본적인 제한을 극복할 수 없음을 시사합니다.

테스트는 또한 이미지 레이아웃(수직 대 수평)이 모델의 성능에 상당한 영향을 미친다는 것을 보여주었습니다. GPT-4o는 수직 배열에서 일관성을 개선했지만(39.2%에서 52.8%로), 다른 모델은 강한 방향성 편향을 보여, 한 방향에서는 우수한 성능을 보여주지만 다른 방향에서는 실패했습니다.

이러한 일관성이 공간적 단서에 의존하여, 실제 시간 순서를 이해하는 것이 아니라, 이미지 레이아웃과 같은 시각적 특징에 따라 결정한다는 것을 시사합니다.

GPT-4o의 예측을 강조하는 질적 테스트, 다른 입력 순서에서. 첫 번째 순서에서는 이미지 쌍이 원래 순서로 제공되고, 두 번째 순서에서는 순서가 반대됩니다. 올바른 분류는 녹색으로 표시되고, 순수한 오분류는 빨간색으로 표시되고, 환각된 이유는 오렌지색으로 표시되고, 비논리적 또는 ‘무효’ 이유는 갈색으로 표시됩니다.

단일 이미지 입력과 다중 이미지 입력을 비교하는 테스트는 전체적으로 제한된 개선을 보여주었습니다. GPT-4o는 다중 이미지 입력에서 약간 더 좋은 성능을 보여주었지만(31.0%에서 43.6%로, P1에서) 및(46.0%에서 65.3%로, P2에서).

다른 모델은 안정적인 nhưng 낮은 정확도를 보여주었습니다. 연구자들은 이러한 결과가 추가적인 시각적 컨텍스트가 시간 논리 이해 능력을 크게 향상시키지 못한다는 것을 시사한다고 주장합니다.
인간 연구

인간 연구에서, 세 가지 설문조사를 통해 최고의 멀티모달 MLLM이 인간의 추정과 얼마나 가까운지 평가했습니다.

인간은 90.3%의 정확도를 달성했으며, GPT-4o의 65.3%보다 25% 더 높았습니다. 데이터셋은 신뢰할 수 있었으며, 인간 오류는 최소화되었으며, 올바른 답변에 대한 일관된 동의가 있었습니다.

첫 번째 테스트의 인간 사용자 연구 결과.

시간 간격 추정: 결과

TLE 결과: 시간 간격 추정은 모델이 이미지 쌍 사이의 간격을 식별하는 정확도를 평가합니다. 이 작업은 각 모델이 시간 간격에 대한 올바른 시간 단위를 선택하는 능력을 평가합니다.

이 테스트에서, MLLMs는 시간 간격 추정에서 중간 정도의 성능을 보여주었습니다. GPT-4o는 70%의 정확도를 달성했지만, 다른 모델은 훨씬 더 낮은 성능을 보여주었습니다.

연구자들은 다음과 같이 주장합니다:

‘시간 간격 추정 작업은 MLLMs가 이미지 쌍 사이의 시간 간격을 추론하는 능력을 테스트합니다. 모든 MLLMs, 포함하여 최고의 성능을 보여준 GPT-4o와 Gemini1.5-Pro,이 작업에서 어려움을 겪습니다. GPT-4o는 60-70%의 정확도를 달성하지만, 일관된 성능을 보여주지 못합니다.

LLaVA-CoT는 초와 일의 시간 간격에서 우수한 성능을 보여주지만, 다른 시간 간격에서 훨씬 더 낮은 성능을 보여줍니다.’

인간 연구

TLE에 대한 인간 연구에서, 평균 인간 성능은 GPT-4o(이 범주에서 최고의 성능을 보여준 모델)보다 12.3% 더 높았습니다.

연구자들은 일부 테스트가 특히 어려웠으며, 한 경우 모든 인간 참가자가 잘못된 답변을 반환했으며, 모든 AI 참가자도 잘못된 답변을 반환했다고 주장합니다.

연구자들은 GPT-4o가 이미지의 순서에 관계없이 합리적인 추론 능력을 보여준다고 주장합니다.