인공지능

AI 세계 모델은 정말 물리 법칙을 이해할 수 있을까?

Published November 26, 2024

Updated March 30, 2026

Martin Anderson

Image produced by ChatGPT-4o, depicting diverse objects exhibiting aberrant physical properties. The prompt was developed conversationally

시각-언어 AI 모델에 대한 큰 기대는, 어느 날 그 모델들이 더 큰 자율성과 다양성을 갖추고, 우리가 초기 경험을 통해 이러한 원리들을 본능적으로 이해하는 방식과 유사하게 물리 법칙의 원칙들을 통합하게 될 것이라는 점입니다.

예를 들어, 아이들의 공놀이는 운동 역학에 대한 이해와 무게 및 표면 질감이 궤적에 미치는 영향을 발달시키는 경향이 있습니다. 마찬가지로, 목욕, 쏟아진 음료, 바다, 수영장 및 기타 다양한 액체 환경과 같은 일반적인 시나리오와의 상호작용은 중력 하에서 액체가 행동하는 방식에 대한 다양하고 확장 가능한 이해를 우리에게 심어줄 것입니다.

더 흔하지 않은 현상들 – 예를 들어 연소, 폭발, 압력 하의 건축물 하중 분포 등 – 에 대한 가정들조차도 TV 프로그램과 영화, 또는 소셜 미디어 동영상을 통해 노출되면서 무의식적으로 흡수됩니다.

우리가 학문적 수준에서 이러한 시스템들 뒤에 있는 원리들을 공부할 때쯤이면, 우리는 단지 우리의 직관적(그러나 정보가 부족한) 정신 모델에 ‘후속 조치’를 취하고 있을 뿐입니다.

한 분야의 전문가들

대조적으로, 현재 대부분의 AI 모델은 더 ‘전문화’되어 있으며, 그 중 많은 모델이 특정 사용 사례에 상당히 특화된 이미지 또는 비디오 데이터셋에 대해 미세 조정되거나 처음부터 훈련되어, 이러한 지배적인 법칙들에 대한 일반적인 이해를 발전시키도록 설계되지 않았습니다.

다른 모델들은 물리 법칙에 대한 이해의 외관을 제시할 수 있지만, 실제로는 사용자의 프롬프트로부터 진정으로 새로운(그리고 과학적으로 타당한) 묘사를 생성할 수 있는 방식으로 운동 물리학과 같은 영역의 기초를 정말로 이해하기보다는 훈련 데이터의 샘플을 재생산하고 있을 수 있습니다.

생성형 AI 시스템의 제품화 및 상업화가 이루어지고 있는 이 미묘한 순간에, 새로운 AI 모델의 정교한 마케팅과 그 한계의 현실을 구별하는 것은 우리와 투자자들의 검토에 달려 있습니다.

Bytedance Research가 주도한 11월의 가장 흥미로운 논문 중 하나는 이 문제를 다루며, Sora와 같은 ‘범용’ 생성 모델들의 표면적 능력과 실제 능력 사이의 격차를 탐구했습니다.

이 연구는 현재의 기술 수준에서, 이러한 유형의 모델들로부터 생성된 출력이 실제 세계에서 작동하는 근본적인 물리적 제약을 완전히 이해하고 있음을 보여주기보다는 훈련 데이터의 예시들을 모방할 가능성이 더 높다고 결론지었습니다.

논문은 다음과 같이 말합니다*:

‘[이러한] 모델들은 훈련 세트의 “기만적인” 예시들에 의해 쉽게 편향될 수 있어, 특정 조건 하에서 “사례 기반” 방식으로 일반화하게 됩니다. 이 현상은 대규모 언어 모델에서도 관찰된 바 있으며, 모델이 새로운 작업을 해결할 때 유사한 훈련 사례들을 참조하는 경향을 설명합니다.

‘예를 들어, 균일한 직선 운동을 하는 고속 공의 데이터로 훈련된 비디오 모델을 고려해 보십시오. 비디오를 수평으로 뒤집는 데이터 증강을 수행하여 역방향 운동을 도입하면, 모델은 초기 프레임 이후 저속 공이 방향을 반전시키는 시나리오를 생성할 수 있는데, 이는 물리적으로 올바르지 않은 행동입니다.’

우리는 곧 Evaluating World Models with LLM for Decision Making이라는 제목의 논문을 자세히 살펴볼 것입니다. 하지만 먼저, 이러한 표면적 한계의 배경을 살펴보겠습니다.

과거의 기억

일반화 없이, 훈련된 AI 모델은 그 훈련 데이터의 일부를 참조하는 값비싼 스프레드시트에 불과합니다: 적절한 검색어를 찾으면 해당 데이터의 인스턴스를 불러올 수 있습니다.

그 시나리오에서 모델은 사실상 ‘신경망 검색 엔진’ 역할을 합니다. 왜냐하면 원하는 출력에 대한 추상적이거나 ‘창의적인’ 해석을 생성할 수 없고, 대신 훈련 과정에서 본 데이터의 사소한 변형을 복제하기 때문입니다.

이것은 암기로 알려져 있습니다 – 진정으로 가단성 있고 해석적인 AI 모델은 세부 사항이 부족한 경향이 있는 반면, 진정으로 세부적인 모델은 독창성과 유연성이 부족한 경향이 있어 발생하는 논쟁적인 문제입니다.

암기의 영향을 받은 모델들이 훈련 데이터를 재생산하는 능력은 잠재적인 법적 장애물입니다. 특히 모델 제작자가 해당 데이터를 사용할 수 있는 제한 없는 권리를 가지고 있지 않은 경우, 그리고 증가하는 수의 추출 방법을 통해 해당 데이터로부터의 이익이 입증될 수 있는 경우에 그렇습니다.

암기 때문에, 비인가 데이터의 흔적은 지울 수 없고 의도하지 않은 워터마크처럼, 기계 학습 실무자가 ‘안전한’ 데이터가 사용되도록 주의를 기울인 프로젝트에서조차도, 여러 훈련 시스템을 통해 데이지 체인으로 지속될 수 있습니다.

세계 모델

그러나, 암기의 핵심적인 사용 문제는 그것이 지능의 환상을 전달하거나, AI 모델이 근본적인 법칙이나 영역을 일반화했다고 암시하는 경향이 있다는 점입니다. 실제로는 암기된 데이터의 높은 양이 이 환상을 제공하는 것입니다 (즉, 모델은 선택할 수 있는 잠재적 데이터 예시가 너무 많아서 인간이 그것이 학습된 내용을 되풀이하고 있는지, 아니면 생성에 관련된 개념들을 진정으로 추상화하여 이해하고 있는지 구분하기 어렵습니다).

이 문제는 세계 모델에 대한 증가하는 관심에 영향을 미칩니다 – 여러 알려진 법칙들을 통합하고 풍부하게 탐색 가능한, 매우 다양하고 값비싸게 훈련된 AI 시스템의 전망입니다.

세계 모델은 생성형 이미지 및 비디오 분야에서 특히 관심을 받고 있습니다. 2023년 RunwayML은 그러한 모델들의 개발과 실현 가능성에 대한 연구 계획을 시작했습니다; DeepMind는 최근 칭송받는 Sora 생성 비디오의 창시자 중 한 명을 고용하여 이러한 종류의 모델 작업을 하게 했습니다; 그리고 Higgsfield와 같은 스타트업들은 이미지 및 비디오 합성을 위한 세계 모델에 상당히 투자하고 있습니다.

어려운 조합

생성형 비디오 AI 시스템의 새로운 발전이 약속하는 것 중 하나는 그들이 운동, 인간 운동학(예: 보행 특성), 유체 역학, 그리고 기타 알려진 물리적 현상들 – 적어도 인간에게 시각적으로 친숙한 – 과 같은 근본적인 물리 법칙들을 배울 수 있다는 전망입니다.

생성형 AI가 이 이정표를 달성할 수 있다면, 폭발, 홍수, 그리고 여러 유형의 물체에 걸쳐 타당한 충돌 사건을 묘사하는 초현실적인 시각 효과를 생성할 수 있게 될 것입니다.

반면에, AI 시스템이 단순히 그러한 사건들을 묘사하는 수천(또는 수십만) 개의 비디오로 훈련되었다면, 그것은 사용자의 목표 쿼리와 유사한 데이터 포인트로 훈련되었을 때 훈련 데이터를 꽤 설득력 있게 재생산할 수 있을 것입니다; 그러나 쿼리가 데이터에 전혀 표현되지 않은 너무 많은 개념들을 그러한 조합으로 결합하면 실패할 것입니다.

더욱이, 이러한 한계는 누군가가 시스템을 이러한 종류의 도전적인 조합으로 밀어붙이기 전까지는 즉시 명백해지지 않을 것입니다.

이는 새로운 생성 시스템이 인상적이지만 시스템의 능력과 이해의 깊이에 대한 잘못된 인상을 만들 수 있는 바이럴 비디오 콘텐츠를 생성할 수 있음을 의미합니다. 왜냐하면 그것이 나타내는 작업이 시스템에게 진정한 도전이 아니기 때문입니다.

예를 들어, ‘건물이 철거된다’와 같은 비교적 일반적이고 잘 확산된 사건은 물리학에 대한 어느 정도 이해를 가져야 하는 모델을 훈련시키는 데 사용된 데이터셋에 여러 비디오에 존재할 수 있습니다. 따라서 모델은 이 개념을 잘 일반화할 수 있고, 심지어 풍부한 비디오들로부터 학습된 매개변수 내에서 진정으로 새로운 출력을 생성할 수도 있습니다.

이것은 분포 내 예시입니다. 데이터셋이 AI 시스템이 학습할 수 있는 많은 유용한 예시들을 포함하고 있는 경우입니다.

그러나, ‘에펠탑이 외계인 침략자들에 의해 폭파된다’와 같이 더 기이하거나 그럴듯한 예시를 요청한다면, 모델은 ‘금속학적 특성’, ‘폭발의 특성’, ‘중력’, ‘공기 저항’ – 그리고 ‘외계인 우주선’과 같은 다양한 영역들을 결합해야 할 것입니다.

이것은 분포 외 (OOD) 예시입니다. 너무 많은 얽힌 개념들을 결합하여 시스템이 설득력 있는 예시를 생성하는 데 실패하거나, 사용자의 프롬프트를 따르지 않더라도 훈련된 가장 가까운 의미론적 예시로 되돌아갈 가능성이 높습니다.

모델의 소스 데이터셋에 동일하거나 유사한 사건을 묘사하는 할리우드 스타일의 CGI 기반 VFX가 포함되어 있지 않는 한, 그러한 묘사는 물리 법칙에 대한 잘 일반화되고 가단적인 이해를 달성해야만 할 것입니다.

물리적 제약

Bytedance, 칭화대학교 및 테크니온 간의 협력으로 이루어진 새로운 논문은 Sora와 같은 모델들이 이러한 방식으로 결정론적 물리 법칙을 정말로 내면화하지 않는다는 점뿐만 아니라, 데이터를 확장하는 것(지난 18개월 동안 일반적인 접근법)이 대부분의 경우 이와 관련하여 실제 개선을 가져오지 않는 것으로 보인다고 제안합니다.

이 논문은 특정 물리 법칙 – 예를 들어 물체가 충돌할 때나 경로가 방해받을 때의 운동 물체의 행동 – 의 외삽 한계뿐만 아니라, 조합 일반화에 대한 모델의 능력 – 두 가지 다른 물리적 원칙들의 표현이 단일 생성 출력으로 병합되는 경우 – 도 탐구합니다.

새 논문의 비디오 요약. Source: https://x.com/bingyikang/status/1853635009611219019

연구자들이 연구를 위해 선택한 세 가지 물리 법칙은 포물선 운동; 균일 직선 운동; 그리고 완전 탄성 충돌이었습니다.

위 비디오에서 볼 수 있듯이, 연구 결과는 Sora와 같은 모델들이 물리 법칙을 정말로 내면화하지 않고 훈련 데이터를 재생산하는 경향이 있음을 나타냅니다.

더 나아가, 저자들은 색상과 모양과 같은 측면들이 추론 시기에 너무 얽혀서 생성된 공이 사각형으로 변할 가능성이 높다는 것을 발견했는데, 이는 데이터셋 예시에서 유사한 운동이 공이 아닌 사각형을 특징으로 했기 때문인 것으로 보입니다(위에 삽입된 비디오의 예시 참조).

소셜 미디어에서 연구 부문의 주목할 만한 관심을 끈 이 논문은 다음과 같이 결론지었습니다:

‘우리의 연구는 비디오 생성 모델들이 근본적인 물리 법칙을 발견하는 데 확장만으로는 불충분하다고 시사합니다. 비록 그것이 Sora의 더 넓은 성공에 역할을 했지만 말입니다…

‘…[연구 결과들은] 확장만으로는 OOD 문제를 해결할 수 없음을 나타내지만, 다른 시나리오에서는 성능을 향상시킵니다.

‘우리의 심층 분석은 비디오 모델 일반화가 보편적인 규칙을 학습하기보다 유사한 훈련 예시들을 참조하는 데 더 의존함을 시사합니다. 우리는 이 “사례 기반” 행동에서 색상 > 크기 > 속도 > 모양의 우선순위 순서를 관찰했습니다.

‘[우리의] 연구는 비디오 생성 모델들이 근본적인 물리 법칙을 발견하는 데 단순히 확장하는 것만으로는 불충분하다고 시사합니다.’

연구팀이 이 문제

Related Topics:AI video creation video diffusion video synthesis