์ธ๊ณต์ง๋ฅ
AI ์ธ๊ณ ๋ชจ๋ธ์ด ์ค์ ๋ก ๋ฌผ๋ฆฌ ๋ฒ์น์ ์ดํดํ ์ ์๋๊ฐ?

비전-언어 AI 모델에 대한 큰 기대는 bahwa 그것이 언젠가 더 큰 자율성과 다용도성을 갖추게 될 것이라는 것이다. 즉, 우리가 초기 경험을 통해 이러한 원리를 본능적으로 이해하는 것과 마찬가지로 물리 법칙의 원리를 내재화하는 것이다.
예를 들어, 아이들의 공놀이는 운동 역학에 대한 이해를 발달시키고, 무게와 표면 질감이 궤도에 미치는 영향을 이해하게 한다. 마찬가지로, 목욕, 물을 쏟는 것, 바다, 수영장 및 기타 다양한 액체에 대한 상호작용은 우리에게 중력下的 액체의 행동에 대한 다용도적이고 확장 가능한 이해를 심어준다.
또한 Combustion, 폭발 및 압력下的 건축물의 중량 분포와 같은 덜 일반적인 현상의 공제는 무의식적으로 TV 프로그램, 영화 또는 소셜 미디어 비디오에 대한 노출을 통해 흡수된다.
우리가 이러한 시스템의 원리를 학문적으로 공부할 때, 우리는 이미 직관적으로(하지만 무지하게) 이해하고 있는 정신 모델을 단순히 ‘리트로핏’하는 것뿐이다.
한 분야의 달인
현재 대부분의 AI 모델은 대조적으로 더 ‘전문적’이며, 많은 모델이 특정 사용 사례에 특화된 이미지 또는 비디오 데이터셋에서 미세 조정되거나 처음부터 훈련된다. 이러한 모델은 물리 법칙에 대한 일반적인 이해를 개발하도록 설계되지 않았으며, 특정 사용 사례에 특화된 모델이다.
다른 모델은 물리 법칙에 대한 이해의 외관을 나타낼 수 있지만, 실제로 이러한 법칙의 기본을 이해하는 대신 훈련 데이터의 샘플을 재생산할 수 있다. 즉, 사용자의 프롬프트에서真正로 새로운(그리고 과학적으로 가능할 수 있는) 묘사를 생성할 수 있는 운동 물리학과 같은 영역에 대한 이해를 가지지 못할 수 있다.
AI 시스템의 제품화 및 상업화의 이 중요한 시점에, 우리는 이러한 새로운 AI 모델의 마케팅과 그 한계의 현실을 구별해야 한다.
11월의 가장 интерес로운 논문 중 하나는 Bytedance Research가 주도한 것으로, ‘모든 목적’의 생성 모델인 Sora와 같은 모델의 명백한 능력과 실제 능력 사이의 간격을 탐구했다.
연구는 현재 상태에서 이러한 유형의 모델이 실제로 물리 법칙을 이해하는 것보다 훈련 데이터의 예를 모방하는 것이 더 가능하다고 결론지었다.
이 논문은 다음과 같이 말한다:
‘이 모델은 훈련 세트의 “속임수” 예에 의해 쉽게 편향될 수 있으며, 특정 조건에서 “사례 기반” 방식으로 일반화하도록 할 수 있다. 이 현상은 또한 대규모 언어 모델에서 관찰되며, 모델이 새로운 작업을 해결할 때 유사한 훈련 사례를 참조하는 경향을 설명한다.
‘예를 들어, 고속으로 움직이는 공의 동영상으로 훈련된 비디오 모델을 고려하십시오. 데이터 증강을 통해 동영상이 수평으로 뒤집어지면, 모델은 초기 프레임 이후에 방향을 반대로하는 낮은 속도의 공을 생성할 수 있다. 그러나 이것은 물리적으로 올바르지 않다.’
우리는 곧 이 논문에 대해 자세히 살펴볼 것이다. 그러나 먼저 이러한 명백한 한계의 배경을 살펴보자.
과거의 기억
일반화가 없으면, 훈련된 AI 모델은 훈련 데이터의 섹션에 대한 참조를 포함하는 비싼 스프레드시트에 불과하다. 이 시나리오에서 모델은 효과적으로 ‘신경 검색 엔진’으로 작동한다. 왜냐하면 모델은 원하는 출력에 대한 추상적 또는 ‘창의적’한 해석을 생성할 수 없기 때문이다. 대신, 모델은 훈련 과정에서 본 데이터의 약간의 변형을 복제할 뿐이다.
이것은 기억화라고 알려진 문제로,真正로 유연하고 해석 가능한 AI 모델은 세부 사항이 부족한 반면,真正로詳細한 모델은 원본성과 유연성이 부족하다.
이러한 모델이 훈련 데이터를 재생산하는 능력은 모델의 제작자가 데이터를 사용할 권한이 없는 경우 법적 장벽이 될 수 있다. 또한 데이터에서 이익을 얻을 수 있는 방법이 점점 더 많이 증가하고 있다.
기억화로 인해 비인가된 데이터의 흔적이 여러 훈련 시스템을 통해 지속적으로 남을 수 있다. 이는 의도하지 않은 워터마크와 같은 것이며, 심지어 기계 학습 실무자가 ‘안전한’ 데이터를 사용하도록 주의했더라도 그렇다.
세계 모델
그러나 기억화의 중심 사용 문제는 그것이 지능의 환상을 전달하거나 AI 모델이 기본 법칙이나 도메인을 일반화했음을 시사한다는 것이다. 그러나 실제로는 많은 양의 기억된 데이터가 이러한 환상을 제공한다(즉, 모델에는 많은 데이터 예가 있으므로 인간이 모델이 학습된 내용을 재생산하는지 또는 실제로 포함된 개념을 추상화하여 이해하는지 구별하기가 어렵다).
이 문제는 세계 모델에 대한 관심과 관련이 있다. 즉, 여러 알려진 법칙을 포함하고 풍부하게 탐색 가능한 매우 다양한 및 비싼 AI 시스템의 전망이다.
세계 모델은 생성 이미지 및 비디오 공간에서 특히 관심을 끌고 있다. 2023년에 RunwayML은 이러한 모델의 개발 및 실현 가능성에 대한 연구를 시작했다. DeepMind는 최근에 유명한 Sora 생성 비디오의 원래 개발자를 고용하여 이러한 종류의 모델을 작업했다. 또한 Higgsfield와 같은 스타트업은 이미지 및 비디오 합성에 대한 세계 모델에大量으로 투자하고 있다.
어려운 조합
신규 개발된 생성 비디오 AI 시스템의 하나의 약속은 이러한 시스템이 기본 물리 법칙을 학습할 수 있다는 것이다. 예를 들어, 운동, 인간의 운동학(예: 걸음걸이 특성), 유체 역학 및 인간에게 시각적으로 익숙한 다른 알려진 물리 현상이다.
만약 생성 AI가 이 里程碑를 달성할 수 있다면, 超현실적인 시각 효과를 생성할 수 있게 되며, 폭발,洪水 및 다양한 물체의 충돌 이벤트에 대한 실제적인 묘사를 생성할 수 있다.
그러나 AI 시스템이 이러한 이벤트를 묘사하는 수천 개(또는 수십만 개)의 비디오에 단순히 훈련되었다면, 모델은 훈련 데이터와 비슷한 사용자의 쿼리에 대해 매우 신뢰할 수 있게 이러한 데이터를 재생산할 수 있다. 그러나 쿼리가 너무 많은 개념을 결합하여 훈련 데이터에 나타나지 않는 경우에는 실패할 수 있다.
さらに, 이러한 제한은 즉시 명백하지 않으며, 시스템을 이러한 종류의 도전적인 조합으로 밀어붙일 때까지 그렇다.
이는 새로운 생성 시스템이 인상적인 비디오 콘텐츠를 생성할 수 있지만, 시스템의 능력과 이해의 깊이에 대한 잘못된 인상을 생성할 수 있다. 왜냐하면 시스템이 나타내는 작업이 실제로 시스템에 대한 도전이 아니기 때문이다.
예를 들어, 건물이 폭파되는 것과 같은 비교적 일반적이고 널리 퍼진 이벤트는 모델이 물리학을 이해하기 위해 훈련된 데이터셋에 여러 비디오에 나타날 수 있다. 따라서 모델은 이 개념을 잘 일반화할 수 있으며, 심지어 학습된 매개변수 내에서真正로 새로운 출력을 생성할 수 있다.
이것은 데이터셋에 많은 유용한 예가 있기 때문에 AI 시스템이 학습할 수 있는 인-분포 예이다.
그러나 만약 더 이상한 또는 의심스러운 예를 요청한다면, 예를 들어 ‘에펠탑이 외계인에 의해 폭파된다’고 한다면, 모델은 다양한 도메인(예: 금속 물리학, 폭발의 특성, 중력, 바람 저항 및 외계 우주선)을 결합해야 한다.
이것은 데이터셋에 이러한 이벤트의 예가 포함되지 않은 경우에 발생하는 아웃-오브-분포(OOD) 예이다. 시스템은 이러한 예에서 실패하거나 훈련에서 본 가장 가까운 의미 있는 예로 기본적으로 돌아갈 수 있다. 즉, 사용자의 프롬프트에 따라 모델이 생성하는 묘사가 물리 법칙을 따르지 않을 수 있다.
그러나 모델의 원본 데이터셋에 동일하거나 유사한 이벤트를 묘사하는 CGI 기반 VFX가 포함된 경우에만 이러한 묘사를 생성하는 것이真正로 물리 법칙을 이해하는 것을 요구한다.
물리적 제약
Bytedance, Tsinghua University 및 Technion의 협력으로 작성된 새로운 논문은 Sora와 같은 모델이 실제로 이러한 방식으로 결정론적 물리 법칙을 내재화하지 않는다는 것을 제안한다. 또한, 최근 18개월 동안 일반적인 접근 방식인 데이터를 확장하는 것이 대부분의 경우 이러한 측면에서真正로 개선되지 않는 것으로 나타났다.
이 논문은 특정 물리 법칙의 외삽의 한계를 탐구하는 것 외에도 모델의 조합 일반화 능력, 즉 두 가지 다른 물리 원리의 표현이 하나의 생성 출력으로 결합되는 경우를 조사한다.
[비디오 너비=”1200″ 높이=”712″ mp4=”https://www.unite.ai/wp-content/uploads/2024/11/physical_limitations_bytedance.mp4″][/비디오]
새로운 논문의 비디오 요약. 출처: https://x.com/bingyikang/status/1853635009611219019
연구자들은 연구를 위해 세 가지 물리 법칙을 선택했다. 즉, 포물선 운동, 일관된 선형 운동 및 완전 탄성 충돌이다.
위의 비디오에서 볼 수 있듯이, 연구 결과는 이러한 모델이 실제로 물리 법칙을 이해하는 것보다 훈련 데이터를 재생산하는 경향이 있음을 나타낸다.
さらに, 색상과 모양이 추론 시간에 너무 얽혀서 생성된 공이 실제로 공이 아닌 사각형으로 바뀌는 경우가 있다(위에 첨부된 비디오 참조).
이 논문은 다음과 같이 결론지었다:
‘우리의 연구는 비디오 생성 모델이 기본 물리 법칙을 발견하기 위해 확장만으로는 불충분하다는 것을 제안한다. 비록 그것이 Sora의 더 넓은 성공에 기여했지만…
‘…결과는 확장만으로는 OOD 문제를 해결할 수 없으며, 비록 다른 시나리오에서 성능을 향상시키지만…
‘우리의 심층 분석은 비디오 모델의 일반화가 유사한 훈련 예를 참조하는 것보다 보편적 규칙을 학습하는 것에 더 많이 의존한다는 것을 시사한다. 우리는 “사례 기반” 행동에서 색상 > 크기 > 속도 > 모양의 우선순위 순서를 관찰했다.
‘[우리의] 연구는 비디오 생성 모델이 기본 물리 법칙을 발견하기 위해 단순히 확장하는 것이 불충분하다는 것을 제안한다.’
연구 팀이 이 문제에 대한 해결책을 발견했는지 묻자, 논문의 한 저자는 다음과 같이 말했다:
‘불행히도, 우리는 아직 발견하지 못했다. 실제로, 이것은 아마도 전체 AI 커뮤니티의 임무일 것이다.’
방법 및 데이터
연구자들은 비디오 샘플을 생성하기 위해 Variational Autoencoder(VAE) 및 DiT 아키텍처를 사용했다. 이 설정에서 VAE에서 생성된 압축된 잠재 표현은 DiT의 소음 제거 과정 모델링과 함께 작동한다.
비디오는 Stable Diffusion V1.5-VAE에서 훈련되었다. 스키마는 기본적으로 변경되지 않았으며, 오직 최종 아키텍처의 개선만 있었다:
‘[우리는] 원래 2D 컨볼루션, 그룹 정규화 및 공간 차원上的 주의 메커니즘의 대부분을 유지한다.
‘이 구조를 공간-시간 오토인코더로 확장하기 위해, 우리는 인코더의 마지막 몇 개의 2D 다운샘플 블록과 디코더의 초기 몇 개의 2D 업샘플 블록을 3D로 변환하고, 시간 모델링을 향상시키기 위해 여러 추가 1D 레이어를 사용한다.’
비디오 모델링을 가능하게 하기 위해, 수정된 VAE는 HQ 이미지 및 비디오 데이터와 함께 공동으로 훈련되었다. SD1.5 아키텍처의 2D 생성적 적대적 신경망(GAN) 구성 요소는 3D로增强되었다.
사용된 이미지 데이터셋은 Stable Diffusion의 원래 소스인 LAION-Aesthetics였다. 또한 DataComp를 사용하여 필터링했다. 비디오 데이터의 경우 Vimeo-90K, Panda-70m 및 HDVG 데이터셋의 하위 집합이 사용되었다.
데이터는 100만 단계 동안 훈련되었으며, 랜덤 크기 조정 및 랜덤 수평 플립이 데이터 증강 프로세스로 적용되었다.
플립 아웃
위에서 언급했듯이, 랜덤 수평 플립 데이터 증강 프로세스는 실제 운동을 생성하도록 설계된 시스템을 훈련하는 데 있어 약점이 될 수 있다. 왜냐하면 훈련된 모델의 출력은 객체의 양쪽 방향을 고려할 수 있으며, 모델이 이 충돌하는 데이터를 처리하려고 할 때 임의의 반전을 일으킬 수 있기 때문이다(위에 첨부된 비디오 참조).
반면에, 수평 플립을 끄면 모델은 훈련 데이터에서 학습한 단일 방향만 따르는 출력을 생성할 가능성이 더 높다.
따라서 이 문제에 대한 쉬운 해결책은 없으며, 시스템이 실제로 운동의 모든 가능성을 본적과 뒤집은 버전에서 모두 습득하는 것이다. 이는 어린이들이 쉽게 발달하는 능력이나, AI 모델에게는 더 큰 도전이다.
테스트
첫 번째 실험 세트에서, 연구자들은 2D 시뮬레이터를 사용하여 물리 법칙에 따라 이동하고 충돌하는 객체의 동영상이 포함된 고용량 및 제어된 데이터셋을 생성했다. Box2D 물리 게임 엔진을 사용하여 이러한 동영상을 생성했다.
테스트의 초점은 세 가지 기본 시나리오였다. 즉, 일관된 선형 운동, 완전 탄성 충돌 및 포물선 운동이다.
증가하는 크기(30,000에서 300만 동영상까지)의 데이터셋을 사용하여 크기와 복잡성이 다른 모델(DiT-S에서 DiT-L까지)을 훈련했다. 각 동영상의 첫 세 프레임을 조건으로 사용했다.

첫 번째 실험 세트에서 훈련된 다양한 모델의 세부 사항. 출처: https://arxiv.org/pdf/2411.02385
연구자들은 다음과 같은 결과를 발견했다:

첫 번째 테스트의 결과.
저자들은 다음과 같이 말한다:
‘이 발견은 확장이 OOD 시나리오에서 추론을 수행할 수 없음을 시사한다.’
다음으로, 연구자들은 모델이 실제로 물리 법칙을 이해할 수 있는지, 또는 단순히 훈련 데이터를 재생산하는지 여부를 조사하기 위해 추가 테스트를 수행했다.
여기서 그들은 ‘사례 기반’ 일반화의 개념을 조사했으며, 모델이 새로운 상황에 직면했을 때 특정 훈련 예를 모방하는 경향이 있다. 또한, 훈련 데이터의 방향이 모델의 예측에 미치는 영향을 조사했다.
결론
비 AI 알고리즘(즉, ‘구운’, 절차적 방법)에 물리 현상(예: 유체, 중력下的 객체 또는 압력下的 객체)의 행동에 대한 수학적 규칙이 포함되어 있다면, 정확한 렌더링을 위한 변경되지 않는 상수 집합이 있다.
그러나 새로운 논문의 발견은 생성 모델이 훈련 중에 이러한 물리 법칙의 등가적인 관계 또는 내재된 이해를 개발하지 않는다는 것을 나타낸다. 또한, 데이터를 늘리는 것이 문제를 해결하는 것이 아니라, 모델이 추론 시간에 모방할 수 있는 더 많은 훈련 비디오가 있기 때문에 문제를 숨길 뿐이다.
* 저자의 인라인 인용을 하이퍼링크로 변환한 내 변환.
2024년 11월 26일 화요일에 처음 게시됨.












