인공 지능

비디오 세대 AI: OpenAI의 획기적인 Sora 모델 탐색

게재

3 개월 전

2024 년 3 월 1 일

OpenAI가 최신 AI 창작물을 공개했습니다. 소라, 간단한 텍스트 프롬프트에서 최대 1분 길이의 고품질의 일관된 비디오를 생성할 수 있는 혁신적인 텍스트-비디오 생성기입니다. Sora는 이전의 최첨단 모델을 훨씬 능가하는 기능을 갖춘 생성 비디오 AI의 엄청난 도약을 나타냅니다.

이 게시물에서 우리는 Sora에 대한 포괄적인 기술 정보를 제공할 것입니다. Sora의 내부 작동 방식, Sora의 놀라운 비디오 생성 능력을 달성하기 위해 OpenAI가 활용하는 새로운 기술, 핵심 강점 및 현재 한계, Sora가 의미하는 엄청난 잠재력 등이 있습니다. AI 창의성의 미래.

소라 개요

높은 수준에서 Sora는 텍스트 프롬프트를 입력으로 사용하고(예: "들판에서 놀고 있는 두 마리의 개") 사실적인 이미지, 동작 및 오디오가 포함된 일치하는 출력 비디오를 생성합니다.

Sora의 주요 기능은 다음과 같습니다.

고해상도(60p 이상)에서 최대 1080초 길이의 비디오 생성
일관된 개체, 질감 및 모션으로 고화질의 일관된 비디오 제작
다양한 비디오 스타일, 종횡비 및 해상도 지원
이미지와 비디오를 확장, 편집 또는 전환하기 위한 조건 지정
3D 일관성 및 장기 객체 영속성과 같은 새로운 시뮬레이션 능력을 보여줍니다.

내부적으로 Sora는 두 가지 주요 AI 혁신을 결합하고 확장합니다. 확산 모델 및 변압기 – 전례 없는 비디오 생성 기능을 달성합니다.

Sora의 기술 기반

Sora는 최근 몇 년 동안 엄청난 성공을 거둔 두 가지 획기적인 AI 기술인 심층 확산 모델과 변환기를 기반으로 구축되었습니다.

확산 모델

확산 모델은 매우 사실적인 생성 모델을 만들 수 있는 심층 생성 모델 클래스입니다. 합성 이미지 및 비디오. 그들은 실제 훈련 데이터를 가져와서 작업합니다. 노이즈를 추가하여 손상시키다, 그런 다음 신경망 원본 데이터를 복구하기 위해 단계별로 해당 노이즈를 제거합니다. 이는 실제 시각적 데이터의 패턴과 세부 사항을 캡처하는 충실도가 높고 다양한 샘플을 생성하도록 모델을 교육합니다.

Sora는 일종의 확산 모델을 활용합니다. 잡음 제거 확산 확률 모델 (DDPM). DDPM은 이미지/비디오 생성 프로세스를 여러 개의 작은 노이즈 제거 단계로 나누어 확산 프로세스를 역전시키고 명확한 샘플을 생성하도록 모델을 보다 쉽게 교육할 수 있도록 해줍니다.

특히 Sora는 DVD-DDPM이라는 DDPM의 비디오 변형을 사용합니다. 이는 시간 영역에서 비디오를 직접 모델링하는 동시에 프레임 전반에 걸쳐 강력한 시간적 일관성을 달성하도록 설계되었습니다. 이는 일관되고 충실도가 높은 비디오를 제작하는 Sora 능력의 핵심 중 하나입니다.

변압기

Transformers는 최근 몇 년 동안 자연어 처리를 지배하게 된 혁신적인 유형의 신경망 아키텍처입니다. Transformer는 Attention 기반 블록 전체에서 데이터를 병렬로 처리하므로 복잡한 장거리 종속성을 시퀀스로 모델링할 수 있습니다.

Sora는 텍스트 토큰 대신 토큰화된 비디오 패치를 전달하여 시각적 데이터에서 작동하도록 변환기를 조정합니다. 이를 통해 모델은 비디오 시퀀스 전체의 공간적, 시간적 관계를 이해할 수 있습니다. Sora의 트랜스포머 아키텍처는 장거리 일관성, 개체 영속성 및 기타 긴급 시뮬레이션 기능도 가능하게 합니다.

Sora는 고품질 비디오 합성을 위한 DDPM과 글로벌 이해 및 일관성을 위한 변환기를 활용하는 두 가지 기술을 결합함으로써 생성적 비디오 AI에서 가능한 것의 경계를 넓힙니다.

현재 제한 사항 및 과제

Sora에는 뛰어난 능력이 있지만 여전히 몇 가지 주요 제한 사항이 있습니다.

신체적 이해가 부족함 – Sora는 물리학과 원인과 결과에 대한 강력한 타고난 이해가 없습니다. 예를 들어, 깨진 물체는 비디오가 진행되는 동안 "치료"될 수 있습니다.
장기간에 걸친 불일치 – 1분보다 긴 샘플에서는 시각적 아티팩트와 불일치가 발생할 수 있습니다. 매우 긴 비디오의 완벽한 일관성을 유지하는 것은 여전히 어려운 과제로 남아 있습니다.
산발적인 개체 결함 – Sora는 때때로 개체가 부자연스럽거나 자발적으로 프레임마다 나타나거나 사라지는 위치를 이동하는 비디오를 생성합니다.
배포 외 프롬프트의 어려움 – Sora의 훈련 분포와는 거리가 먼 매우 새로운 프롬프트로 인해 샘플 품질이 낮아질 수 있습니다. Sora의 능력은 훈련 데이터 근처에서 가장 강력합니다.

모델의 추가 확장, 훈련 데이터, 이러한 제한 사항을 해결하려면 새로운 기술이 필요합니다. 비디오 생성 AI 아직 갈 길이 멀다.

비디오 생성 AI의 책임있는 개발

빠르게 발전하는 모든 기술과 마찬가지로 이점과 함께 고려해야 할 잠재적인 위험도 있습니다.

합성 허위 정보 – Sora를 사용하면 조작된 가짜 비디오를 그 어느 때보다 쉽게 만들 수 있습니다. 생성된 비디오를 감지하고 유해한 오용을 제한하려면 보호 장치가 필요합니다.
데이터 편향 – Sora와 같은 모델은 다양하고 대표성이 있어야 하는 훈련 데이터의 편향과 한계를 반영합니다.
유해한 콘텐츠 – 적절한 제어가 없으면 텍스트-비디오 AI가 폭력적이거나 위험하거나 비윤리적인 콘텐츠를 생성할 수 있습니다. 사려 깊은 콘텐츠 조정 정책이 필요합니다.
지적 재산권 문제 – 허가 없이 저작권이 있는 데이터에 대한 교육은 파생 저작물과 관련된 법적 문제를 야기합니다. 데이터 라이선스는 신중하게 고려해야 합니다.

OpenAI는 궁극적으로 Sora를 공개적으로 배포할 때 이러한 문제를 탐색하는 데 세심한 주의를 기울여야 합니다. 하지만 전반적으로 Sora는 책임감 있게 사용하면 창의성, 시각화, 엔터테인먼트 등을 위한 믿을 수 없을 만큼 강력한 도구를 나타냅니다.

비디오 세대 AI의 미래

Sora는 제너레이티브 비디오 AI의 놀라운 발전이 곧 다가오고 있음을 보여줍니다. 이 기술이 급속도로 발전함에 따라 향할 수 있는 몇 가지 흥미로운 방향은 다음과 같습니다.

더 긴 기간의 샘플 – 모델은 일관성을 유지하면서 몇 분이 아닌 몇 시간의 비디오를 생성할 수 있게 될 것입니다. 이는 가능한 응용 프로그램을 엄청나게 확장합니다.
완전한 시공간 제어 – 텍스트와 이미지 외에도 사용자가 비디오 잠재 공간을 직접 조작할 수 있어 강력한 비디오 편집 기능이 가능합니다.
제어 가능한 시뮬레이션 – Sora와 같은 모델을 사용하면 텍스트 프롬프트와 상호 작용을 통해 시뮬레이션된 세계를 조작할 수 있습니다.
개인화된 비디오 – AI는 개별 시청자나 상황에 맞게 고유하게 맞춤화된 비디오 콘텐츠를 생성할 수 있습니다.
다중 모드 융합 – 언어, 오디오, 비디오와 같은 양식의 긴밀한 통합을 통해 고도의 대화형 혼합 미디어 경험이 가능해집니다.
전문 도메인 – 도메인별 비디오 모델은 의료 영상, 산업 모니터링, 게임 엔진 등과 같은 맞춤형 애플리케이션에서 탁월한 성능을 발휘할 수 있습니다.

결론

와 소라, OpenAI는 생성적 비디오 AI 분야에서 폭발적인 도약을 이루었으며 작년에만 수십 년은 걸릴 것 같았던 기능을 입증했습니다. 열린 과제를 해결하기 위한 작업이 남아 있지만 Sora의 강점은 언젠가 인간의 시각적 상상력을 대규모로 모방하고 확장할 수 있는 이 기술의 엄청난 잠재력을 보여줍니다.

DeepMind, Google, Meta 등의 다른 모델도 계속해서 이 분야의 경계를 넓힐 것입니다. AI가 생성한 비디오의 미래는 놀라울 정도로 밝아 보입니다. 우리는 이 기술이 창의적 가능성을 확장하고 앞으로 몇 년 동안 매우 유용한 응용 프로그램을 찾을 것으로 기대하는 동시에 위험을 완화하기 위한 사려 깊은 거버넌스가 필요합니다.

Sora와 같은 비디오 생성 모델이 가능성에 대한 새로운 지평을 열어줌에 따라 AI 개발자와 실무자 모두에게 흥미로운 시간이 되었습니다. 이러한 발전이 미디어, 엔터테인먼트, 시뮬레이션, 시각화 등에 미칠 수 있는 영향은 이제 막 나타나기 시작했습니다.

관련 주제 :LLM 자연어 처리 OpenAI 소라 텍스트-비디오 생성기

다음 위로

5년 안에 AGI를 달성할 수 있을까? NVIDIA의 CEO Jensen Huang은 이것이 가능하다고 믿습니다.

놓치지 마세요.

Gemini 1.5 살펴보기: Google의 최신 멀티모달 AI 모델이 이전 모델을 넘어 AI 환경을 향상시키는 방법

아유쉬 미탈

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.