Sztuczna inteligencja ogólna

Sztuczna inteligencja do generowania wideo: odkrywanie przełomowego modelu Sora OpenAI

Opublikowany

2 miesięcy temu

1 marca 2024 r.

Sora, przełomowy generator konwersji tekstu na wideo OpenAI

OpenAI zaprezentowało swoje najnowsze dzieło AI – Sora, rewolucyjny generator tekstu na wideo, który może tworzyć wysokiej jakości, spójne filmy o długości do 1 minuty za pomocą prostych podpowiedzi tekstowych. Sora stanowi ogromny krok naprzód w dziedzinie generatywnej sztucznej inteligencji wideo, z możliwościami znacznie przewyższającymi poprzednie, najnowocześniejsze modele.

W tym poście przedstawimy kompleksowe techniczne podejście do Sory – jak ona działa od podstaw, nowatorskie techniki, które OpenAI wykorzystało do osiągnięcia niesamowitych możliwości generowania wideo przez Sorę, jej kluczowe mocne strony i obecne ograniczenia oraz ogromny potencjał, jaki Sora oznacza dla przyszłość kreatywności AI.

Przegląd Sory

Na wysokim poziomie Sora przyjmuje jako sygnał wejściowy komunikat tekstowy (np. „dwa psy bawiące się na polu”) i generuje pasujący wyjściowy film wideo z realistycznymi obrazami, ruchem i dźwiękiem.

Niektóre kluczowe możliwości Sory obejmują:

Generowanie filmów o długości do 60 sekund w wysokiej rozdzielczości (1080p lub wyższej)
Tworzenie spójnych filmów o wysokiej jakości ze spójnymi obiektami, teksturami i ruchami
Obsługa różnych stylów wideo, współczynników proporcji i rozdzielczości
Kondycjonowanie obrazów i filmów w celu ich rozszerzania, edytowania lub przełączania między nimi
Wykazuje nowe możliwości symulacyjne, takie jak spójność 3D i długoterminowa trwałość obiektu

Pod maską Sora łączy i skaluje dwie kluczowe innowacje AI – modele dyfuzyjne i Transformatory – aby osiągnąć niespotykane dotąd możliwości generowania wideo.

Podstawy techniczne Sory

Sora opiera się na dwóch przełomowych technikach sztucznej inteligencji, które w ostatnich latach okazały się ogromnym sukcesem – modelach głębokiej dyfuzji i transformatorach:

Modele dyfuzyjne

Modele dyfuzyjne to klasa głębokich modeli generatywnych, które umożliwiają tworzenie bardzo realistycznych obrazów syntetyczne obrazy i filmy. Działają w oparciu o rzeczywiste dane treningowe, dodanie hałasu, aby go zepsuć, a następnie trening a sieci neuronowe aby usunąć ten szum krok po kroku, aby odzyskać oryginalne dane. Dzięki temu model może generować różnorodne próbki o wysokiej wierności, które przechwytują wzorce i szczegóły rzeczywistych danych wizualnych.

Sora wykorzystuje rodzaj modelu dyfuzji zwany a model probabilistyczny dyfuzji odszumiającej (DDPM). DDPM dzielą proces generowania obrazu/wideo na wiele mniejszych etapów odszumiania, co ułatwia wytrenowanie modelu w zakresie odwracania procesu dyfuzji i generowania wyraźnych próbek.

W szczególności Sora używa wariantu wideo DDPM zwanego DVD-DDPM, który jest przeznaczony do modelowania wideo bezpośrednio w dziedzinie czasu, przy jednoczesnym osiągnięciu dużej spójności czasowej w klatkach. Jest to jeden z kluczy do zdolności Sory do tworzenia spójnych filmów o wysokiej jakości.

Transformatory

Transformatory to rewolucyjny typ architektury sieci neuronowych, który w ostatnich latach zdominował przetwarzanie języka naturalnego. Transformatory przetwarzają dane równolegle w blokach opartych na uwadze, umożliwiając im modelowanie w sekwencjach złożonych zależności dalekiego zasięgu.

Sora dostosowuje transformatory do działania na danych wizualnych, przekazując tokenizowane fragmenty wideo zamiast tokenów tekstowych. Pozwala to modelowi zrozumieć zależności przestrzenne i czasowe w sekwencji wideo. Architektura transformatora Sory umożliwia również spójność dalekiego zasięgu, trwałość obiektów i inne pojawiające się możliwości symulacji.

Łącząc te dwie techniki – wykorzystując DDPM do syntezy wideo o wysokiej wierności i transformatory do globalnego zrozumienia i spójności – Sora przesuwa granice tego, co jest możliwe w generatywnej sztucznej inteligencji wideo.

Aktualne ograniczenia i wyzwania

Choć Sora ma duże możliwości, nadal ma pewne kluczowe ograniczenia:

Brak fizycznego zrozumienia – Sora nie ma solidnego, wrodzonego zrozumienia fizyki oraz przyczyny i skutku. Na przykład uszkodzone przedmioty mogą „zagoić się” w trakcie odtwarzania filmu.
Niespójność przez długi czas – W próbkach trwających dłużej niż 1 minutę mogą pojawiać się artefakty i niespójności wizualne. Utrzymanie doskonałej spójności w przypadku bardzo długich filmów pozostaje otwartym wyzwaniem.
Sporadyczne wady obiektu – Sora czasami generuje filmy, w których obiekty zmieniają lokalizację w nienaturalny sposób lub spontanicznie pojawiają się/znikają z klatki na klatkę.
Trudności z monitami spoza dystrybucji – Bardzo nowatorskie podpowiedzi wykraczające daleko poza dystrybucję szkoleń Sory mogą skutkować próbkami o niskiej jakości. Możliwości Sory są największe w pobliżu danych treningowych.

Dalsze skalowanie modeli, dane treningowei aby wyeliminować te ograniczenia, potrzebne będą nowe techniki. AI generowania wideo wciąż ma przed sobą długą drogę.

Odpowiedzialny rozwój AI generacji wideo

Podobnie jak w przypadku każdej szybko rozwijającej się technologii, obok korzyści należy wziąć pod uwagę potencjalne ryzyko:

Syntetyczna dezinformacja – Sora sprawia, że tworzenie zmanipulowanych i fałszywych filmów jest łatwiejsze niż kiedykolwiek. Konieczne będą zabezpieczenia umożliwiające wykrywanie wygenerowanych filmów i ograniczanie szkodliwych nadużyć.
Błędy danych — modele takie jak Sora odzwierciedlają błędy i ograniczenia danych szkoleniowych, które muszą być zróżnicowane i reprezentatywne.
Szkodliwe treści – bez odpowiednich kontroli sztuczna inteligencja przekształcająca tekst na wideo może generować brutalne, niebezpieczne lub nieetyczne treści. Konieczne są przemyślane zasady moderowania treści.
Obawy dotyczące własności intelektualnej – Szkolenie na temat danych chronionych prawem autorskim bez pozwolenia rodzi problemy prawne dotyczące dzieł pochodnych. Licencjonowanie danych należy dokładnie rozważyć.

OpenAI będzie musiało bardzo ostrożnie uporać się z tymi problemami, gdy ostatecznie wdroży Sorę publicznie. Ogólnie rzecz biorąc, Sora używana w sposób odpowiedzialny stanowi niezwykle potężne narzędzie do kreatywności, wizualizacji, rozrywki i nie tylko.

Przyszłość sztucznej inteligencji do generowania wideo

Sora pokazuje, że na horyzoncie widać niesamowity postęp w dziedzinie generatywnej sztucznej inteligencji wideo. Oto kilka ekscytujących kierunków, w których może zmierzać ta technologia w miarę szybkiego postępu:

Próbki o dłuższym czasie trwania – Modele mogą wkrótce być w stanie generować godziny wideo zamiast minut, zachowując przy tym spójność. To ogromnie rozszerza możliwości zastosowań.
Pełna kontrola czasoprzestrzeni – Poza tekstem i obrazami użytkownicy mogą bezpośrednio manipulować ukrytymi przestrzeniami wideo, zapewniając potężne możliwości edycji wideo.
Kontrolowana symulacja – Modele takie jak Sora mogłyby umożliwiać manipulowanie symulowanymi światami za pomocą podpowiedzi tekstowych i interakcji.
Spersonalizowane wideo – Sztuczna inteligencja może generować wyjątkowo dostosowane treści wideo dostosowane do indywidualnych widzów lub kontekstów.
Fuzja multimodalna – Ściślejsza integracja modalności, takich jak język, dźwięk i wideo, mogłaby umożliwić wysoce interaktywne doświadczenia mieszane.
Domeny specjalistyczne – Modele wideo specyficzne dla domeny mogą doskonale sprawdzić się w dostosowanych do potrzeb zastosowaniach, takich jak obrazowanie medyczne, monitorowanie przemysłowe, silniki do gier i inne.

Wnioski

Z Sora, OpenAI poczyniło ogromny postęp w dziedzinie generatywnej sztucznej inteligencji wideo, demonstrując możliwości, które jeszcze w zeszłym roku wydawały się odległe o dziesięciolecia. Choć pozostaje jeszcze wiele do zrobienia, aby stawić czoła otwartym wyzwaniom, mocne strony Sory pokazują ogromny potencjał tej technologii, aby pewnego dnia naśladować i poszerzać ludzką wyobraźnię wizualną na masową skalę.

Inne modele firm DeepMind, Google, Meta i innych również będą nadal przesuwać granice w tej przestrzeni. Przyszłość wideo generowanego przez sztuczną inteligencję wygląda niesamowicie jasno. Możemy się spodziewać, że w nadchodzących latach technologia ta poszerzy możliwości twórcze i znajdzie niezwykle przydatne zastosowania, wymagając jednocześnie przemyślanego zarządzania w celu ograniczenia ryzyka.

To ekscytujący czas zarówno dla twórców sztucznej inteligencji, jak i praktyków, ponieważ modele generowania wideo, takie jak Sora, otwierają nowe horyzonty tego, co jest możliwe. Wpływ, jaki te postępy mogą mieć na media, rozrywkę, symulacje, wizualizacje i nie tylko, dopiero zaczyna się ujawniać.

W przyszłym

Czy moglibyśmy osiągnąć AGI w ciągu 5 lat? Dyrektor generalny NVIDIA, Jensen Huang, wierzy, że jest to możliwe

Nie przegap

Odkrywamy Gemini 1.5: Jak najnowszy multimodalny model sztucznej inteligencji Google podnosi poziom sztucznej inteligencji w porównaniu z poprzednikiem

Aayush Mittal

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.