Вештачка општа интелигенција

Видео Генерација АИ: Истраживање ОпенАИ револуционарног модела Сора

објављен

КСНУМКС месеци пре

Март КСНУМКС, КСНУМКС

Сора, ОпенАИ-ов револуционарни генератор текста у видео

ОпенАИ је представио своју најновију АИ креацију - Сора, револуционарни генератор текста у видео који може да произведе кохерентне видео записе високе верности у трајању до 1 минута из једноставних текстуалних упита. Сора представља огроман корак напред у генеративној видео вештачкој интелигенцији, са могућностима које далеко надмашују претходне најсавременије моделе.

У овом посту пружићемо свеобухватан технички зарон у Сору – како она функционише испод хаубе, нове технике које је ОпенАИ искористио да би постигао Сорине невероватне способности генерисања видео записа, његове кључне предности и тренутна ограничења, и огроман потенцијал који Сора означава за будућност АИ креативности.

Преглед Соре

На високом нивоу, Сора узима текстуални упит као улаз (нпр. „два пса који се играју у пољу“) и генерише одговарајући излазни видео заједно са реалистичним сликама, покретом и звуком.

Неке кључне могућности Соре укључују:

Генерисање видео записа дужине до 60 секунди у високој резолуцији (1080п или више)
Прављење кохерентних видео снимака високе верности са доследним објектима, текстурама и покретима
Подржава различите видео стилове, размере и резолуције
Условљавање слика и видео записа за проширење, уређивање или прелаз између њих
Показивање способности симулације у настајању као што су 3Д конзистентност и дугорочна постојаност објекта

Испод хаубе, Сора комбинује и повећава две кључне АИ иновације - дифузиони модели трансформатори – за постизање невиђених могућности генерисања видео записа.

Сорине техничке основе

Сора гради на две револуционарне АИ технике које су показале огроман успех последњих година – модели дубоке дифузије и трансформатори:

Дифузиони модели

Дифузиони модели су класа дубоких генеративних модела који могу да креирају веома реалистичне синтетичке слике и видео записи. Они раде узимајући стварне податке о обуци, додавање буке да би је покварило, а затим обука а неуронска мрежа да бисте уклонили тај шум на начин корак по корак да бисте опоравили оригиналне податке. Ово обучава модел да генерише различите узорке високе верности који обухватају обрасце и детаље визуелних података из стварног света.

Сора користи тип дифузионог модела који се зове а деноисинг диффусион пробабилистиц модел (ДДПМ). ДДПМ-ови разлажу процес генерисања слике/видеа на више мањих корака уклањања шума, што олакшава обуку модела да преокрене процес дифузије и генерише јасне узорке.

Конкретно, Сора користи видео варијанту ДДПМ-а под називом ДВД-ДДПМ која је дизајнирана да моделира видео записе директно у временском домену док постиже снажну временску конзистентност у свим оквирима. Ово је један од кључева за Сорину способност да производи кохерентне видео записе високе верности.

трансформатори

Трансформатори су револуционарни тип архитектуре неуронске мреже који је последњих година доминирао процесом природног језика. Трансформатори паралелно обрађују податке кроз блокове засноване на пажњи, омогућавајући им да моделирају сложене зависности дугог домета у секвенцама.

Сора прилагођава трансформаторе да раде на визуелним подацима прослеђујући токенизоване делове видеа уместо текстуалних токена. Ово омогућава моделу да разуме просторне и временске односе у видео секвенци. Сорина архитектура трансформатора такође омогућава кохерентност дугог домета, постојаност објекта и друге могућности симулације које се појављују.

Комбиновањем ове две технике – коришћењем ДДПМ-а за видео синтезу високе верности и трансформатора за глобално разумевање и кохерентност – Сора помера границе онога што је могуће у генеративној видео вештачкој интелигенцији.

Тренутна ограничења и изазови

Иако је веома способан, Сора и даље има нека кључна ограничења:

Недостатак физичког разумевања – Сора нема чврсто урођено разумевање физике и узрока и последице. На пример, сломљени предмети могу да „залече“ током видео снимка.
Некохерентност током дугог трајања – Визуелни артефакти и недоследности се могу накупити у узорцима дужим од 1 минута. Одржавање савршене кохерентности за веома дугачке видео записе остаје отворен изазов.
Спорадични недостаци објекта – Сора понекад генерише видео записе у којима објекти неприродно померају локације или се спонтано појављују/нестају од кадра до кадра.
Потешкоће са захтевима ван дистрибуције – Веома нова упутства далеко изван Сорине дистрибуције тренинга могу резултирати узорцима ниског квалитета. Сорине способности су најјаче у близини података о обуци.

Даље скалирање модела, подаци о обуци, и биће потребне нове технике за решавање ових ограничења. Видео генерација АИ има још дуг пут пред собом.

Одговоран развој видео генерисања АИ

Као и код сваке технологије која се брзо напредује, поред предности постоје потенцијални ризици које треба размотрити:

Синтетичке дезинформације – Сора чини креирање изманипулисаног и лажног видеа лакшим него икад. Биће потребне мере заштите да би се открили генерисани видео снимци и ограничила штетна злоупотреба.
Предрасуде у подацима – Модели попут Соре одражавају пристрасности и ограничења њихових података о обуци, који морају бити разнолики и репрезентативни.
Штетан садржај – Без одговарајућих контрола, вештачка интелигенција за претварање текста у видео може да произведе насилан, опасан или неетички садржај. Неопходне су промишљене политике модерирања садржаја.
Проблеми интелектуалне својине – Обука о подацима заштићеним ауторским правима без дозволе покреће правна питања око изведених дела. Лиценцирање података треба пажљиво размотрити.

ОпенАИ ће морати да посвети велику пажњу кретању по овим проблемима када на крају јавно примени Сора. Све у свему, ако се користи одговорно, Сора представља невероватно моћан алат за креативност, визуелизацију, забаву и још много тога.

Будућност видео генерације АИ

Сора показује да је невероватан напредак у генеративној видео АИ на хоризонту. Ево неколико узбудљивих праваца које би ова технологија могла да води док наставља брз напредак:

Узорци дужег трајања – Модели ће ускоро моћи да генеришу сате видеа уместо минута уз одржавање кохерентности. Ово значајно проширује могуће примене.
Потпуна контрола простора и времена – Осим текста и слика, корисници могу директно да манипулишу латентним видео просторима, омогућавајући моћне могућности уређивања видео записа.
Контролисана симулација – Модели као што је Сора могу дозволити манипулацију симулираним световима кроз текстуалне упите и интеракције.
Персонализовани видео – АИ би могао да генерише јединствено прилагођен видео садржај прилагођен појединачним гледаоцима или контекстима.
Мултимодална фузија – Чвршћа интеграција модалитета као што су језик, аудио и видео би могла да омогући веома интерактивна искуства мешаних медија.
Специјализовани домени – Видео модели специфични за домен могли би да се истакну у прилагођеним апликацијама као што су медицинско снимање, индустријски надзор, мотори за игре и још много тога.

Zakljucak

sa Сора, ОпенАИ је направио експлозиван искорак у генеративној видео вештачкој интелигенцији, демонстрирајући могућности које су изгледале деценијама далеко само прошле године. Иако остаје рад на решавању отворених изазова, Сорине снаге показују огроман потенцијал ове технологије да једног дана опонаша и прошири људску визуелну машту у огромном обиму.

Други модели из ДеепМинд-а, Гоогле-а, Мета и других такође ће наставити да померају границе у овом простору. Будућност видеа генерисаног вештачком интелигенцијом изгледа невероватно светла. Можемо очекивати да ће ова технологија проширити креативне могућности и пронаћи невероватно корисне примене у годинама које су пред нама, док ће захтевати промишљено управљање за ублажавање ризика.

Ово је узбудљиво време и за програмере вештачке интелигенције и за практичаре док модели за генерисање видео записа попут Соре отварају нове хоризонте за оно што је могуће. Утицај који овај напредак може имати на медије, забаву, симулацију, визуелизацију и друго тек почиње да се открива.

Уп Нект

Можемо ли постићи АГИ у року од 5 година? Генерални директор НВИДИА-е Јенсен Хуанг верује да је то могуће

Не пропустите

Истраживање Гемини 1.5: Како Гоогле-ов најновији мултимодални АИ модел подиже АИ пејзаж изнад свог претходника

Ааиусх Миттал

Провео сам последњих пет година урањајући се у фасцинантан свет машинског учења и дубоког учења. Моја страст и стручност довели су ме до тога да допринесем преко 50 различитих пројеката софтверског инжењеринга, са посебним фокусом на АИ/МЛ. Моја стална радозналост ме је такође привукла ка обради природног језика, пољу које желим даље да истражујем.