Искусственный общий интеллект

Искусственный интеллект для создания видео: изучение новаторской модели Sora от OpenAI

опубликованный

2 меc. назад

1 марта 2024

Sora, новаторский генератор текста в видео от OpenAI

OpenAI представила свое последнее творение искусственного интеллекта – Сора, революционный генератор преобразования текста в видео, способный создавать высококачественные связные видеоролики продолжительностью до 1 минуты из простых текстовых подсказок. Sora представляет собой огромный шаг вперед в области генеративного видеоИИ, возможности которого намного превосходят предыдущие современные модели.

В этом посте мы предоставим всестороннее техническое погружение в Sora – как она работает под капотом, новые методы, которые OpenAI использует для достижения невероятных возможностей Sora по генерации видео, ее ключевые сильные стороны и текущие ограничения, а также огромный потенциал, который Sora означает для будущее творчества ИИ.

Обзор Соры

На высоком уровне Сора принимает в качестве входных данных текстовую подсказку (например, «две собаки играют в поле») и генерирует соответствующее выходное видео с реалистичными изображениями, движением и звуком.

Некоторые ключевые возможности Sora включают в себя:

Создание видеороликов продолжительностью до 60 секунд в высоком разрешении (1080p или выше)
Создание высококачественных связных видеороликов с единообразными объектами, текстурами и движениями.
Поддержка различных стилей видео, соотношений сторон и разрешений.
Настройка изображений и видео для расширения, редактирования или перехода между ними.
Демонстрация новых возможностей моделирования, таких как согласованность 3D и долгосрочное постоянство объектов.

Под капотом Сора объединяет и расширяет две ключевые инновации в области искусственного интеллекта: диффузионные модели и трансформеры – достичь беспрецедентных возможностей генерации видео.

Технические основы Соры

Сора опирается на две революционные технологии искусственного интеллекта, которые продемонстрировали огромный успех в последние годы: модели глубокой диффузии и преобразователи:

Диффузионные модели

Диффузионные модели — это класс глубоких генеративных моделей, которые позволяют создавать весьма реалистичные модели. синтетические изображения и видео. Они работают, используя реальные данные обучения, добавление шума, чтобы испортить его, а затем тренируем нейронной сети поэтапно удалить этот шум и восстановить исходные данные. Это обучает модель генерировать высококачественные разнообразные образцы, отражающие закономерности и детали реальных визуальных данных.

Сора использует тип диффузионной модели, называемый вероятностная модель диффузии с шумоподавлением (ДДПМ). DDPM разбивают процесс создания изображения/видео на несколько более мелких этапов шумоподавления, что упрощает обучение модели обращению процесса распространения и генерации четких образцов.

В частности, Sora использует видеовариант DDPM под названием DVD-DDPM, который предназначен для моделирования видео непосредственно во временной области, обеспечивая при этом строгую временную согласованность между кадрами. Это один из ключей к способности Соры создавать связные и высококачественные видеоролики.

Трансформаторы

Трансформаторы — это революционный тип архитектуры нейронных сетей, который в последние годы стал доминировать в обработке естественного языка. Трансформаторы обрабатывают данные параллельно в блоках, основанных на внимании, что позволяет им моделировать сложные долгосрочные зависимости в последовательностях.

Сора адаптирует преобразователи для работы с визуальными данными, передавая токенизированные фрагменты видео вместо текстовых токенов. Это позволяет модели понимать пространственные и временные отношения в видеопоследовательности. Трансформаторная архитектура Соры также обеспечивает когерентность на больших расстояниях, постоянство объектов и другие возможности моделирования.

Объединив эти два метода — использование DDPM для высокоточного синтеза видео и преобразователей для глобального понимания и согласованности — Сора раздвигает границы возможного в генеративном видеоИИ.

Текущие ограничения и проблемы

Несмотря на свои высокие способности, Сора все же имеет некоторые ключевые ограничения:

Отсутствие физического понимания – У Соры нет четкого врожденного понимания физики и причинно-следственных связей. Например, сломанные предметы могут «исцелиться» в ходе просмотра видео.
Непоследовательность в течение длительного времени – В образцах продолжительностью более 1 минуты могут накапливаться визуальные артефакты и несоответствия. Поддержание идеальной согласованности в очень длинных видеороликах остается открытой задачей.
Спорадические дефекты объекта – Сора иногда создает видеоролики, в которых объекты неестественно меняют свое местоположение или спонтанно появляются/исчезают от кадра к кадру.
Сложности с подсказками о раздаче – Совершенно новые подсказки, выходящие за рамки обучающего распределения Соры, могут привести к получению выборок низкого качества. Возможности Соры наиболее сильны вблизи ее тренировочных данных.

Дальнейшее масштабирование моделей, данные обученияи для устранения этих ограничений потребуются новые методы. Генерация видео ИИ впереди еще долгий путь.

Ответственная разработка искусственного интеллекта для создания видео

Как и в случае с любой быстро развивающейся технологией, наряду с преимуществами следует учитывать потенциальные риски:

Синтетическая дезинформация. Сора делает создание манипулируемых и фальшивых видео проще, чем когда-либо. Потребуются меры безопасности для обнаружения сгенерированных видео и ограничения вредного злоупотребления.
Предвзятость данных. Такие модели, как Sora, отражают предвзятость и ограничения данных обучения, которые должны быть разнообразными и репрезентативными.
Вредный контент. Без надлежащего контроля ИИ, преобразующий текст в видео, может создавать жестокий, опасный или неэтичный контент. Необходима продуманная политика модерации контента.
Проблемы интеллектуальной собственности. Обучение работе с данными, защищенными авторским правом, без разрешения поднимает юридические проблемы, связанные с производными работами. Лицензирование данных требует тщательного рассмотрения.

OpenAI необходимо будет внимательно отнестись к решению этих проблем при публичном развертывании Sora. Однако в целом, при ответственном использовании, Sora представляет собой невероятно мощный инструмент для творчества, визуализации, развлечений и многого другого.

Будущее искусственного интеллекта для создания видео

Сора демонстрирует, что невероятные достижения в области генеративного видеоИИ уже не за горами. Вот несколько интересных направлений, в которых может развиваться эта технология, поскольку она продолжает быстро развиваться:

Образцы большей продолжительности – Модели вскоре смогут создавать часы видео вместо минут, сохраняя при этом последовательность. Это значительно расширяет возможности применения.
Полный контроль пространства-времени – Помимо текста и изображений, пользователи могут напрямую манипулировать скрытыми пространствами видео, предоставляя мощные возможности редактирования видео.
Управляемое моделирование – Такие модели, как Сора, могут позволить манипулировать симулируемыми мирами посредством текстовых подсказок и взаимодействий.
Персонализированное видео – ИИ может генерировать уникальный видеоконтент, адаптированный для отдельных зрителей или контекста.
Мультимодальный синтез – Более тесная интеграция таких модальностей, как язык, аудио и видео, может обеспечить высокоинтерактивный смешанный медиа-опыт.
Специализированные домены – Специализированные видеомодели могут преуспеть в специализированных приложениях, таких как медицинская визуализация, промышленный мониторинг, игровые движки и многое другое.

Заключение

Доступно СораOpenAI совершила взрывной шаг вперед в области генеративного видеоИИ, продемонстрировав возможности, которые еще в прошлом году казались далекими от десятилетий. Несмотря на то, что работа над решением открытых проблем еще продолжается, сильные стороны Соры показывают огромный потенциал этой технологии, которая однажды сможет имитировать и расширять визуальное воображение человека в огромных масштабах.

Другие модели от DeepMind, Google, Meta и других также продолжат расширять границы в этой области. Будущее видео, созданного искусственным интеллектом, выглядит невероятно ярким. Мы можем ожидать, что эта технология расширит творческие возможности и найдет невероятно полезные применения в ближайшие годы, одновременно потребовав продуманного управления для снижения рисков.

Это захватывающее время как для разработчиков искусственного интеллекта, так и для практиков, поскольку модели генерации видео, такие как Sora, открывают новые горизонты возможного. Влияние этих достижений на средства массовой информации, развлечения, моделирование, визуализацию и многое другое только начинает проявляться.

Можем ли мы достичь AGI за 5 лет? Генеральный директор NVIDIA Дженсен Хуанг считает, что это возможно

Не пропустите

Изучение Gemini 1.5: как новейшая мультимодальная модель искусственного интеллекта Google поднимает ландшафт искусственного интеллекта за пределы своего предшественника

Аюш Миттал

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.