Connect with us

Виктор Ерухимов, генеральный директор CraftStory – Интервью

Интервью

Виктор Ерухимов, генеральный директор CraftStory – Интервью

mm

Виктор Ерухимов, генеральный директор CraftStory, является инженером-исследователем компьютерного зрения, ставшим предпринимателем, который помог сформировать раннюю эволюцию OpenCV, а затем стал сооснователем Itseez и руководил ею от технического стартапа до одной из ведущих мировых команд исследований компьютерного зрения перед ее приобретением Intel. За более чем десятилетие он перешел от технического директора к генеральному директору, а затем к президенту, и продолжил эту траекторию в Itseez3D, где он руководил разработкой передовых мобильных технологий 3D-сканирования и генерации аватаров, а также долгое время был членом совета директоров OpenCV.org.

В CraftStory он сейчас фокусируется на создании видео с помощью ИИ, разрабатывая технологию, которая преобразует простые входные данные в высокореалистичные, готовые к использованию видео. Под его руководством компания разрабатывает модели видео следующего поколения, предназначенные для маркетинговых команд, педагогов и рассказчиков о продуктах, которым необходимы быстрые, высококачественные видео без студийных затрат.

Вы были движущей силой за некоторые из наиболее влиятельных проектов компьютерного зрения – от OpenCV до Itseez3D. Что вдохновило вас на создание CraftStory, и как ваша предыдущая работа сформировала видение долгосрочных, студийных видео с помощью ИИ?

До CraftStory моя команда и я работали над Avatar SDK – инструментом, который создает реалистичные аватары из селфи для VR/AR, игр, маркетинга и других приложений. Мы уже давно думали о цифровых людях. Затем, около двух лет назад, мы поняли, что технология GenAI для генерации видео становится достаточно хорошей, чтобы открыть совершенно новые применения, и мы сразу же приступили к работе.

CraftStory запустила с создателями OpenCV в качестве ядра. Как это общее прошлое повлияло на техническое направление и приоритеты исследований для Model 2.0?

Мы живем в период необычайного прогресса в области компьютерного зрения и машинного обучения. Похоже, что все прорывы ранней квантовой механики – изначально распределенные по десятилетиям – были сжаты всего в несколько лет. Понимание изображений и их генерация продвинулись далеко за пределы того, с чем мы работали при разработке OpenCV. Наблюдая за этой эволюцией более десяти лет, делая прогнозы и видя их успех или провал, мы получили глубокое понимание того, куда движется технология и рынок. Этот взгляд直接 сформировал наши приоритеты исследований и дорожную карту для Model 2.0.

Model 2.0 решает одну из проблем, с которой сталкиваются многие видеомодели: сохранение идентичности, эмоций и последовательности на протяжении минут видео. Какие прорывы сделали это возможным?

Идентичность и последовательность были нашими приоритетами с самого начала. Несколько архитектурных решений в сети были специально разработаны для решения этих задач. Но не менее важно было тонкая настройка модели на данных, которые мы собрали сами. Мы сняли профессиональных актеров в контролируемой студийной среде, используя наши собственные камеры с высокой частотой кадров, чтобы обеспечить, чтобы каждый кадр – включая быстрые движения тела, рук и пальцев – оставался четким. Такой уровень высококачественных, насыщенных движением данных сделал значительную разницу.

Ваша команда представила параллелизированный диффузионный конвейер, чтобы сохранить длинные последовательности связными. Какая проблема была решена этим, и почему это было важно для видео с участием человека в течение нескольких минут?

Запуск одного диффузионного процесса на длинной последовательности кадров чрезвычайно сложен – это вычислительно дорого и требует огромного количества обучающих данных. Наш параллелизированный диффузионный конвейер решает эту проблему, запуская несколько диффузионных процессов на разных временных сегментах одновременно. Ключевым прорывом было нахождение способа соединить эти сегменты так, чтобы они оставались связными и последовательными на протяжении длительного времени. Model 2.0 теперь может генерировать видео до пяти минут, но это в основном техническое ограничение. С дополнительной инженерной работой мы можем расширить это до видео практически любой длины.

CraftStory делает упор на реализм как в движении, так и в выражении. Какие были самые сложные проблемы в сохранении естественной динамики рук, тела и лица на более длительные периоды?

Самой большой проблемой является генерация реалистичного движения тела и лица последовательно на протяжении длительного времени. Маленькие детали – такие как тонкие движения рук, смена позы или микровыражения – склонны разрушаться в большинстве моделей, когда последовательность становится длиннее. Мы решили эту проблему, обучая модель на нашем собственном обширном, высококачественном наборе данных, снятом с профессиональными актерами и камерами с высокой частотой кадров. Такой уровень контролируемых, насыщенных движением кадров дал модели сигнал, необходимый для сохранения естественной динамики на протяжении всего выступления, а не только в отдельных моментах.

Многие компании застряли между дорогими живыми съемками и короткими, ненадежными видеоклипами ИИ. Где вы видите самый большой коммерческий спрос на видео с участием человека, продолжающихся несколько минут?

Видео, сгенерированные ИИ, быстро становятся неотличимыми от снятых камерой, при этом обходясь дешевле традиционной производственной стоимости. Самый большой ранний спрос, который мы видим, – это корпоративный контент – особенно обучение и развитие, где компании нуждаются в больших объемах ясных, ориентированных на человека видео, которые можно обновлять мгновенно. Мульти-минутные, последовательные видео с участием ИИ – идеальный вариант для этого.

Мы также видим растущий интерес к маркетинговым случаям, таким как представление продукта, обучение и объяснение. По мере совершенствования технологии длинные видео ИИ все чаще будут заменять как дорогие живые съемки, так и короткие, ненадежные клипы, которые могут производить большинство инструментов сегодня.

Вы разработали передовую систему синхронизации губ и выравнивания жестов. Как далеко мы от полностью правдоподобного диалога ИИ, и что еще нужно улучшить?

Я думаю, мы очень близки. Еще один цикл технологии – особенно для того, чтобы сделать ее быстрее и генерировать родное 1080p – приведет нас к полностью правдоподобному диалогу ИИ.

Модель текст-видео, над которой вы работаете, обещает генерировать длинные видео непосредственно из сценариев. Какие технические барьеры вам еще предстоит преодолеть, прежде чем это станет мейнстримом?

Нет фундаментальных барьеров – просто много инженерной работы впереди. Видео-видео было более низко висящим плодом, поэтому мы привели это к рынку первым. Теперь мы сосредоточены на модели изображение-видео, которая принимает сценарий и ссылочное изображение в качестве входных данных. Мы делаем быстрый прогресс и надеемся выпустить его в течение ближайших нескольких недель.

Последовательности с движущейся камерой – такие как ходьба и разговор – являются значительным шагом к автоматизации кинематографа. Как ваша команда подходит к этому вызову по сравнению с конкурентами, такими как Sora?

Мы сосредоточены на генерации длинных последовательностей ходьбы и разговора – мульти-минутных кадров, которые кажутся кинематографическими и естественными. Наша цель – дать клиентам возможность создавать видео в стиле знаменитой кампании “Keep Walking” от Johnnie Walker, но без полной производственной команды. Мы делаем быстрый прогресс, и очень скоро мы сможем производить последовательности ходьбы и разговора, которые будут продолжаться несколько минут с последовательными персонажами, движением и динамикой камеры.

С OpenAI, Google и другими, спешащими в длинные видео, что вы видите как преимущество CraftStory на этом развивающемся рынке?

Рынок видео ИИ чрезвычайно конкурентный, и мы полностью ожидаем, что крупные игроки догонят нас технологически. Но наше преимущество заключается в фокусе и скорости. У нас есть очень амбициозный план, и мы являемся гибкой командой, которая может быстро двигаться и быстро итерировать. Эта гибкость – и наш фокус на длинных, ориентированных на человека видео – это то, что отличает CraftStory.

По мере того, как видео сгенерированные ИИ становятся более реалистичными и масштабируемыми, какие этические или творческие меры предосторожности, по вашему мнению, должны быть на месте, когда эта технология распространяется?

Каждая мощная технология является двояким мечом, и важно понять конкретные риски, которые возникают при ее внедрении. В видео сгенерированных ИИ подделка является наиболее значительной – хотя не единственной – проблемой. Мы потратили время на анализ этих рисков и реализовали меры предосторожности, которые предотвращают определенные вредные случаи использования. По мере того, как технология становится более реалистичной и масштабируемой, поддержание сильных этических и творческих защит будет иметь решающее значение для всей отрасли.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, должны посетить CraftStory.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.