Интервью
Lior Hakim, сооснователь и технический директор Hour One – Интервью

Lior Hakim, сооснователь и технический директор Hour One, лидера отрасли в создании виртуальных людей для профессиональных видеокоммуникаций. Живые виртуальные персонажи, созданные исключительно по образу реальных людей, передают человеческую выразительность через текст, позволяя бизнесу повышать уровень своих сообщений с беспрецедентной легкостью и масштабируемостью.
Не могли бы вы рассказать историю создания Hour One?
Происхождение Hour One можно отнести к моему участию в области криптовалют. После этого начинания я начал размышлять о том, что будет следующим большим шагом, который может использовать массовый облачный вычислитель, и когда машинное обучение набирало популярность в рекомендациях и прогностической аналитике, я работал над несколькими проектами, связанными с инфраструктурой ML. Через эту работу я познакомился с ранними генеративными работами и был особенно заинтересован в GANs в то время. Я использовал все вычислительные ресурсы, которые мог получить, чтобы протестировать эти новые технологии. Когда я показал свои результаты другу, который имел компанию в этой области, он сказал мне, что я должен встретиться с Ореном. Когда я спросил, почему, он сказал мне, что, может быть, мы оба перестанем тратить его время и будем тратить друг другу время. Орен, мой сооснователь и генеральный директор Hour One, был ранним инвестором в AI в то время, и хотя мы стояли в разных местах, мы оба двигались в одном направлении, и создание Hour One как дома виртуального человека было неизбежным путешествием.
Какие из машинных алгоритмов используются, и какая часть процесса представляет собой Генеративное ИИ?
В области создания видео машинные алгоритмы играют решающую роль на каждом этапе. На этапе написания сценария Большие Языковые Модели (LLM) предлагают бесценную поддержку, создавая или совершенствуя контент, чтобы обеспечить убедительные повествования. Когда мы переходим к аудио, алгоритмы Text-to-Speech (TTS) преобразуют текст в органические, эмоциональные голоса. Переходя к визуальному представлению, наша проприетарная многомодальная основная модель виртуального человека занимает центральное место. Эта модель, усиленная Генеративными Соперничающими Сетями (GANs) и Вариационными Автоэнкодерами (VAEs), способна передавать контекстуальные эмоции, артикуляцию и четкое, увлекательное и аутентичное исполнение. Такие генеративные методы превращают текст и аудиосигналы в живые визуальные изображения виртуальных людей, что приводит к гиперреалистичным видео-выходам. Оркестровка LLM, TTS, GANs, VAEs и нашей многомодальной модели делает Генеративное ИИ не просто частью, а основой современного видеопроизводства.
Как Hour One отличается от других генераторов видео?
В Hour One наше отличие от других генераторов видео не заключается в увлечении конкуренцией, а скорее в глубоко укоренившейся философии, определяющей наш подход к качеству, дизайну продукта и рыночной стратегии. Наша руководящая принцип – всегда ставить во главу угла человеческий элемент, обеспечивая, чтобы наши творения резонировали с аутентичностью и эмоциями. Мы гордимся тем, что предлагаем лучшее качество в отрасли без компромиссов. Используя передовую 3D-видеорендеринг, мы предоставляем нашим пользователям подлинный кинематографический опыт. Кроме того, наша стратегия уникальна и обоснована; мы начинаем с отполированного продукта, а затем быстро итерируем к совершенству. Этот подход гарантирует, что наши предложения всегда на шаг впереди, устанавливая новые стандарты в генерации видео.
С учетом вашего обширного опыта в области GPU, можете ли вы поделиться с нами некоторыми мыслями о NVIDIA Next-Generation GH200 Grace Hopper Superchip Platform?
Архитектура Grace Hopper действительно является прорывом. Если GPU может эффективно работать с оперативной памятью хоста без полного возникновения узкого места в расчете, это открывает сейчас невозможные соотношения модели и ускорителя при обучении, и в результате, желаемую гибкость в размерах задач обучения. Предполагая, что весь запас GH200 не будет поглощен обучением LLM, мы надеемся использовать его, чтобы значительно снизить затраты на прототипирование наших многомодальных архитектур в будущем.
Есть ли другие чипы, которые в настоящее время находятся на вашем радаре?
Наша основная цель – предоставить пользователю видеоконтент, который является конкурентоспособным по цене. Учитывая спрос на большие объемы памяти GPU в настоящее время, мы постоянно оптимизируем и пробуем любое предложение GPU на лучших облачных сервис-провайдерах. Кроме того, мы стремимся быть хотя бы частично независимыми от платформы на некоторых наших рабочих нагрузках. Следовательно, мы внимательно следим за TPU и другими ASIC, а также внимательно наблюдаем за AMD. В конечном итоге любой аппаратно-ориентированный оптимизационный путь, который может привести к лучшему соотношению FLOPs/доллар, будет изучен.
Каково ваше видение будущих достижений в генерации видео?
Через 24 месяца мы не сможем отличить сгенерированного человека от захваченного. Это изменит многое, и мы находимся на переднем крае этих достижений.
На данный момент большинство сгенерированных видео предназначены для компьютеров и мобильных устройств, что должно измениться, прежде чем мы получим фотореалистичные сгенерированные аватары и миры для дополненной реальности и виртуальной реальности?
В настоящее время мы обладаем возможностью генерировать фотореалистичные аватары и миры для дополненной реальности (AR) и виртуальной реальности (VR). Основной препятствием является задержка. Хотя доставка высококачественной, реального времени графики на устройствах, такие как AR и VR-гарнитуры, имеет решающее значение, достижение этого без проблем зависит от нескольких факторов. Прежде всего, мы полагаемся на достижения в производстве чипов, чтобы обеспечить более быструю и эффективную обработку. Наряду с этим оптимизация потребления энергии имеет решающее значение, чтобы обеспечить более длительное использование без компрометации опыта. Наконец, мы ожидаем прорывов в программном обеспечении, которые могут эффективно мостить разрыв между генерацией и реальным временем рендеринга. Когда эти элементы объединяются, мы увидим всплеск использования фотореалистичных аватаров и окружающей среды на платформах AR и VR.
Что, по вашему мнению, будет следующим большим прорывом в ИИ?
Когда речь идет о следующем значительном прорыве в ИИ, всегда есть атмосфера волнения и ожидания. Хотя я упоминал некоторые достижения ранее, то, что я могу поделиться, – это то, что мы активно работаем над несколькими новаторскими инновациями в данный момент. Я бы с удовольствием углубился в подробности, но пока я призываю всех следить за нашими предстоящими выпусками. Будущее ИИ несет в себе огромный потенциал, и мы рады быть на переднем крае этих пионерских усилий. Следите за нами!
Есть ли что-то еще, что вы хотели бы поделиться о Hour One?
Вы обязательно должны проверить наш канал Discord и API, новые дополнения к нашей платформе на Hour One.












