Connect with us

Lior Hakim, Co-fundador y CTO de Hour One – Serie de Entrevistas

Entrevistas

Lior Hakim, Co-fundador y CTO de Hour One – Serie de Entrevistas

mm

Lior Hakim, co-fundador y Director Técnico de Hour One, un líder en la industria en la creación de humanos virtuales para comunicaciones de video profesionales. Los personajes virtuales realistas, modelados exclusivamente a partir de personas reales, transmiten expresividad humana a través del texto, lo que permite a las empresas elevar su mensaje con una facilidad y escalabilidad sin precedentes.

¿Podría compartir la historia de origen detrás de Hour One?

El origen de Hour One se remonta a mi participación en el dominio de las criptomonedas. Después de esa empresa, comencé a reflexionar sobre qué sería lo próximo grande que el cálculo en la nube en masa podría aprovechar, y mientras que el aprendizaje automático estaba ganando popularidad en recomendaciones y análisis predictivos, estaba trabajando en algunos proyectos relacionados con la infraestructura de ML. A través de este trabajo, me familiaricé con las primeras obras generativas y me interesé especialmente en los GAN en ese momento. Estaba utilizando todo el cálculo que podía obtener para probar esas tecnologías nuevas. Cuando le mostré los resultados a un amigo que tenía una empresa en el campo, me dijo que debía conocer a Oren. Cuando le pregunté por qué, me dijo que tal vez ambos dejáramos de perder el tiempo y nos perdiéramos el uno al otro. Oren, mi co-fundador y CEO de Hour One, era un inversor temprano en IA en ese momento, y mientras estábamos en lugares diferentes, ambos nos movíamos en la misma dirección, y la fundación de Hour One como el Hogar del Humano Virtual fue un viaje inevitable.

¿Cuáles son algunos de los algoritmos de aprendizaje automático que se utilizan, y qué parte del proceso es la IA Generativa?

En el ámbito de la creación de video, los algoritmos de aprendizaje automático son instrumentales en cada etapa. En la fase de scripting, los Grandes Modelos de Lenguaje (LLM) ofrecen un apoyo invaluable, creando o perfeccionando el contenido para garantizar narrativas atractivas. A medida que pasamos al audio, los algoritmos de Texto a Voz (TTS) transforman el texto en voces orgánicas y emotivas. Al pasar a la representación visual, nuestro modelo fundamental multimodal propietario del humano virtual ocupa el centro del escenario. Este modelo, mejorado con Redes Adversarias Generativas (GAN) y Autoencoders Variacionales (VAE), es hábil para transmitir emociones contextuales, enunciación y una entrega articulada, atractiva y auténtica. Tales técnicas generativas convierten las pistas de texto y audio en visuales realistas de humanos virtuales, lo que lleva a salidas de video hiperrealistas. La orquestación de LLM, TTS, GAN, VAE y nuestro modelo multimodal hace que la IA Generativa no sea solo una parte, sino la columna vertebral de la producción de video moderna.

¿Cómo se diferencia Hour One de los generadores de video competidores?

En Hour One, nuestra distinción de otros generadores de video no proviene de una obsesión con la competencia, sino de una filosofía profundamente arraigada que gobierna nuestro enfoque de la calidad, el diseño de productos y la estrategia de mercado. Nuestro principio rector es priorizar siempre el elemento humano, garantizando que nuestras creaciones resuenen con autenticidad y emoción. Nos enorgullecemos de ofrecer la mejor calidad en la industria sin compromisos. Al utilizar renderizado de video 3D avanzado, brindamos a nuestros usuarios una experiencia cinematográfica genuina. Además, nuestra estrategia es única y opinada; comenzamos con un producto pulido y luego iteramos rápidamente hacia la perfección. Este enfoque garantiza que nuestras ofertas estén siempre un paso adelante, estableciendo nuevos estándares en la generación de video.

Con su amplia experiencia en GPUs, ¿podría compartir con nosotros algunas perspectivas sobre la plataforma de superchip NVIDIA Next-Generation GH200 Grace Hopper?

La arquitectura Grace Hopper es realmente un cambio de juego. Si la GPU puede trabajar efectivamente desde la RAM del host sin bloquear completamente el cálculo, desbloquea relaciones actualmente imposibles entre modelos y aceleradores en el entrenamiento, y como resultado, una flexibilidad muy deseada en los tamaños de los trabajos de entrenamiento. Asumiendo que todo el stock de GH200 no será absorbido por el entrenamiento de LLM, esperamos utilizarlo para reducir significativamente los costos de prototipado para nuestras arquitecturas multimodales en el futuro.

¿Hay algún otro chip que esté en su radar en este momento?

Nuestro objetivo principal es brindar a los usuarios contenido de video que sea competitivo en términos de precio. Dada la demanda actual de GPUs con gran memoria, estamos optimizando constantemente y probando cualquier oferta de GPU en la nube en los principales proveedores de servicios en la nube. Además, nos esforzamos por ser al menos parcialmente independientes de la plataforma en algunas de nuestras cargas de trabajo. Por lo tanto, estamos observando los TPUs y otros ASIC, y también estamos prestando atención a AMD. Eventualmente, cualquier ruta de optimización liderada por hardware que pueda resultar en una mejor relación FLOPs/dólar será explorada.

¿Cuál es su visión para los avances futuros en la generación de video?

En 24 meses, no podremos distinguir entre un humano generado y uno capturado. Eso cambiará muchas cosas, y estamos aquí en la vanguardia de esos avances.

En este momento, la mayoría de los videos generados son para computadoras y dispositivos móviles, ¿qué necesita cambiar antes de que tengamos avatares y mundos generados fotorealistas para realidad aumentada y realidad virtual?

Actualmente, poseemos la capacidad de generar avatares y mundos fotorealistas para realidad aumentada (AR) y realidad virtual (VR). El principal obstáculo es la latencia. Mientras que la entrega de gráficos de alta calidad y en tiempo real a dispositivos de borde como los cascos de AR y VR es vital, lograr esto de manera fluida depende de varios factores. Primero, dependemos de los avances en la fabricación de chips para garantizar un procesamiento más rápido y eficiente. Junto con esto, la optimización del consumo de energía es crucial para garantizar un uso más prolongado sin comprometer la experiencia. Por último, anticipamos avances en software que puedan eficientemente cerrar la brecha entre la generación y la representación en tiempo real. A medida que estos elementos se unen, veremos un aumento en la utilización de avatares y entornos fotorealistas en ambas plataformas de AR y VR.

¿Qué espera que sea el próximo gran avance en IA?

Cuando se trata del próximo avance significativo en IA, siempre hay un aire de emoción y anticipación. Mientras que he aludido a algunos avances anteriormente, lo que puedo compartir es que estamos trabajando activamente en varias innovaciones innovadoras en este momento. Me encantaría profundizar en detalles, pero por ahora, animo a todos a mantener un ojo en nuestras próximas publicaciones. El futuro de la IA holds una promesa inmensa, y estamos emocionados de estar en la vanguardia de estos esfuerzos pioneros. ¡Manténganse atentos!

¿Hay algo más que le gustaría compartir sobre Hour One?

Definitivamente debería echar un vistazo a nuestro canal de Discord y API, nuevas adiciones a nuestra oferta de plataforma en Hour One.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.