Connect with us

Lior Hakim, Co-fondateur & CTO de Hour One – Série d’entretiens

Entretiens

Lior Hakim, Co-fondateur & CTO de Hour One – Série d’entretiens

mm

Lior Hakim, co-fondateur et directeur technique de Hour One, un leader de l’industrie dans la création de personnages virtuels pour les communications vidéo professionnelles. Les personnages virtuels réalistes, modélisés exclusivement à partir de personnes réelles, transmettent une expressivité humaine à travers le texte, permettant aux entreprises d’élever leur messagerie avec une facilité et une scalabilité inégalées.

Pouvez-vous partager l’histoire de la genèse de Hour One ?

L’origine de Hour One remonte à mon implication dans le domaine des crypto-monnaies. Après cette aventure, j’ai commencé à me demander ce que serait la prochaine grande chose que le calcul massif dans le cloud pourrait exploiter, et comme l’apprentissage automatique gagnait en popularité dans les recommandations et l’analyse prédictive, j’ai travaillé sur quelques projets liés à l’infrastructure de l’apprentissage automatique. Grâce à ce travail, je me suis familiarisé avec les premiers travaux génératifs et j’étais particulièrement intéressé par les GAN à l’époque. J’utilisais tout le calcul que je pouvais obtenir pour tester ces nouvelles technologies. Lorsque je montrais mes résultats à un ami qui avait une entreprise dans le domaine, il m’a dit que je devais rencontrer Oren. Lorsque je lui ai demandé pourquoi, il m’a dit que peut-être que nous allions cesser de gaspiller son temps et de gaspiller le nôtre. Oren, mon co-fondateur et PDG de Hour One, était un investisseur précoce dans l’IA à l’époque, et même si nous étions à des endroits différents, nous allions dans la même direction, et la fondation de Hour One pour être la Maison de l’Humain Virtuel était un voyage inévitable.

Quels sont certains des algorithmes d’apprentissage automatique utilisés, et quelle est la partie du processus où se situe l’IA générative ?

Dans le domaine de la création de vidéos, les algorithmes d’apprentissage automatique sont instrumentaux à chaque étape. À la phase de script, les grands modèles de langage (LLM) offrent un soutien inestimable, créant ou affinant le contenu pour garantir des récits convaincants. Lorsque nous passons à l’audio, les algorithmes de synthèse vocale (TTS) transforment le texte en voix organiques et émotives. En passant à la représentation visuelle, notre modèle fondamental multimodal propriétaire de l’humain virtuel prend le centre de la scène. Ce modèle, amélioré avec les réseaux antagonistes génératifs (GAN) et les encodeurs auto-variés (VAE), est apte à transmettre des émotions contextuelles, des énonciations et une livraison articulée, captivante et authentique. De telles techniques génératives transforment les textes et les signaux audio en visuels réalistes d’humains virtuels, conduisant à des sorties vidéo hyper-réalistes. L’orchestration des LLM, TTS, GAN, VAE et de notre modèle multimodal fait de l’IA générative non seulement une partie mais la colonne vertébrale de la production vidéo moderne.

Comment Hour One se différencie-t-il des générateurs de vidéos concurrents ?

Chez Hour One, notre distinction par rapport aux autres générateurs de vidéos ne provient pas d’une obsession pour la concurrence, mais plutôt d’une philosophie profondément ancrée qui régit notre approche de la qualité, de la conception de produits et de la stratégie de marché. Notre principe directeur est de toujours donner la priorité à l’élément humain, en veillant à ce que nos créations résonnent avec authenticité et émotion. Nous sommes fiers de proposer la meilleure qualité de l’industrie sans compromis. En utilisant un rendu vidéo 3D avancé, nous offrons à nos utilisateurs une expérience cinématographique authentique. De plus, notre stratégie est unique et opinionée ; nous commençons par un produit poli et nous itérons rapidement vers la perfection. Cette approche garantit que nos offres sont toujours une étape en avant, établissant de nouvelles références dans la génération de vidéos.

Avec votre expérience approfondie dans les GPU, pouvez-vous partager avec nous quelques insights sur vos vues sur la plate-forme NVIDIA Next-Generation GH200 Grace Hopper Superchip ?

L’architecture Grace Hopper est vraiment un changement de jeu. Si les GPU peuvent fonctionner efficacement à partir de la mémoire RAM de l’hôte sans créer de goulet d’étranglement dans le calcul, cela débloque des ratios de modèle et d’accélérateur actuellement impossibles dans la formation, et en conséquence, une flexibilité très souhaitable dans les tailles des tâches de formation. En supposant que l’ensemble du stock de GH200 ne sera pas englouti par la formation de LLM, nous espérons l’utiliser pour réduire considérablement les coûts de prototypage de nos architectures multimodales plus tard.

Y a-t-il d’autres puces qui sont actuellement sur votre radar ?

Notre objectif principal est de fournir au utilisateur du contenu vidéo qui est compétitif en termes de prix. Compte tenu de la demande actuelle pour des GPU à grande mémoire, nous optimisons et testons constamment toutes les offres de GPU dans les cloud sur les principaux fournisseurs de services cloud. De plus, nous nous efforçons d’être au moins partiellement indépendants de la plate-forme pour certaines de nos charges de travail. Ainsi, nous sommes à l’affût des TPU et d’autres ASIC, et nous prêtons également une attention particulière à AMD. Finalement, toute voie d’optimisation matérielle qui peut aboutir à un meilleur ratio FLOPs/$ sera explorée.

Quelle est votre vision pour les progrès futurs dans la génération de vidéos ?

Dans 24 mois, nous ne pourrons pas distinguer un humain généré d’un humain capturé. Cela changera beaucoup de choses, et nous sommes à l’avant-garde de ces progrès.

Actuellement, la plupart des vidéos générées sont pour les ordinateurs et les appareils mobiles, qu’est-ce qui doit changer avant d’avoir des avatars et des mondes générés photo-réalistes pour la réalité augmentée et la réalité virtuelle ?

Actuellement, nous possédons la capacité de générer des avatars et des mondes photo-réalistes pour la réalité augmentée (AR) et la réalité virtuelle (VR). L’obstacle principal est la latence. Alors que la livraison de graphiques de haute qualité et en temps réel aux appareils de bord tels que les casques AR et VR est vitale, la réalisation de cela de manière transparente dépend de plusieurs facteurs. Tout d’abord, nous sommes tributaires des progrès de la fabrication de puces pour garantir un traitement plus rapide et plus efficace. Parallèlement, l’optimisation de la consommation d’énergie est cruciale pour assurer une utilisation plus longue sans compromettre l’expérience. Enfin, nous anticipons des avancées logicielles qui peuvent efficacement combler le fossé entre la génération et le rendu en temps réel. À mesure que ces éléments se combinent, nous verrons une augmentation de l’utilisation d’avatars et d’environnements photo-réalistes sur les plateformes AR et VR.

Qu’est-ce que vous attendez comme prochaine grande percée dans l’IA ?

Lorsqu’il s’agit de la prochaine percée significative dans l’IA, il y a toujours une atmosphère d’excitation et d’anticipation. Alors que j’ai fait allusion à certaines avancées plus tôt, ce que je peux partager, c’est que nous travaillons actuellement sur plusieurs innovations révolutionnaires. J’aimerais entrer dans les détails, mais pour l’instant, j’encourage tout le monde à suivre nos prochaines sorties. L’avenir de l’IA recèle d’immenses promesses, et nous sommes ravis d’être à l’avant-garde de ces efforts pionniers. Restez à l’écoute !

Y a-t-il autre chose que vous aimeriez partager sur Hour One ?

Vous devriez définitivement vérifier notre canal Discord et notre API, les nouvelles additions à notre offre de plate-forme sur Hour One.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.