interviste
Lior Hakim, co-fondatore e CTO di Hour One – Serie di interviste

Lior Hakim, cofondatore e direttore tecnico di ora uno, leader del settore nella creazione di esseri umani virtuali per comunicazioni video professionali. I personaggi virtuali realistici, modellati esclusivamente su persone reali, trasmettono un'espressività umana attraverso il testo, consentendo alle aziende di migliorare la propria messaggistica con facilità e scalabilità senza pari.
Potresti condividere la storia della genesi dietro Hour One?
L'origine di Hour One può essere fatta risalire al mio coinvolgimento nel dominio crittografico. Dopo quell'impresa ho iniziato a riflettere su quale sarebbe stata la prossima grande novità a cui il cloud computing di massa poteva attingere e poiché l'apprendimento automatico stava guadagnando popolarità nelle raccomandazioni e nell'analisi predittiva, stavo lavorando su alcuni progetti relativi all'infrastruttura ML. Attraverso questo lavoro ho acquisito familiarità con i primi lavori generativi e all'epoca ero particolarmente interessato ai GAN. Stavo utilizzando tutto il calcolo su cui potevo mettere le mani per testare quelle allora nuove tecnologie. Quando ho mostrato i miei risultati a un amico che aveva un'azienda nel settore, mi ha detto che dovevo incontrare Oren. Quando gli ho chiesto il motivo, mi ha detto che forse entrambi smetteremo di sprecare il suo tempo e di perdere tempo a vicenda. Oren, il mio co-fondatore e CEO di Hour One, all'epoca fu uno dei primi investitori nell'intelligenza artificiale. e mentre eravamo in posti diversi ci muovevamo entrambi nella stessa direzione, e la fondazione di Hour One come Casa dell'Umano Virtuale è stato un viaggio inevitabile.
Quali sono alcuni degli algoritmi di machine learning utilizzati e quale parte del processo è l'intelligenza artificiale generativa?
Nel campo della creazione di video, gli algoritmi di apprendimento automatico sono fondamentali in ogni fase. Nella fase di scripting, i Large Language Models (LLM) offrono un supporto inestimabile, creando o perfezionando i contenuti per garantire narrazioni avvincenti. Passando all'audio, gli algoritmi Text-to-Speech (TTS) trasformano il testo in voci organiche ed emotive. Passando alla rappresentazione visiva, il nostro modello fondamentale multimodale proprietario dell'essere umano virtuale è al centro della scena. Questo modello, potenziato con Generative Adversarial Networks (GAN) e Variational Autoencoder (VAE), è abile nel trasmettere emozioni contestuali, enunciazione e una consegna articolata, accattivante e autentica. Tali tecniche generative trasformano testi e segnali audio in immagini realistiche di esseri umani virtuali, portando a output video iperrealistici. L'orchestrazione di LLM, TTS, GAN, VAE e il nostro modello multimodale rendono l'intelligenza artificiale generativa non solo una parte ma la spina dorsale della moderna produzione video.
In che modo Hour One si differenzia dai generatori video concorrenti?
In Hour One, la nostra distinzione dagli altri generatori video non deriva da una preoccupazione per la concorrenza, ma piuttosto da una filosofia profondamente radicata che governa il nostro approccio alla qualità, al design del prodotto e alla strategia di mercato. Il nostro principio guida è dare sempre priorità all'elemento umano, garantendo che le nostre creazioni risuonino di autenticità ed emozione. Siamo orgogliosi di offrire la migliore qualità del settore, senza compromessi. Utilizzando il rendering video 3D avanzato, offriamo ai nostri utenti un'esperienza cinematografica autentica. Inoltre, la nostra strategia è unica e orientata alla perfezione: partiamo da un prodotto rifinito e poi procediamo rapidamente verso la perfezione. Questo approccio garantisce che le nostre offerte siano sempre un passo avanti, stabilendo nuovi standard nella generazione video.
Con la tua vasta esperienza nel campo delle GPU, puoi condividere con noi alcuni approfondimenti sulle tue opinioni in merito Piattaforma superchip NVIDIA GH200 Grace Hopper di nuova generazione?
L'architettura Grace Hopper è davvero un punto di svolta. Se la GPU può funzionare efficacemente dalla RAM del suo host senza ostacolare completamente il calcolo, sblocca rapporti modello/acceleratore attualmente impossibili nell'addestramento e, di conseguenza, la flessibilità tanto desiderata nell'addestramento delle dimensioni dei lavori. Supponendo che l'intero stock di GH200 non verrà inghiottito dalla formazione LLM, speriamo di utilizzarlo per ridurre notevolmente i costi di prototipazione per le nostre architetture multimodali in futuro.
Ci sono altri chip attualmente sul tuo radar?
Il nostro obiettivo principale è fornire all'utente contenuti video a prezzi competitivi. Data la domanda attuale di GPU con memoria di grandi dimensioni, ottimizziamo e proviamo costantemente qualsiasi offerta di GPU cloud sui principali fornitori di servizi cloud. Inoltre, ci sforziamo di essere almeno parzialmente indipendenti dalla piattaforma su alcuni dei nostri carichi di lavoro. Quindi stiamo tenendo d'occhio i TPU e altri ASIC, e prestiamo molta attenzione anche ad AMD. Alla fine verrà esplorato qualsiasi percorso di ottimizzazione guidato dall'hardware che possa portare a un migliore rapporto FLOP/$.
Qual è la tua visione per i futuri progressi nella generazione di video?
Tra 24 mesi non saremo più in grado di distinguere un essere umano generato da uno catturato. Questo cambierà molte cose, e noi siamo all'avanguardia in questi progressi.
Al momento la maggior parte dei video generati sono per computer e dispositivi mobili, cosa deve cambiare prima di avere avatar e mondi generati in modo fotorealistico sia per la realtà aumentata che per la realtà virtuale?
Al momento, siamo in grado di generare avatar e mondi fotorealistici sia per la realtà aumentata (AR) che per la realtà virtuale (VR). L'ostacolo principale è la latenza. Sebbene la fornitura di grafica di alta qualità in tempo reale a dispositivi edge come visori AR e VR sia fondamentale, il raggiungimento di questo obiettivo senza interruzioni dipende da diversi fattori. Innanzitutto, facciamo affidamento sui progressi nella produzione di chip per garantire un'elaborazione più rapida ed efficiente. Parallelamente, l'ottimizzazione del consumo energetico è fondamentale per garantire un utilizzo prolungato senza compromettere l'esperienza. Infine, ma non meno importante, prevediamo innovazioni software in grado di colmare efficacemente il divario tra la generazione e il rendering in tempo reale. Con l'integrazione di questi elementi, assisteremo a un'impennata nell'utilizzo di avatar e ambienti fotorealistici su piattaforme AR e VR.
Quale ti aspetti sarà la prossima grande svolta nel campo dell’intelligenza artificiale?
Quando si parla della prossima svolta significativa nell'intelligenza artificiale, c'è sempre un'aria di entusiasmo e attesa. Anche se in precedenza ho accennato ad alcuni progressi, posso dire che stiamo lavorando attivamente a diverse innovazioni rivoluzionarie proprio in questo momento. Mi piacerebbe entrare nei dettagli, ma per ora incoraggio tutti a tenere d'occhio le nostre prossime uscite. Il futuro dell'intelligenza artificiale è immensamente promettente e siamo entusiasti di essere in prima linea in questi sforzi pionieristici. Restate sintonizzati!
C'è qualcos'altro che vorresti condividere su Hour One?
Dovresti assolutamente dare un'occhiata al nostro canale Discord e alla nostra API, nuove aggiunte alla nostra offerta di piattaforma su ora uno.












