Interviste
Lior Hakim, Co-fondatore e CTO di Hour One – Serie di Interviste

Lior Hakim, co-fondatore e Chief Technical Officer di Hour One, un leader di settore nella creazione di esseri umani virtuali per la comunicazione video professionale. I personaggi virtuali realistici, modellati esclusivamente su persone reali, trasmettono espressività umana attraverso il testo, consentendo alle aziende di elevare i loro messaggi con una facilità e una scalabilità senza precedenti.
Potresti condividere la storia di genesi dietro Hour One?
L’origine di Hour One può essere fatta risalire al mio coinvolgimento nel dominio delle criptovalute. Dopo quell’impresa, ho iniziato a riflettere su cosa sarebbe stata la prossima grande cosa che il cloud computing di massa potesse sfruttare e, poiché l’apprendimento automatico stava guadagnando popolarità nelle raccomandazioni e nell’analisi predittiva, stavo lavorando a alcuni progetti relativi all’infrastruttura di apprendimento automatico. Attraverso questo lavoro, mi sono familiarizzato con le prime opere generative e mi sono interessato in particolare alle GAN in quel momento. Stavo utilizzando tutto il calcolo che potevo ottenere per testare quelle tecnologie allora nuove. Quando ho mostrato i miei risultati a un amico che aveva un’azienda in quel settore, mi ha detto che dovevo incontrare Oren. Quando gli ho chiesto perché, mi ha detto che forse entrambi avremmo smesso di sprecare il suo tempo e avremmo sprecato il tempo l’uno dell’altro. Oren, il mio co-fondatore e CEO di Hour One, era un investitore precoce in AI in quel momento e, mentre stavamo in posti diversi, stavamo entrambi muovendoci nella stessa direzione, e la fondazione di Hour One per essere la Casa dell’Essere Umano Virtuale è stata un viaggio inevitabile.
Quali sono alcuni degli algoritmi di apprendimento automatico utilizzati e quale parte del processo è l’Intelligenza Artificiale Generativa?
Nel regno della creazione di video, gli algoritmi di apprendimento automatico sono strumentali in ogni fase. Nella fase di scripting, i Large Language Model (LLM) offrono un supporto inestimabile, creando o raffinando il contenuto per garantire narrazioni coinvolgenti. Mentre ci spostiamo sull’audio, gli algoritmi Text-to-Speech (TTS) trasformano il testo in voci organiche ed emotive. Passando alla rappresentazione visiva, il nostro modello Multimodale fondamentale dell’essere umano virtuale prende il centro della scena. Questo modello, potenziato con Generative Adversarial Network (GAN) e Variational Autoencoder (VAE), è in grado di trasmettere emozioni contestuali, enunciazione e una consegna articolata, coinvolgente e autentica. Tali tecniche generative trasformano il testo e gli indizi audio in immagini realistiche di esseri umani virtuali, portando a output video iper-realistici. L’orchestrazione di LLM, TTS, GAN, VAE e del nostro modello Multimodale rende l’Intelligenza Artificiale Generativa non solo una parte, ma la colonna vertebrale della produzione video moderna.
Come si differenzia Hour One dai generatori di video concorrenti?
In Hour One, la nostra distinzione dagli altri generatori di video non deriva da un’ossessione per la concorrenza, ma piuttosto da una filosofia profondamente radicata che governa il nostro approccio alla qualità, al design del prodotto e alla strategia di mercato. Il nostro principio guida è sempre dare priorità all’elemento umano, garantendo che le nostre creazioni risuonino con autenticità ed emozione. Ci impegniamo a fornire la migliore qualità nel settore senza compromessi. Utilizzando la rendering video 3D avanzata, offriamo ai nostri utenti un’esperienza cinematografica autentica. Inoltre, la nostra strategia è unicamente opinata; iniziamo con un prodotto rifinito e poi iteriamo rapidamente verso la perfezione. Questo approccio garantisce che le nostre offerte siano sempre un passo avanti, stabilendo nuovi benchmark nella generazione di video.
Con la tua vasta esperienza nelle GPU, potresti condividere con noi alcune tue opinioni sul piattaforma NVIDIA Next-Generation GH200 Grace Hopper Superchip?
L’architettura Grace Hopper è veramente un cambiamento di gioco. Se la GPU può lavorare efficacemente dalla RAM dell’host senza bloccare completamente il calcolo, sblocca rapporti modello/acceleratore attualmente impossibili nell’addestramento e, di conseguenza, una flessibilità molto desiderata nelle dimensioni del lavoro di addestramento. Supponendo che l’intero stock di GH200 non verrà inghiottito dall’addestramento LLM, speriamo di utilizzarlo per ridurre notevolmente i costi di prototipazione per le nostre architetture multimodali in futuro.
Ci sono altre chip che sono attualmente nel tuo radar?
Il nostro obiettivo principale è fornire all’utente contenuti video che siano competitivi in termini di prezzo. Data la domanda attuale di GPU con grande memoria, stiamo costantemente ottimizzando e provando tutte le offerte di GPU cloud dei principali provider di servizi cloud. Inoltre, ci impegniamo a essere almeno parzialmente indipendenti dalla piattaforma per alcuni dei nostri carichi di lavoro. Pertanto, stiamo tenendo d’occhio le TPU e altri ASIC, e stiamo anche prestando attenzione ad AMD. Alla fine, qualsiasi percorso di ottimizzazione basato su hardware che possa portare a un miglior rapporto FLOPs/$ verrà esplorato.
Qual è la tua visione per i futuri progressi nella generazione di video?
In 24 mesi non saremo in grado di distinguere un essere umano generato da uno catturato. Ciò cambierà molte cose e noi siamo qui alla forefront di quei progressi.
Al momento la maggior parte dei video generati sono per computer e dispositivi mobili, cosa deve cambiare prima di avere avatar e mondi generati fotorealistici per la realtà aumentata e la realtà virtuale?
Attualmente, possediamo la capacità di generare avatar e mondi fotorealistici per la realtà aumentata (AR) e la realtà virtuale (VR). L’ostacolo principale è la latenza. Mentre la consegna di grafica di alta qualità in tempo reale ai dispositivi edge come gli headset AR e VR è vitale, raggiungere ciò in modo fluido dipende da diversi fattori. In primo luogo, dipendiamo dai progressi nella produzione di chip per garantire un processamento più veloce e più efficiente. Insieme a ciò, l’ottimizzazione del consumo di energia è cruciale per garantire un uso più lungo senza compromettere l’esperienza. Infine, anticipiamo innovazioni software che possano efficientemente colmare il divario tra generazione e rendering in tempo reale. Mentre questi elementi si uniscono, vedremo un aumento nell’utilizzo di avatar e ambienti fotorealistici su entrambe le piattaforme AR e VR.
Cosa ti aspetti che sia il prossimo grande passo avanti nell’IA?
Quando si tratta del prossimo grande passo avanti nell’IA, c’è sempre un’atmosfera di eccitazione e aspettativa. Mentre ho accennato a alcuni progressi in precedenza, ciò che posso condividere è che stiamo attivamente lavorando a diverse innovazioni rivoluzionarie in questo momento. Mi piacerebbe addentrarmi nei dettagli, ma per ora, invito tutti a tenere d’occhio le nostre prossime uscite. Il futuro dell’IA tiene immense promesse e siamo entusiasti di essere alla forefront di questi sforzi pionieristici. Restate sintonizzati!
C’è qualcos’altro che ti piacerebbe condividere su Hour One?
Dovreste assolutamente controllare il nostro canale Discord e l’API, nuove aggiunte alla nostra offerta di piattaforma su Hour One.












