Interviste
Lior Hakim, Co-fondatore e Direttore Tecnico di Hour One – Serie di Interviste

Lior Hakim, co-fondatore e Direttore Tecnico di Hour One, un leader di settore nella creazione di personaggi virtuali per comunicazioni video professionali. I personaggi virtuali realistici, modellati esclusivamente su persone reali, trasmettono espressività umana attraverso il testo, consentendo alle aziende di elevare i loro messaggi con facilità e scalabilità senza precedenti.
Potresti condividere la storia di come è nata Hour One?
L’origine di Hour One risale al mio coinvolgimento nel dominio delle criptovalute. Dopo quell’impresa, ho iniziato a riflettere su cosa sarebbe stato il prossimo grande passo che il cloud computing potesse affrontare e, poiché il machine learning stava guadagnando popolarità nelle raccomandazioni e nell’analisi predittiva, stavo lavorando a alcuni progetti relativi all’infrastruttura del machine learning. Attraverso questo lavoro, mi sono familiarizzato con i primi lavori generativi e mi interessavo particolarmente ai GAN in quel momento. Stavo utilizzando tutto il calcolo che potevo ottenere per testare quelle tecnologie allora nuove. Quando ho mostrato i miei risultati a un amico che aveva un’azienda in quel settore, mi ha detto che dovevo incontrare Oren. Quando gli ho chiesto perché, mi ha detto che forse entrambi avremmo smesso di sprecare il suo tempo e avremmo sprecato il tempo l’uno dell’altro. Oren, il mio co-fondatore e amministratore delegato di Hour One, era un investitore precoce in AI in quel momento e, mentre ci trovavamo in posti diversi, stavamo entrambi muovendoci nella stessa direzione, e la fondazione di Hour One come Casa dell’Umano Virtuale è stata un viaggio inevitabile.
Quali sono alcuni degli algoritmi di machine learning utilizzati e quale parte del processo è l’Intelligenza Artificiale Generativa?
Nel regno della creazione di video, gli algoritmi di machine learning sono strumentali in ogni fase. Nella fase di scripting, i Large Language Model (LLM) offrono un supporto inestimabile, creando o raffinando il contenuto per garantire narrazioni coinvolgenti. Quando passiamo all’audio, gli algoritmi Text-to-Speech (TTS) trasformano il testo in voci organiche ed emotive. Passando alla rappresentazione visiva, il nostro modello Multimodale fondamentale dell’umano virtuale è al centro dell’attenzione. Questo modello, arricchito con Generative Adversarial Network (GAN) e Variational Autoencoder (VAE), è in grado di trasmettere emozioni contestuali, enunciazione e una consegna articolata, coinvolgente e autentica. Tali tecniche generative trasformano il testo e gli indizi audio in immagini realistici di umani virtuali, portando a output video iper-realistici. L’orchestrazione di LLM, TTS, GAN, VAE e del nostro modello Multimodale rende l’Intelligenza Artificiale Generativa non solo una parte, ma la colonna vertebrale della produzione video moderna.
Come si differenzia Hour One dai generatori di video concorrenti?
Hour One si distingue dagli altri generatori di video non perché si concentra sulla competizione, ma perché è guidata da una filosofia profondamente radicata che governa il nostro approccio alla qualità, al design del prodotto e alla strategia di mercato. Il nostro principio guida è sempre quello di dare priorità all’elemento umano, assicurandoci che le nostre creazioni risuonino con autenticità ed emozione. Ci vantiamo di offrire la migliore qualità nel settore senza compromessi. Utilizzando un rendering video 3D avanzato, offriamo ai nostri utenti un’esperienza cinematografica autentica. Inoltre, la nostra strategia è unica e orientata; iniziamo con un prodotto raffinato e poi iteriamo rapidamente verso la perfezione. Questo approccio garantisce che le nostre offerte siano sempre un passo avanti, stabilendo nuovi benchmark nella generazione di video.
Con la tua vasta esperienza nelle GPU, puoi condividere con noi alcune tue opinioni sulla piattaforma NVIDIA Next-Generation GH200 Grace Hopper Superchip?
L’architettura Grace Hopper è veramente un cambiamento di gioco. Se la GPU può lavorare efficacemente dalla RAM del suo host senza bloccare completamente il calcolo, sblocca rapporti modello/acceleratore attualmente impossibili nell’addestramento e, di conseguenza, una flessibilità molto desiderata nelle dimensioni del lavoro di addestramento. Supponendo che l’intero stock di GH200 non venga inghiottito dall’addestramento LLM, speriamo di utilizzarlo per ridurre notevolmente i costi di prototipazione per le nostre architetture multi-modalità in futuro.
Ci sono altre chip che sono attualmente nel tuo radar?
Il nostro obiettivo principale è fornire all’utente contenuti video che siano competitivi in termini di prezzo. Considerata la domanda attuale di GPU con grandi quantità di memoria, stiamo costantemente ottimizzando e provando ogni offerta di GPU cloud sui principali provider di servizi cloud. Inoltre, ci sforziamo di essere almeno parzialmente indipendenti dalla piattaforma per alcuni dei nostri carichi di lavoro. Pertanto, stiamo osservando le TPU e altri ASIC, e stiamo anche prestando molta attenzione ad AMD. Alla fine, esploreremo ogni percorso di ottimizzazione guidato dall’hardware che possa portare a un miglior rapporto FLOPS/dollaro.
Qual è la tua visione per i futuri progressi nella generazione di video?
Entro 24 mesi non saremo in grado di distinguere un umano generato da uno catturato. Ciò cambierà molte cose e noi siamo qui alla forefront di questi progressi.
Al momento, la maggior parte dei video generati sono per computer e dispositivi mobili, cosa deve cambiare prima di avere avatar e mondi generati fotorealistici per la realtà aumentata e la realtà virtuale?
Attualmente, possediamo la capacità di generare avatar e mondi fotorealistici per la realtà aumentata (AR) e la realtà virtuale (VR). L’ostacolo principale è la latenza. Mentre la consegna di grafica di alta qualità in tempo reale a dispositivi edge come visori AR e VR è vitale, raggiungere ciò in modo fluido dipende da diversi fattori. Innanzitutto, dipendiamo dai progressi nella produzione di chip per garantire un processamento più veloce e efficiente. Inoltre, l’ottimizzazione del consumo di energia è cruciale per garantire un utilizzo più lungo senza compromettere l’esperienza. Infine, anticipiamo innovazioni software che possano efficientemente colmare il divario tra generazione e rendering in tempo reale. Man mano che questi elementi si uniscono, vedremo un aumento nell’utilizzo di avatar e ambienti fotorealistici su piattaforme AR e VR.
Cosa ti aspetti sarà il prossimo grande passo avanti nell’IA?
Quando si tratta del prossimo grande passo avanti nell’IA, c’è sempre un’atmosfera di eccitazione e aspettativa. Mentre ho accennato a alcuni progressi in precedenza, ciò che posso condividere è che stiamo attivamente lavorando su diverse innovazioni rivoluzionarie in questo momento. Mi piacerebbe addentrarmi nei dettagli, ma per ora, incoraggio tutti a tenere d’occhio le nostre prossime uscite. Il futuro dell’IA tiene una promessa immensa e noi siamo entusiasti di essere alla forefront di questi sforzi pionieristici. Restate sintonizzati!
C’è qualcos’altro che ti piacerebbe condividere su Hour One?
Dovresti assolutamente controllare il nostro canale Discord e l’API, nuove aggiunte alla nostra offerta di piattaforma su Hour One.












