Interviuri
Lior Hakim, Co-fondator și CTO al Hour One – Seria de interviuri

Lior Hakim, co-fondator și Director Tehnic al Hour One, un lider în industrie în crearea de oameni virtuali pentru comunicări video profesionale. Personajele virtuale realiste, modelate exclusiv după oameni reali, transmit expresivitate umană prin text, permițând companiilor să își îmbunătățească mesajele cu o ușurință și o scalabilitate fără precedent.
Puteți împărtăși povestea de origine din spatele Hour One?
Originea Hour One poate fi urmărită până la implicarea mea în domeniul criptomonedei. După această întreprindere, am început să mă gândesc la ce va fi următoarea mare realizare pe care computarea în nor poate să o atingă și, pe măsură ce învățarea automată câștiga popularitate în recomandări și analize predictive, lucram la câteva proiecte legate de infrastructura ML. Prin acest lucru, am devenit familiarizat cu lucrările generative timpurii și am fost în special interesat de GANs în acea perioadă. Foloseam toată puterea de calcul pe care o puteam obține pentru a testa aceste tehnologii noi. Când le-am arătat rezultatele unui prieten care avea o companie în domeniu, mi-a spus că trebuie să-l întâlnesc pe Oren. Când l-am întrebat de ce, mi-a spus că poate vom înceta să-i pierdem timpul și vom pierde timpul unul altuia. Oren, co-fondatorul și CEO al Hour One, era un investitor timpuriu în IA în acea perioadă și, deși ne aflam în locuri diferite, ne mișcam în aceeași direcție, iar fondarea Hour One pentru a fi Casa Omului Virtual a fost o călătorie inevitabilă.
Care sunt unele dintre algoritmii de învățare automată care sunt utilizați și ce parte a procesului este reprezentată de Inteligența Artificială Generativă?
În domeniul creației de videoclipuri, algoritmii de învățare automată sunt instrumentali la fiecare etapă. La faza de scriere, Modelele Lingvistice Mari (LLM) oferă un sprijin inestimabil, creând sau rafinând conținutul pentru a asigura povestiri captivante. Pe măsură ce trecem la audio, algoritmii Text-to-Speech (TTS) transformă textul în voci organice și emotive. Trecând la reprezentarea vizuală, modelul nostru Multimodal fundamental al omului virtual joacă un rol central. Acest model, îmbunătățit cu Rețele Adversariale Generative (GANs) și Autoencoderi Variationale (VAE), este capabil să transmită emoții contextuale, enunțare și o livrare articulată, captivantă și autentică. Astfel de tehnici generative transformă textul și semnalele audio în imagini realiste ale oamenilor virtuali, ducând la ieșiri video hiper-realiste. Orchestrationul LLM, TTS, GAN, VAE și al modelului nostru Multimodal face ca Inteligența Artificială Generativă să nu fie doar o parte, ci coloana vertebrală a producției moderne de videoclipuri.
Cum se diferențiază Hour One de alți generatori de videoclipuri?
La Hour One, diferențierea noastră de alți generatori de videoclipuri nu provine dintr-o preocupare pentru concurență, ci mai degrabă dintr-o filozofie profund înrădăcinată care guvernează abordarea noastră față de calitate, design de produs și strategie de piață. Principiul nostru ghid este să prioritizăm întotdeauna elementul uman, asigurându-ne că creațiile noastre rezonă cu autenticitate și emoție. Ne mândrim cu livrarea celei mai bune calități din industrie fără compromisuri. Prin utilizarea renderingului avansat de videoclipuri 3D, oferim utilizatorilor noștri o experiență cinematografică autentică. Mai mult, strategia noastră este în mod unic opinioasă; începem cu un produs rafinat și apoi iterăm rapid spre perfecțiune. Acest abordare asigură că ofertele noastre sunt întotdeauna cu un pas înainte, stabilind noi repere în generarea de videoclipuri.
Cu fundalul dvs. extins în GPU, puteți împărtăși cu noi câteva perspective asupra NVIDIA Next-Generation GH200 Grace Hopper Superchip Platform?
Arhitectura Grace Hopper este cu adevărat un schimbător de joc. Dacă GPU poate lucra eficient din memoria RAM a gazdei fără a bloca complet calculul, deblochează raporturi actuale de model/accelerator imposibile în antrenament și, ca rezultat, o flexibilitate mult dorită în dimensiunile locurilor de muncă de antrenament. Presupunând că întreaga stocare GH200 nu va fi înghițită de antrenamentul LLM, sperăm să o utilizăm pentru a reduce semnificativ costurile de prototipare pentru arhitecturile noastre multimodale pe viitor.
Există alte cipuri care sunt în prezent pe radarul dvs.?
Scopul nostru principal este să oferim utilizatorului conținut video care este competitiv din punct de vedere al prețului. Având în vedere cererea actuală de GPU-uri cu memorie mare, suntem în permanență în proces de optimizare și încercare a oricărei oferte de GPU pe principalii furnizori de servicii cloud. Mai mult, ne străduim să fim cel puțin parțial independenți de platformă pentru unele dintre încărcăturile noastre de lucru. Prin urmare, suntem atenți la TPUs și la alte ASICs și, de asemenea, urmărim îndeaproape AMD. În cele din urmă, orice rută de optimizare condusă de hardware care poate duce la un raport mai bun FLOPs/$ va fi explorată.
Care este viziunea dvs. pentru avansările viitoare în generarea de videoclipuri?
În 24 de luni, nu vom putea distinge un om generat de unul capturat. Acest lucru va schimba multe lucruri și suntem aici, în fruntea acestor avansări.
În acest moment, majoritatea videoclipurilor generate sunt pentru computere și dispozitive mobile, ce trebuie să se schimbe înainte de a avea avatare și lumi generate fotorealiste pentru realitatea augmentată și realitatea virtuală?
În prezent, deținem capacitatea de a genera avatare și lumi fotorealiste pentru realitatea augmentată (AR) și realitatea virtuală (VR). Obstacolul principal este latența. În timp ce livrarea graficelor de înaltă calitate și în timp real către dispozitivele de margine, cum ar fi căștile AR și VR, este vitală, realizarea acestui lucru în mod fluent depinde de mai mulți factori. În primul rând, suntem dependenți de progresele în fabricarea cipului pentru a asigura procesarea mai rapidă și mai eficientă. Alături de aceasta, optimizarea consumului de energie este crucială pentru a asigura o utilizare mai lungă fără a compromite experiența. Nu în ultimul rând, anticipăm progrese software care pot podi eficient golul dintre generare și rendering în timp real. Pe măsură ce aceste elemente se reunesc, vom vedea o creștere a utilizării avatarilor și a mediilor fotorealiste pe ambele platforme AR și VR.
Ce așteptați să fie următoarea mare descoperire în IA?
Când vine vorba de următoarea descoperire semnificativă în IA, există întotdeauna o atmosferă de entuziasm și așteptare. Deși am făcut aluzie la unele avansări mai devreme, ceea ce pot împărtăși este că lucrăm activ la mai multe inovații revoluționare în acest moment. Aș dori să intru în detalii, dar pentru moment, încurajez pe toată lumea să țină cont de lansările noastre viitoare. Viitorul IA conține o promisiune imensă și suntem încântați să fim în fruntea acestor eforturi pionier.
Există altceva pe care ați dori să-l împărtășiți despre Hour One?
Trebuie să verificați canalul nostru Discord și API, noi adaosuri la platforma noastră de pe Hour One.












