Intervjuer

Lior Hakim, medgrundare och CTO pĂ„ Hour One – Intervjuserie

mm

Lior Hakim, medgrundare och Chief Technical Officer på Hour One, en branschledare inom skapandet av virtuella människor för professionell videokommunikation. De verklighetstrogna virtuella karaktärerna, som är modellerade efter riktiga människor, uttrycker mänsklig uttrycksfullhet genom text, vilket möjliggör för företag att höja sin kommunikation med en obruten lätthet och skalbarhet.

Kan du dela berättelsen om Hour Ones ursprung?

Hour Ones ursprung kan spåras tillbaka till min inblandning i krypto-domänen. Efter det företaget började jag fundera på vad som skulle vara den nästa stora saken som massmolnberäkning kan kopplas till och eftersom maskinlärning var på väg att bli populär inom rekommendationer och prediktiv analys jobbade jag med några ML-infrastruktur-relaterade projekt. Genom detta arbete blev jag bekant med tidiga generativa verk och var särskilt intresserad av GANs vid den tiden. Jag använde all beräkningskraft jag kunde få tag på för att testa dessa då nya teknologier. När jag visade mina resultat för en vän som hade ett företag inom området sa han att jag måste träffa Oren. När jag frågade varför sa han att kanske kommer vi att sluta slösa bort hans tid och slösa bort varandras tid. Oren, min medgrundare och VD för Hour One, var en tidig investerare i AI vid den tiden och medan vi stod på olika platser var vi båda på väg i samma riktning, och grundandet av Hour One för att vara hem för den virtuella människan var en oundviklig resa.

Vilka är några av de maskinlärningsalgoritmer som används, och vad är Generative AI:s roll i processen?

Inom videokreation är maskinlärningsalgoritmer avgörande i varje skede. I skriptfasen erbjuder stora språkmodeller (LLM) ovärderligt stöd genom att skapa eller finslipa innehåll för att säkerställa engagerande berättelser. När vi går över till ljud, förvandlar Text-to-Speech (TTS)-algoritmer text till organiska, uttrycksfulla röster. När vi övergår till den visuella representationen, tar vår egenutvecklade Multimodal grundmodell för den virtuella människan centerplatsen. Denna modell, förbättrad med Generative Adversarial Networks (GANs) och Variational Autoencoders (VAEs), är skicklig på att uttrycka kontextuella känslor, uttal och en artikulerad, fängslande och autentisk leverans. Sådana generativa tekniker omvandlar text och ljudsignaler till verklighetstrogna visuella representationer av virtuella människor, vilket leder till hyperrealistiska videoresultat. Orkestreringen av LLM, TTS, GANs, VAEs och vår Multimodal modell gör Generative AI till inte bara en del utan ryggraden i modern videoproduktion.

Hur skiljer sig Hour One från andra videogenereringsverktyg?

På Hour One skiljer vi oss från andra videogenereringsverktyg inte genom en fixering vid konkurrensen, utan snarare genom en djupt rotad filosofi som styr vår tillvägagångssätt för kvalitet, produktutformning och marknadsstrategi. Vår ledande princip är att alltid prioritera det mänskliga inslaget, säkerställande att våra skapelser vibrerar av äkthet och känsla. Vi är stolta över att leverera den bästa kvaliteten i branschen utan kompromisser. Genom att använda avancerad 3D-videorendering erbjuder vi våra användare en äkta bioupplevelse. Dessutom är vår strategi unikt tydlig; vi börjar med en polerad produkt och itererar sedan snabbt mot fulländning. Detta tillvägagångssätt säkerställer att våra erbjudanden alltid ligger steget före, sätter nya standarder inom videogenerering.

Med din omfattande bakgrund inom GPUs, kan du dela med dig av dina synpunkter på NVIDIA Next-Generation GH200 Grace Hopper Superchip Platform?

Grace Hopper-arkitekturen är verkligen en spelväxlare. Om GPU kan arbeta effektivt från sin värd-RAM utan att helt blockera beräkningen, låser det upp för närvarande omöjliga modell/accelerator-förhållanden vid träning, och som ett resultat, mycket önskad flexibilitet i träningsjobbstorlekar. Antagande att hela lager av GH200 inte kommer att slukas av LLM-träning, hoppas vi att använda det för att kraftigt minska prototypkostnaderna för våra multimodala arkitekturer längre fram.

Finns det några andra chip som för närvarande är på din radar?

Vårt huvudmål är att tillhandahålla användaren med videoinnehåll som är prisvärt. Med tanke på efterfrågan på stora minnes-GPU:er just nu, optimerar och testar vi ständigt alla GPU-molntjänster på de främsta molntjänsteleverantörerna. Dessutom strävar vi efter att vara åtminstone delvis plattformsoberoende på vissa av våra arbetsbelastningar. Därför håller vi ett öga på TPUs och andra ASICs, och följer också noga AMD. Till slut kommer varje hårdvaruledd optimeringsväg som kan resultera i en bättre FLOPs/$-kvot att undersökas.

Vad är din vision för framtida framsteg inom videogenerering?

På 24 månader kommer vi inte att kunna skilja en genererad människa från en inspelad. Det kommer att förändra många saker, och vi är här i framkanten av dessa framsteg.

För närvarande är de flesta genererade videor avsedda för datorer och mobila enheter, vad behöver ändras innan vi har fotorealistiska genererade avatarer och världar för både förstärkt verklighet och virtuell verklighet?

För närvarande besitter vi förmågan att generera fotorealistiska avatarer och världar för både förstärkt verklighet (AR) och virtuell verklighet (VR). Det primära hindret är fördröjning. Medan leveransen av högkvalitativa, realtidsgrafik till edge-enheter som AR- och VR-huvudenheter är viktig, är att uppnå detta sömlöst beroende av flera faktorer. Främst är vi beroende av framsteg inom chip-tillverkning för att säkerställa snabbare och mer effektiv bearbetning. Utöver detta är optimering av effektåtgång avgörande för att säkerställa längre användning utan att kompromissa med upplevelsen. Sist men inte minst förväntar vi oss mjukvarubreakthroughs som kan effektivt brottas mellan generering och realtidsrendering. När dessa element kommer samman, kommer vi att se en ökning av användningen av fotorealistiska avatarer och miljöer på både AR- och VR-plattformar.

Vad förväntar du dig kommer att vara nästa stora genombrott inom AI?

När det gäller det nästa betydande genombrottet inom AI, finns alltid en atmosfär av spänning och förväntan. Medan jag har antytt vissa framsteg tidigare, kan jag dela att vi för närvarande arbetar med flera banbrytande innovationer. Jag skulle älska att gå in på detaljer, men för nu uppmanar jag alla att hålla ögonen på våra kommande utgåvor. AI:s framtid bär på enorma löften, och vi är glada över att vara i framkanten av dessa pionjära ansträngningar. Håll utkik!

Finns det något annat du vill dela om Hour One?

Du bör definitivt kolla in vår Discord-kanal och API, nya tillägg till vår plattformserbjudande på Hour One.

Antoine Àr en visionÀr ledare och medgrundare av Unite.AI, driven av en outtröttlig passion för att forma och frÀmja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika omstörtande för samhÀllet som elektricitet, och fÄngas ofta i extas över potentialen för omstörtande teknologier och AGI. Som en futurist, Àr han dedikerad till att utforska hur dessa innovationer kommer att forma vÄr vÀrld. Dessutom Àr han grundare av Securities.io, en plattform som fokuserar pÄ att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.