rozhovory

Lior Hakim, spoluzakladatel a technický ředitel Hour One – série rozhovorů

Zveřejněno

10 měsíci

Září 1, 2023

Lior Hakim, spoluzakladatel a technický ředitel společnosti První hodina, lídr v oboru vytváření virtuálních lidí pro profesionální video komunikaci. Živé virtuální postavy, vytvořené výhradně podle skutečných lidí, zprostředkovávají lidskou expresivitu prostřednictvím textu a umožňují podnikům pozvednout své zasílání zpráv s nesrovnatelnou lehkostí a škálovatelností.

Mohl byste se podělit o příběh geneze za Hour One?

Původ Hour One lze vysledovat zpět k mému zapojení do krypto domény. Po tomto úsilí jsem začal uvažovat o tom, jaká by byla další velká věc, na kterou může mass cloud computing využít, a jak strojové učení získávalo na popularitě v doporučeních a prediktivních analytikách, pracoval jsem na několika projektech souvisejících s infrastrukturou ML. Prostřednictvím této práce jsem se seznámil s ranými generativními pracemi a v té době jsem se zvláště zajímal o GANy. Používal jsem všechny výpočetní prostředky, které jsem měl k dispozici, abych otestoval tyto tehdy nové technologie. Když jsem ukazoval své výsledky příteli, který měl v oboru firmu, řekl mi, že se musím setkat s Orenem. Když jsem se zeptal proč, řekl mi, že možná oba přestaneme plýtvat jeho časem a ztrácet čas jeden druhého. Oren, můj spoluzakladatel a generální ředitel společnosti Hour One, byl v té době prvním investorem do AI. a zatímco jsme stáli na různých místech, oba jsme se pohybovali stejným směrem a založení hodiny jedna, která se stala domovem virtuálního člověka, byla nevyhnutelná cesta.

Jaké jsou některé z algoritmů strojového učení, které se používají, a jakou součástí procesu je generativní AI?

V oblasti tvorby videa jsou algoritmy strojového učení nástrojem v každé fázi. Ve fázi skriptování nabízejí velké jazykové modely (LLM) neocenitelnou podporu, vytváření nebo vylepšování obsahu, aby zajistily působivé příběhy. Když se přesuneme ke zvuku, algoritmy převodu textu na řeč (TTS) přeměňují text na organické, emotivní hlasy. Při přechodu k vizuální reprezentaci se do centra pozornosti dostává náš vlastní multimodální základní model virtuálního člověka. Tento model, vylepšený o generativní adversariální sítě (GAN) a variační automatické kodéry (VAE), je zběhlý ve zprostředkování kontextových emocí, výslovnosti a artikulovaného, podmanivého a autentického podání. Tyto generativní techniky přeměňují textové a zvukové podněty na realistické vizuální prvky virtuálních lidí, což vede k hyperrealistickým video výstupům. Díky orchestraci LLM, TTS, GAN, VAE a našemu multimodálnímu modelu je generativní umělá inteligence nejen součástí, ale také páteří moderní video produkce.

Čím se Hour One odlišuje od konkurenčních video generátorů?

Na Hour One naše odlišnost od ostatních video generátorů nevychází ze zaujetí konkurencí, ale spíše z hluboce zakořeněné filozofie, která řídí náš přístup ke kvalitě, designu produktů a tržní strategii. Naší hlavní zásadou je vždy upřednostňovat lidský prvek a zajistit, aby naše výtvory rezonovaly s autenticitou a emocemi. Jsme hrdí na to, že poskytujeme nejlepší kvalitu v oboru bez kompromisů. Využitím pokročilého vykreslování 3D videa poskytujeme našim uživatelům skutečný filmový zážitek. Kromě toho je naše strategie jednoznačně míněna; začínáme s leštěným produktem a pak rychle iterujeme k dokonalosti. Tento přístup zajišťuje, že naše nabídky jsou vždy o krok napřed a nastavují nová měřítka ve vytváření videa.

Můžete se s námi podělit o své postřehy o svých názorech na GPU, protože máte rozsáhlé zkušenosti s GPU Platforma superčipu NVIDIA nové generace GH200 Grace Hopper?

Architektura Grace Hopper skutečně mění hru. Pokud může GPU efektivně pracovat z paměti RAM svého hostitele, aniž by zcela omezil výpočet, odemkne v současné době nemožné poměry model/akcelerátor v tréninku a v důsledku toho tolik požadovanou flexibilitu ve velikostech tréninkových úloh. Za předpokladu, že celý sklad GH200 nebude spolknut školením LLM, doufáme, že jej využijeme k výraznému snížení nákladů na prototypování pro naše multimodální architektury.

Existují nějaké další čipy, které jsou aktuálně na vašem radaru?

Naším hlavním cílem je poskytnout uživateli videoobsah, který je cenově konkurenceschopný. Vzhledem k současné poptávce po GPU s velkou pamětí neustále optimalizujeme a zkoušíme jakoukoli cloudovou nabídku GPU u předních poskytovatelů cloudových služeb. Navíc se snažíme být alespoň částečně platformově nezávislí na některých našich pracovních zátěžích. Proto sledujeme TPU a další ASIC a také věnujeme velkou pozornost AMD. Nakonec bude prozkoumána jakákoliv hardwarově řízená optimalizační cesta, která může vést k lepšímu poměru FLOP/$.

Jaká je vaše vize budoucího pokroku v generování videa?

Za 24 měsíců nebudeme schopni rozeznat vygenerovaného člověka od zajatého. To změní spoustu věcí a my jsme zde v čele těchto pokroků.

V současnosti je většina generovaných videí pro počítače a mobilní zařízení, co se musí změnit, než budeme mít fotorealistické avatary a světy pro rozšířenou realitu i virtuální realitu?

Od této chvíle máme schopnost generovat fotorealistické avatary a světy pro rozšířenou realitu (AR) i virtuální realitu (VR). Primární překážkou je latence. I když je dodání vysoce kvalitní grafiky v reálném čase do špičkových zařízení, jako jsou náhlavní soupravy AR a VR, životně důležité, bezproblémové dosažení tohoto cíle závisí na několika faktorech. V první řadě se spoléháme na pokroky ve výrobě čipů, abychom zajistili rychlejší a efektivnější zpracování. Kromě toho je optimalizace spotřeby energie klíčová pro zajištění delšího používání, aniž by došlo ke snížení zážitku. V neposlední řadě očekáváme softwarové průlomy, které mohou efektivně překlenout mezeru mezi generováním a vykreslováním v reálném čase. Jakmile se tyto prvky spojí, uvidíme nárůst využití fotorealistických avatarů a prostředí napříč platformami AR i VR.

Co očekáváte, že bude dalším velkým průlomem v AI?

Když dojde na další významný průlom v oblasti umělé inteligence, je tu vždy atmosféra vzrušení a očekávání. I když jsem již dříve narážel na některá vylepšení, mohu se podělit o to, že v tuto chvíli aktivně pracujeme na několika převratných inovacích. Rád bych se ponořil do specifik, ale prozatím všem doporučuji, aby sledovali naše nadcházející vydání. Budoucnost umělé inteligence skrývá nesmírný příslib a jsme nadšeni, že stojíme v čele těchto průkopnických snah. Zůstaňte naladěni!

Je ještě něco, o co byste se chtěli podělit o Hour One?

Určitě byste se měli podívat na náš kanál discord a API, nové přírůstky do nabídky naší platformy na adrese První hodina.