interjúk

Lior Hakim, a Hour One – Interjúsorozat társalapítója és műszaki igazgatója

Közzététel:

8 hónap

1. szeptember 2023.

Lior Hakim, a társaság társalapítója és műszaki igazgatója Egy óra, a professzionális videokommunikációhoz szükséges virtuális emberek megalkotásában iparágvezető. Az élethű virtuális karakterek, akiket kizárólag valódi emberek mintájára készítettek, emberszerű kifejezőkészséget közvetítenek a szövegen keresztül, lehetővé téve a vállalkozások számára, hogy páratlan könnyedséggel és méretezhetőséggel javítsák üzenetküldésüket.

Megosztanád a Hour One mögötti eredettörténetet?

A Hour One eredete a titkosítási tartományban való részvételemre vezethető vissza. A próbálkozás után azon kezdtem töprengeni, hogy mi lenne a következő nagy dolog, amit a tömeges felhőalapú számítástechnika kiaknázhat, és mivel a gépi tanulás egyre népszerűbb lett az ajánlások és a prediktív elemzések terén, néhány ML infrastruktúrával kapcsolatos projekten dolgoztam. Ezen a munkán keresztül megismerkedtem a korai generatív munkákkal, és akkoriban különösen érdekeltek a GAN-ok. A rendelkezésemre álló összes számítási eszközt felhasználtam az akkori új technológiák tesztelésére. Amikor megmutattam az eredményeimet egy barátomnak, akinek volt cége ezen a területen, azt mondta, találkoznom kell Orennel. Amikor megkérdeztem, miért, azt mondta, hogy talán mindketten abbahagyjuk az idejét vesztegetni, és egymás idejét vesztegetjük. Oren, a Hour One társalapítója és vezérigazgatója abban az időben korai befektető volt az MI-ben. és miközben különböző helyeken álltunk, mindketten ugyanabba az irányba haladtunk, és a Hour One megalapítása, hogy a Virtuális Ember Otthona legyen, elkerülhetetlen utazás volt.

Melyek a használt gépi tanulási algoritmusok, és a folyamat melyik része a Generatív AI?

A videókészítés területén a gépi tanulási algoritmusok minden szakaszban fontosak. A szkriptezési fázisban a Large Language Models (LLM) felbecsülhetetlen értékű támogatást, tartalomkészítést vagy finomítást kínál a lenyűgöző narratívák biztosítása érdekében. Ahogy áttérünk a hangra, a Text-to-Speech (TTS) algoritmusok a szöveget organikus, érzelmes hangokká alakítják. A vizuális megjelenítésre áttérve a virtuális ember szabadalmaztatott multimodális alapmodellje kerül a középpontba. Ez a modell, amelyet a Generatív Adversarial Networks (GAN) és a Variational Autoencoder (VAE) egészít ki, ügyesen közvetíti a kontextuális érzelmeket, a kiejtést, valamint a tagolt, magával ragadó és hiteles megjelenítést. Az ilyen generatív technikák a szöveget és a hangjelzéseket a virtuális emberek élethű képévé változtatják, ami hiperrealisztikus videó kimenetekhez vezet. Az LLM-ek, a TTS-ek, a GAN-ok, a VAE-k és a multimodális modellünk összehangolása a Generative AI-t nemcsak a modern videógyártás részévé, hanem gerincévé teszi.

Miben különbözik a Hour One a versengő videógenerátoroktól?

A Hour One-nál a többi videógenerátortól való megkülönböztetésünk nem a versennyel való elfoglaltságból fakad, hanem egy mélyen gyökerező filozófiából, amely irányítja a minőségre, a terméktervezésre és a piaci stratégiára vonatkozó megközelítésünket. Vezető elvünk, hogy mindig az emberi elemet helyezzük előtérbe, biztosítva, hogy alkotásaink hitelességgel és érzelmekkel rezonálódjanak. Büszkék vagyunk arra, hogy az iparág legjobb minőségét kínáljuk kompromisszumok nélkül. A fejlett 3D-s videómegjelenítés használatával valódi moziélményt biztosítunk felhasználóinknak. Ezen túlmenően stratégiánk egyedi véleményt alkot; egy csiszolt termékkel kezdjük, majd gyorsan iterálunk a tökéletesség felé. Ez a megközelítés biztosítja, hogy kínálatunk mindig egy lépéssel előrébb jár, és új mércét állít fel a videógenerálásban.

A GPU-k terén szerzett kiterjedt hátterének köszönhetően megosztana velünk néhány betekintést a nézeteiről NVIDIA következő generációs GH200 Grace Hopper Superchip platform?

A Grace Hopper architektúra valóban játékot vált. Ha a GPU hatékonyan tud dolgozni a gazdagép RAM-jából anélkül, hogy a számítást teljesen szűk keresztmetszetekbe torkollná, akkor feloldja a jelenleg lehetetlen modell/gyorsító arányokat a képzésben, és ennek eredményeként a kívánt rugalmasságot a betanítási feladatok méretében. Feltételezve, hogy a GH200 teljes készletét nem nyeli el az LLM-képzés, reméljük, hogy felhasználhatjuk multimodális architektúráink prototípus-készítési költségeinek jelentős csökkentésére.

Vannak más chipek, amelyek jelenleg a radaron vannak?

Fő célunk, hogy a felhasználó számára versenyképes árú videótartalmat biztosítsunk. Tekintettel a nagy memóriával rendelkező GPU-k iránti keresletre, folyamatosan optimalizáljuk és kipróbáljuk a legjobb felhőszolgáltatók GPU-felhő-kínálatát. Sőt, arra törekszünk, hogy bizonyos munkaterheléseinknél legalább részben platformfüggetlenek legyünk. Így a TPU-k és más ASIC-k felé figyelünk, és kiemelt figyelmet fordítunk az AMD-re is. Végül minden olyan hardvervezérelt optimalizálási útvonalat megvizsgálunk, amely jobb FLOP/$ arányt eredményezhet.

Mi az elképzelése a videógenerálás jövőbeli fejlődéséről?

24 hónap múlva nem fogjuk tudni megkülönböztetni a generált embert az elfogotttól. Ez sok mindent megváltoztat, és itt vagyunk ezeknek a fejlesztéseknek az élén.

Jelenleg a legtöbb videót számítógépekre és mobileszközökre készítik. Min kell változnia ahhoz, hogy a kibővített valósághoz és a virtuális valósághoz is fotórealisztikusan generált avatarokat és világokat készítsünk?

Jelenleg képesek vagyunk fotorealisztikus avatarok és világok generálására mind a kiterjesztett valósághoz (AR), mind a virtuális valósághoz (VR). Az elsődleges akadály a látencia. Noha létfontosságú a kiváló minőségű, valós idejű grafika eljuttatása olyan szélső eszközökhöz, mint az AR és VR headset, ennek zökkenőmentes elérése több tényezőtől is függ. Mindenekelőtt a forgácsgyártás fejlődésére támaszkodunk a gyorsabb és hatékonyabb feldolgozás érdekében. Emellett az energiafogyasztás optimalizálása kulcsfontosságú a hosszabb használat érdekében, anélkül, hogy az élményt veszélyeztetné. Végül, de nem utolsósorban olyan szoftveres áttörésekre számítunk, amelyek hatékonyan áthidalhatják a szakadékot a generálás és a valós idejű renderelés között. Amint ezek az elemek egyesülnek, a fotorealisztikus avatarok és környezetek felfutását fogjuk látni mind AR, mind VR platformokon.

Mit vársz a következő nagy áttöréstől az AI-ban?

Amikor a mesterséges intelligencia következő jelentős áttöréséről van szó, mindig izgalom és várakozás uralkodik. Bár korábban utaltam néhány előrelépésre, megoszthatom, hogy jelenleg is aktívan dolgozunk több úttörő innováción. Szívesen elmélyülnék a részletekben, de egyelőre arra biztatok mindenkit, hogy tartsa szemmel a közelgő kiadásainkat. A mesterséges intelligencia jövője óriási ígéreteket rejt magában, és nagyon örülünk, hogy ezen úttörő erőfeszítések élére állhatunk. Maradjon velünk!

Van még valami, amit meg szeretne osztani az első órával kapcsolatban?

Feltétlenül nézze meg a discord csatornánkat és az API-t, a platformkínálatunk új kiegészítéseit a címen Egy óra.