Intervijas

Liors Hakims, pirmās stundas interviju sērijas līdzdibinātājs un CTO

Izdots

pirms 8 mēnešiem

Septembris 1, 2023

Liors Hakims, uzņēmuma līdzdibinātājs un galvenais tehniskais vadītājs Pirmā stunda, nozares līderis virtuālo cilvēku izstrādē profesionālai video saziņai. Reālistiski virtuālie varoņi, kas veidoti tikai pēc reāliem cilvēkiem, pauž cilvēkiem līdzīgu izteiksmīgumu, izmantojot tekstu, dodot uzņēmumiem iespēju uzlabot ziņojumapmaiņu ar nepārspējamu vieglumu un mērogojamību.

Vai jūs varētu padalīties ar pirmās stundas rašanās stāstu?

Pirmās stundas pirmsākumi meklējami manā līdzdalībā kriptogrāfijas domēnā. Pēc šī mēģinājuma es sāku apdomāt, kas būtu nākamā lielā lieta, ko varētu izmantot masu mākoņdatošana, un, tā kā mašīnmācība kļuva arvien populārāka ieteikumos un paredzamajā analīzē, es strādāju pie dažiem ar ML infrastruktūru saistītiem projektiem. Ar šo darbu es iepazinos ar agrīnajiem ģeneratīvajiem darbiem un tajā laikā īpaši interesējos par GAN. Es izmantoju visus aprēķinus, kas man bija pieejami, lai pārbaudītu šīs toreizējās jaunās tehnoloģijas. Parādot savus rezultātus draugam, kuram bija uzņēmums šajā jomā, viņš man teica, ka man jāsatiek Orens. Kad jautāju, kāpēc, viņš man atbildēja, ka varbūt mēs abi beigsim tērēt viņa laiku un tērēsim viens otra laiku. Orens, mans Hour One līdzdibinātājs un izpilddirektors, tajā laikā bija agrīns AI investors. un, kamēr mēs stāvējām dažādās vietās, mēs abi virzījāmies vienā virzienā, un pirmās stundas dibināšana, lai kļūtu par virtuālā cilvēka mājām, bija neizbēgams ceļojums.

Kādi ir daži no mašīnmācīšanās algoritmiem, kas tiek izmantoti, un kāda procesa daļa ir ģeneratīvais AI?

Video veidošanas jomā mašīnmācīšanās algoritmi ir noderīgi katrā posmā. Skriptēšanas fāzē lielie valodu modeļi (LLM) piedāvā nenovērtējamu atbalstu, veidojot vai uzlabojot saturu, lai nodrošinātu pārliecinošus stāstījumus. Pārejot uz audio, teksta pārvēršanas runā (TTS) algoritmi pārvērš tekstu dabiskās, emocionālās balsīs. Pārejot uz vizuālo attēlojumu, mūsu patentētais virtuālā cilvēka multimodālais pamatmodelis ieņem galveno vietu. Šis modelis, kas uzlabots ar ģeneratīviem pretrunīgiem tīkliem (GAN) un variācijas automātiskajiem kodētājiem (VAE), ir prasmīgs kontekstuālu emociju, izteikumu un artikulēta, valdzinoša un autentiska piegādei. Šādas ģeneratīvas metodes pārvērš tekstu un audio norādes par reālistisku virtuālo cilvēku vizuālo materiālu, radot hiperreālistiskus video rezultātus. LLM, TTS, GAN, VAE un mūsu multimodālā modeļa orķestrēšana padara ģeneratīvo AI ne tikai daļu, bet arī mūsdienu video veidošanas mugurkaulu.

Kā Hour One atšķiras no konkurējošiem video ģeneratoriem?

Pirmajā stundā mūsu atšķirību no citiem video ģeneratoriem neizraisa aizraušanās ar konkurenci, bet gan dziļi iesakņojusies filozofija, kas nosaka mūsu pieeju kvalitātei, produktu dizainam un tirgus stratēģijai. Mūsu pamatprincips ir vienmēr piešķirt prioritāti cilvēciskajam elementam, nodrošinot, ka mūsu darbi rezonē ar autentiskumu un emocijām. Mēs lepojamies ar to, ka bez kompromisiem piedāvājam vislabāko kvalitāti šajā nozarē. Izmantojot uzlabotu 3D video renderēšanu, mēs saviem lietotājiem sniedzam īstu kino pieredzi. Turklāt mūsu stratēģijai ir unikāls viedoklis; mēs sākam ar noslīpētu izstrādājumu un pēc tam strauji atkārtojam pilnību. Šī pieeja nodrošina, ka mūsu piedāvājumi vienmēr ir soli priekšā, nosakot jaunus etalonus video ģenerēšanā.

Ņemot vērā jūsu plašo pieredzi GPU jomā, varat dalīties ar mums ieskatos par saviem uzskatiem par NVIDIA nākamās paaudzes GH200 Grace Hopper Superchip platforma?

Grace Hopper arhitektūra patiesi maina spēli. Ja GPU var efektīvi strādāt no sava resursdatora RAM, pilnībā neapgrūtinot aprēķinus, tas atbloķē pašlaik neiespējamās modeļa/paātrinātāja attiecības apmācībā un rezultātā tik ļoti vēlamo elastību apmācību darbu lielumos. Pieņemot, ka visu GH200 krājumu neapgūs LLM apmācība, mēs ceram to izmantot, lai ievērojami samazinātu mūsu multimodālo arhitektūru prototipēšanas izmaksas.

Vai jūsu radarā pašlaik ir kādas citas mikroshēmas?

Mūsu galvenais mērķis ir nodrošināt lietotājam video saturu, kura cena ir konkurētspējīga. Ņemot vērā pieprasījumu pēc lielas atmiņas GPU, mēs pastāvīgi optimizējam un izmēģinām jebkuru GPU mākoņa piedāvājumu, ko piedāvā labākie mākoņpakalpojumu sniedzēji. Turklāt mēs cenšamies būt vismaz daļēji neatkarīgi no platformas attiecībā uz dažām mūsu darba slodzēm. Tādējādi mēs skatāmies uz TPU un citiem ASIC, kā arī pievēršam īpašu uzmanību AMD. Galu galā tiks izpētīts jebkurš aparatūras vadīts optimizācijas ceļš, kas var nodrošināt labāku FLOP/$ attiecību.

Kāds ir jūsu redzējums par turpmākajiem sasniegumiem video ģenerēšanā?

Pēc 24 mēnešiem mēs nevarēsim atšķirt ģenerētu cilvēku no sagūstītā. Tas mainīs daudzas lietas, un mēs esam šo sasniegumu priekšgalā.

Pašlaik lielākā daļa ģenerēto videoklipu ir paredzēti datoriem un mobilajām ierīcēm. Kas ir jāmaina, lai mēs iegūtu fotoreālistiskus iemiesojumus un pasaules gan paplašinātajai realitātei, gan virtuālajai realitātei?

Šobrīd mums ir iespēja ģenerēt fotoreālistiskus iemiesojumus un pasaules gan paplašinātajai realitātei (AR), gan virtuālajai realitātei (VR). Galvenais šķērslis ir latentums. Lai gan augstas kvalitātes reāllaika grafikas piegāde uz malām ierīcēm, piemēram, AR un VR austiņām, ir ļoti svarīga, lai to panāktu nevainojami, ir jāņem vērā vairāki faktori. Pirmkārt, mēs paļaujamies uz sasniegumiem mikroshēmu ražošanā, lai nodrošinātu ātrāku un efektīvāku apstrādi. Līdztekus tam ir ļoti svarīgi optimizēt enerģijas patēriņu, lai nodrošinātu ilgāku lietošanu, neapdraudot pieredzi. Visbeidzot, mēs paredzam programmatūras sasniegumus, kas var efektīvi pārvarēt plaisu starp ģenerēšanu un reāllaika renderēšanu. Šiem elementiem apvienojoties, mēs redzēsim fotoreālistisku iemiesojumu un vides izmantošanas pieaugumu gan AR, gan VR platformās.

Kāds, jūsuprāt, būs nākamais lielais izrāviens AI jomā?

Runājot par nākamo nozīmīgo izrāvienu AI jomā, vienmēr valda satraukums un gaidas. Lai gan es jau iepriekš minēju dažus sasniegumus, varu dalīties ar to, ka mēs šobrīd aktīvi strādājam pie vairākiem revolucionāriem jauninājumiem. Es labprāt iedziļināties specifikā, taču pagaidām aicinu visus sekot līdzi mūsu gaidāmajiem izdevumiem. AI nākotne ir ļoti daudzsološa, un mēs esam priecīgi būt šo novatorisko darbu priekšgalā. Sekojiet līdzi!

Vai ir vēl kaut kas, ko vēlaties padalīties par pirmo stundu?

Jums noteikti vajadzētu apskatīt mūsu discord kanālu un API, jaunus papildinājumus mūsu platformas piedāvājumam vietnē Pirmā stunda.