Հարցազրույցներ

Lior Hakim, Hour One – Interview Series-ի համահիմնադիր և CTO

Հրատարակված է

8 ամիս առաջ

Սեպտեմբեր 1, 2023

Lior Hakim, համահիմնադիր և գլխավոր տեխնիկական տնօրեն մեկ ժամ, արդյունաբերության առաջատարը վիրտուալ մարդկանց արհեստավարժ վիդեո հաղորդակցության համար: Կենդանական վիրտուալ կերպարները, որոնք մոդելավորվել են բացառապես իրական մարդկանց հիման վրա, տեքստի միջոցով փոխանցում են մարդու նման արտահայտչականություն՝ թույլ տալով բիզնեսներին բարձրացնել իրենց հաղորդագրությունները անզուգական հեշտությամբ և մասշտաբայնությամբ:

Կարո՞ղ եք կիսվել Ծննդոցի պատմությունով, որը հետևում է Hour One-ին:

Hour One-ի ծագումը կարելի է գտնել կրիպտո տիրույթում իմ մասնակցությամբ: Հրապարակելով այդ ջանքերը, ես սկսեցի խորհել, թե որն է լինելու հաջորդ մեծ բանը, որին կարող է օգտվել զանգվածային ամպային հաշվարկը, և քանի որ մեքենայական ուսուցումը դառնում էր հանրաճանաչ առաջարկություններում և կանխատեսող վերլուծություններում, ես աշխատում էի ML ենթակառուցվածքի հետ կապված մի քանի նախագծերի վրա: Այս աշխատանքի միջոցով ես ծանոթացա վաղ գեներատիվ աշխատանքներին և հատկապես հետաքրքրվեցի այն ժամանակվա GAN-ներով: Ես օգտագործում էի այն բոլոր հաշվարկները, որոնք կարող էի ձեռքս ընկնել՝ փորձարկելու այդ այն ժամանակվա նոր տեխնոլոգիաները: Երբ իմ արդյունքները ցույց տվեցի ընկերոջը, ով ընկերություն ուներ ոլորտում, նա ինձ ասաց, որ պետք է հանդիպեմ Օրենի հետ: Երբ հարցրի, թե ինչու, նա ինձ ասաց, որ գուցե երկուսս էլ դադարենք վատնել իր ժամանակը և վատնել միմյանց ժամանակը։ Օրենը, Hour One-ի իմ համահիմնադիրն ու գործադիր տնօրենը, այդ ժամանակ AI-ի վաղ ներդրողն էր: և մինչ մենք կանգնած էինք տարբեր վայրերում, մենք երկուսս էլ շարժվում էինք նույն ուղղությամբ, և Վիրտուալ մարդու տուն լինելու համար Hour One-ի հիմնադրումը անխուսափելի ճանապարհորդություն էր:

Որո՞նք են մեքենայական ուսուցման որոշ ալգորիթմներ, որոնք օգտագործվում են, և գործընթացի ո՞ր մասն է կազմում Generative AI-ն:

Տեսանյութերի ստեղծման ոլորտում մեքենայական ուսուցման ալգորիթմները գործիքային են յուրաքանչյուր փուլում: Սցենարավորման փուլում Large Language Models-ը (LLM) առաջարկում է անգնահատելի աջակցություն, բովանդակություն մշակելու կամ կատարելագործելու համար՝ ապահովելու ազդեցիկ պատմություններ: Երբ անցնում ենք աուդիո, Text-to-Speech (TTS) ալգորիթմները տեքստը վերածում են օրգանական, էմոցիոնալ ձայների: Վիզուալ ներկայացմանն անցնելով՝ վիրտուալ մարդու մեր սեփական Մուլտիմոդալ հիմնարար մոդելը կենտրոնական տեղ է գրավում: Այս մոդելը, որն ընդլայնվել է Generative Adversarial Networks (GANs) և Variational Autoencoders (VAEs) միջոցով, հմուտ է համատեքստային էմոցիաներ, արտասանություն և արտահայտված, գրավիչ և իսկական առաքում փոխանցելու հարցում: Նման գեներատիվ մեթոդները տեքստային և աուդիո ազդանշանները վերածում են վիրտուալ մարդկանց իրական վիզուալների՝ հանգեցնելով հիպերիրատեսական վիդեո ելքերի: LLM-ների, TTS-ների, GAN-ների, VAE-ների և մեր մուլտիմոդալ մոդելի կազմակերպումը Generative AI-ն դարձնում է ոչ միայն ժամանակակից վիդեո արտադրության մի մասը, այլև ողնաշարը:

Ինչպե՞ս է Hour One-ը տարբերվում իրեն մրցակցող վիդեո գեներատորներից:

Hour One-ում մեր տարբերությունը այլ տեսանյութերի գեներատորներից բխում է ոչ թե մրցակցությամբ զբաղվածությունից, այլ ավելի շուտ խորապես արմատավորված փիլիսոփայությունից, որը կարգավորում է որակի, արտադրանքի ձևավորման և շուկայական ռազմավարության մեր մոտեցումը: Մեր հիմնական սկզբունքն է միշտ առաջնահերթություն տալ մարդկային տարրին՝ ապահովելով մեր ստեղծագործությունների ռեզոնանսը իսկականության և զգացմունքների հետ: Մենք հպարտ ենք արդյունաբերության մեջ լավագույն որակի մատուցմամբ՝ առանց փոխզիջումների: Օգտագործելով առաջադեմ 3D տեսանյութերի ցուցադրում, մենք մեր օգտատերերին տրամադրում ենք իսկական կինոարվեստ: Ավելին, մեր ռազմավարությունը եզակի կարծիքի է. մենք սկսում ենք հղկված արտադրանքից և այնուհետև արագորեն կրկնում ենք դեպի կատարելությունը: Այս մոտեցումը երաշխավորում է, որ մեր առաջարկները միշտ մի քայլ առաջ են՝ սահմանելով նոր չափանիշներ տեսահոլովակների արտադրության մեջ:

Գրաֆիկական պրոցեսորների ձեր լայնածավալ նախադրյալով, կարող եք կիսվել մեզ հետ ձեր տեսակետների վերաբերյալ որոշ պատկերացումներով NVIDIA հաջորդ սերնդի GH200 Grace Hopper սուպերչիպերի հարթակ?

Գրեյս Հոփերի ճարտարապետությունը իսկապես փոխում է խաղը: Եթե GPU-ն կարող է արդյունավետորեն աշխատել իր հյուրընկալողի RAM-ից՝ առանց հաշվարկն ամբողջությամբ խափանելու, ապա այն բացում է ներկայումս անհնար մոդել/արագացուցիչի գործակիցները վերապատրաստման ժամանակ, և արդյունքում՝ շատ ցանկալի ճկունություն վերապատրաստման աշխատանքների չափերի մեջ: Ենթադրելով, որ GH200-ի ամբողջ պաշարը չի կուլ տա LLM-ի ուսուցումը, մենք հուսով ենք, որ այն կօգտագործենք՝ մեր բազմամոդալ ճարտարապետության նախատիպավորման ծախսերը զգալիորեն նվազեցնելու համար:

Կա՞ն այլ չիպեր, որոնք ներկայումս գտնվում են ձեր ռադարում:

Մեր հիմնական նպատակն է օգտատիրոջը գների մրցունակ վիդեո բովանդակություն տրամադրել: Հաշվի առնելով այս պահին մեծ հիշողության GPU-ների պահանջարկը, մենք անընդհատ օպտիմիզացնում և փորձում ենք ցանկացած GPU ամպային առաջարկ լավագույն ամպային ծառայություններ մատուցողների համար: Ավելին, մենք ձգտում ենք գոնե մասամբ անկախ լինել մեր աշխատանքային ծանրաբեռնվածությունից: Այսպիսով, մենք ուշադրություն ենք դարձնում TPU-ներին և այլ ASIC-ներին, ինչպես նաև մեծ ուշադրություն ենք դարձնում դրամին: Ի վերջո, կուսումնասիրվի ապարատային ղեկավարվող օպտիմալացման ցանկացած երթուղի, որը կարող է հանգեցնել ավելի լավ FLOP/$ հարաբերակցության:

Ինչպիսի՞ն է ձեր տեսլականը վիդեո սերնդի հետագա առաջընթացի համար:

24 ամսից մենք չենք կարողանա գեներացված մարդուն տարբերել գերվածից: Դա շատ բան կփոխի, և մենք այստեղ ենք այդ առաջընթացների առաջնագծում:

Այս պահին ստեղծվող տեսանյութերի մեծ մասը նախատեսված է համակարգիչների և շարժական սարքերի համար, ի՞նչ պետք է փոխվի, որպեսզի ունենանք լուսանկարների իրատեսական ստեղծած ավատարներ և աշխարհներ ինչպես ընդլայնված իրականության, այնպես էլ վիրտուալ իրականության համար:

Այս պահի դրությամբ մենք ունենք ֆոտոռեալիստական ավատարներ և աշխարհներ ստեղծելու հնարավորություն ինչպես ընդլայնված իրականության (AR), այնպես էլ վիրտուալ իրականության (VR) համար: Առաջնային խոչընդոտը ուշացումն է: Թեև բարձրորակ, իրական ժամանակի գրաֆիկայի առաքումը ծայրամասային սարքերին, ինչպիսիք են AR և VR ականջակալները, կենսական նշանակություն ունեն, դրան անխափան կերպով հասնելը պայմանավորված է մի քանի գործոններով: Ամենից առաջ մենք ապավինում ենք չիպերի արտադրության առաջընթացին՝ ապահովելու ավելի արագ և արդյունավետ մշակումը: Դրա հետ մեկտեղ, էներգիայի սպառման օպտիմիզացումը շատ կարևոր է ավելի երկար օգտագործում ապահովելու համար՝ առանց փորձը խախտելու: Վերջին, բայց ոչ պակաս կարևորը, մենք ակնկալում ենք ծրագրային առաջընթացներ, որոնք կարող են արդյունավետորեն կամրջել գեներացման և իրական ժամանակում մատուցման միջև առկա բացը: Երբ այս տարրերը միավորվեն, մենք կտեսնենք ֆոտոռեալիստական ավատարների և միջավայրերի օգտագործման աճ ինչպես AR, այնպես էլ VR հարթակներում:

Ի՞նչ եք ակնկալում, որ կլինի AI-ի հաջորդ մեծ առաջընթացը:

Երբ խոսքը վերաբերում է AI-ի հաջորդ նշանակալից առաջընթացին, միշտ կա հուզմունքի և սպասումների մթնոլորտ: Թեև ես ավելի վաղ ակնարկել եմ որոշ առաջընթացների մասին, այն, ինչ կարող եմ կիսվել, այն է, որ մենք ակտիվորեն աշխատում ենք մի քանի բեկումնային նորարարությունների վրա հենց այս պահին: Ես կցանկանայի խորանալ մանրամասների մեջ, բայց առայժմ բոլորին խրախուսում եմ հետևել մեր առաջիկա թողարկումներին: AI-ի ապագան հսկայական խոստումնալից է, և մենք ոգևորված ենք այս առաջնահերթ ջանքերի առաջնագծում լինելու համար: Մնացեք մեզ հետ!

Կա՞ որևէ այլ բան, որով կցանկանայիք կիսվել Hour One-ի մասին:

Դուք անպայման պետք է ստուգեք մեր տարաձայնությունների ալիքը և API-ն, մեր հարթակում առաջարկվող նոր հավելումները մեկ ժամ.