Haastattelut
Victor Erukhimov, CraftStoryn toimitusjohtaja – Haastattelusarja

Victor Erukhimov, CraftStoryn toimitusjohtaja, on tietokoneavusteisen näön tutkimus- ja kehitysinsinööri, josta tuli yrittäjä, joka auttoi muotoilemaan OpenCV:n varhaisen kehityksen, myöhemmin perustamalla Itseezin ja johdaten sen teknisestä startupista yhdeksi maailman johtavista tietokoneavusteisen näön tutkimusryhmistä, ennen kuin se myytiin Intelille. Yli vuosikymmenen ajan hän eteni teknisestä johtajasta toimitusjohtajaksi ja jatkoi uraansa Itseez3D:ssa, jossa hän johti edistyneiden mobiili-3D-skannaus- ja avatar-luomisteknologioiden kehittämistä ja toimi myös pitkään OpenCV.orgin hallituksen jäsenenä.
CraftStoryssa hän keskittyy nyt AI-käyttöön perustuvaan videoluomiseen, kehittäen teknologiaa, joka muuttaa yksinkertaiset syötteet erittäin realistisiksi, luojien valmiiksi videoiksi. Hänen johdollaan yritys kehittää seuraavan sukupolven generatiivisia video-malleja, jotka on suunniteltu markkinointitiimille, kouluttajille ja tuotteen tarinankertojille, jotka tarvitsevat nopeaa, laadukasta sisältöä ilman studio-ohjelmia.
Olet ollut voimakas voima joissakin tietokoneavusteisen näön vaikuttavimmista projekteista – OpenCV:stä Itseez3D:hen. Mikä innoitti sinua perustamaan CraftStoryn, ja miten menneisyytesi työ muotoili visiota pitkän, studio-laadukkaan AI-videon luomiseksi?
Ennen CraftStorya, tiimini ja minä työskentelimme Avatar SDK:lla – työkalulla, joka luo realistisia avatareja itsestään VR/AR-, peli-, markkinointi- ja muiden sovellusten käyttöön. Olimme jo ajatellut syvästi digitaalisista ihmisistä useita vuosia. Sitten, noin kaksi vuotta sitten, tajusimme, että GenAI-teknologia videoiden luomiseksi oli riittävän hyvä avataksesi aivan uuden aallon sovelluksia, ja hyppäsimme sisään.
CraftStory käynnistyi OpenCV:n luojien ytimessä. Miten tämä jaettu tausta vaikutti tekniseen suuntaan ja tutkimuksen painopisteisiin Model 2.0:lle?
Elämme poikkeuksellisen edistyksen aikaa tietokoneavusteisessa näössä ja koneoppimisessa. Tuntuu siltä, että kaikki varhaisen kvanttimekaniikan läpimurrot, jotka alun perin olivat levinneet useiden vuosikymmenien ajan, on pakattu vain muutamaan vuoteen. Kuvan ymmärtäminen ja luominen ovat edenneet paljon siitä, mistä työskentelimme OpenCV:n kehittämisen aikana. Havainnoimalla tätä evoluutiota yli vuosikymmenen ajan, tekemällä ennusteita ja näkemällä, miten ne onnistuivat tai epäonnistuivat, olemme saaneet syvän intuitio siitä, mihin teknologia ja markkina ovat menossa. Tämä näkemys muotoili suoraan tutkimuksen painopisteitä ja Model 2.0:n tiestön.
Model 2.0 ratkaisee ongelman, jota monet videomallit kamppailevat: säilyttää identiteetti, tunne ja johdonmukaisuus useiden minuuttien ajan. Mitkä läpimurrot mahdollistivat tämän?
Identiteetti ja johdonmukaisuus ovat olleet prioriteettejämme alusta alkaen. Useat verkoston arkkitehtuurin valinnat suunniteltiin nimenomaan ratkaisemaan nämä haasteet. Mutta yhtä tärkeää oli mallin hienosäätö omilla keräämällämme datalla. Kuvasimme ammattinäyttelijöitä kontrolloidussa studioympäristössä omilla korkean kaistan leveyden kameroiden avulla, varmistaen, että jokainen kehys – mukaan lukien nopeat liikkeet kehossa, käsissä ja sormissa – säilyi terävänä. Taso korkealaatuista, liikkeen rikasta dataa teki merkittävän eron.
Tiimisi esitteli rinnakkaisen difuusioputken pitämään pitkät jaksot yhdenmukaisina. Mikä ongelma tämä suunniteltiin ratkaisemaan, ja miksi se oli olennainen moniminuuttisille ihmiskohtaisille videoille?
Yhden difuusioprosessin suorittaminen pitkän kehysjonojen ajan on erittäin haastavaa – se on laskennallisesti kallista ja vaatii valtavan määrän koulutusdataa. Rinnakkainen difuusioputki ratkaisee tämän suorittamalla useita difuusioprosesseja eri aikajaksoissa samanaikaisesti. Avainläpimurto oli keksiminen, miten nämä jaksoja yhdistetään niin, että ne säilyvät yhdenmukaisina ja johdonmukaisina pitkin pitkiä kestoa. Model 2.0 voi nyt luoda videoita jopa viisi minuuttia, mutta se on pääasiassa tekninen rajoitus. Lisätekniikka työllä voimme laajentaa tämän videoiden pituutta lähes mihin tahansa.
CraftStory korostaa realismin säilyttämistä sekä liikkeessä että ilmeissä. Mitkä olivat haasteellisimmat osat luonnonmukaisen käden, kehon ja kasvojen dynamiikan säilyttämisessä pitempiä kestoa varten?
Suurin haaste on luoda realistista kehon ja kasvojen liikettä johdonmukaisesti pitkin pitkiä kestoa. Pienet yksityiskohdat – kuten hienot käden liikkeet, asennon muutokset tai mikroilmeet – taipuvat usein murtumaan useimmissa malleissa, kun jakso pitenee. Ratkasimme tämän kouluttamalla omalla laajalla, korkealaatuisella datasetillämme, joka on kuvattu ammattinäyttelijöillä ja korkean kaistan leveyden kameroiden avulla. Taso kontrolloidusta, liikkeen rikkaasta kuvamateriaalista antoi mallille signaalin, joka tarvitaan luonnonmukaisten dynamiikoiden säilyttämiseen koko esityksen ajan, eikä vain eristetyissä hetkissä.
Monet yritykset ovat jumiutuneet kalliiden live-kuvausten ja lyhyiden, epäluotettavien AI-klippien välillä. Missä näet suurimman kaupallisen kysynnän nousevan moniminuuttisille, ihmiskeskeisille videoille?
AI-luotujen videoiden tulee nopeasti eroon tunnistettaviksi kameroilla kuvatuista, samalla maksamalla vain murto-osan perinteisen tuotannon kustannuksista. Suurin varhainen kysyntä, jonka näen, on yritysten sisällössä – erityisesti Oppimis- ja Kehittämistoiminnassa – jossa yrityksillä on tarve suurelle määrälle selkeää, ihmiskeskeistä ohjeistusvideoita, jotka voidaan päivittää heti. Moniminuuttiset, johdonmukaiset AI-esittäjät ovat täydellinen vastine tähän.
Näen myös kasvavaa kiinnostusta markkinointitapauksiin, kuten tuotesuosituksiin, opetusohjelmiin ja selityksiin. Kun teknologia kypsyy, pitkäaikainen AI-video korvaa yhä useammin sekä kalliit live-kuvaukset että lyhyet, epäluotettavat klipit, joita useimmat työkalut voivat tuottaa tänään.
Olet kehittänyt edistyneen huulienkynnyksen ja eleiden sopimisen järjestelmän. Kuinka lähellä olemme täysin uskottavasta AI-keskustelusta, ja mitä parantamista tarvitaan?
Luulen, että olemme hyvin lähellä. Yksi teknologian iterointi – erityisesti sen nopeuttamiseksi ja 1080p:n luomiseksi – saa meidät täysin uskottavaan AI-keskusteluun.
Tekstistä videoksi kehittämäsi malli lupailee pitkän aikavälin luomista suoraan käsikirjoituksista. Mitkä ovat tekniset esteet, joita etänä työskentelet ylittääksesi ennen kuin se tulee valtavirtaan?
Ei ole perustavanlaatuisia esteitä – vain paljon tekniikkaa edessä. Videosta videoon oli aluksi helpompi, joten toimme sen markkinoille ensin. Nyt keskitymme kuva-videomalliin, joka ottaa käsikirjoituksen ja viitekuvan syötteenä. Teemme nopeaa edistystä ja toivomme julkaisevamme sen seuraavien viikkojen aikana.
Kävely- ja puhetilanteiden – kuten kävely- ja puhetilannekuvausten – kaltaiset kohtaukset ovat suuri askel kohti elokuvallista automaatiota. Miten tiimisi lähestyy tätä haastetta verrattuna kilpailijoihin, kuten Soraan?
Keskitymme pitkiin kävely- ja puhetilannekuvausten luomiseen – moniminuuttisiin otoksiin, jotka tuntuvat elokuvallisilta ja luonnollisilta. Tavoitteemme on antaa asiakkaille mahdollisuus luoda videoita samanlaisessa tyylissä kuin kuuluisa ”Keep Walking” -kampanja Johnnie Walkerilta, ilman täyttä tuotantoryhmää. Teemme nopeaa edistystä, ja pian pystymme tuottamaan kävely- ja puhetilannekuvausten, jotka kestävät useita minuutteja, ja joissa on johdonmukaiset hahmot, liike ja kameradynaamiikka.
OpenAI:n, Googlen ja muiden ryhdyessä pitkän aikavälin videoihin, mitä näet CraftStoryn etuna tässä kehittyvässä markkinassa?
AI-videomarkkina on erittäin kilpailukykyinen, ja odotamme, että suuret toimijat tulevat teknisesti kiinni. Mutta meidän etumme on fokus ja nopeus. Meillä on hyvin ambioitinen tiekartta, ja olemme lean-tiimi, joka voi liikkua nopeasti ja iteroida nopeasti. Tämä joustavuus – ja fokus pitkään, ihmiskeskeiseen videoon – on se, mikä erottaa CraftStoryn.
Kun AI-luotujen ihmiskeskeiset videot tulevat yhä realistisimmiksi ja skaalautuvammiksi, mitä eettisiä tai luovia suojaustoimia uskot olevan asetettavissa, kun tämä teknologia leviää?
Jokainen voimakas teknologia on kahden käden leikkaus, ja on tärkeää ymmärtää erityisiä riskejä, jotka tulevat sen markkinoille tuomisesta. AI-luotujen ihmiskeskeisissä videoissa, henkilön esittäminen on merkittävin – vaikka ei ainoa – huolenaihe. Olemme viettäneet aikaa analysoimassa näitä riskejä ja toteuttaneet suojaustoimia, jotka estävät tiettyjä haitallisia käyttötapoja. Kun teknologia tulee yhä realistisemmaksi ja skaalautuvammaksi, on tärkeää ylläpitää vahvoja eettisiä ja luovia suojaustoimia koko teollisuudelle.
Kiitos haastattelusta, lukijat, jotka haluavat oppia lisää, voivat vierailla CraftStory:ssa.












