Interviuri
Victor Erukhimov, CEO al CraftStory – Seria de interviuri

Victor Erukhimov, CEO al CraftStory, este un inginer de cercetare și dezvoltare în domeniul viziunii calculate, devenit antreprenor, care a contribuit la evoluția timpurie a OpenCV, pentru a-și continua apoi drumul ca co-fondator al Itseez și pentru a conduce compania de la o startup tehnică la una dintre principalele echipe de cercetare în domeniul viziunii calculate din lume, înainte de a fi achiziționată de Intel. Pe parcursul a peste un deceniu, el a evoluat de la funcția de CTO la cea de CEO și apoi de președinte, continuând această traiectorie și la Itseez3D, unde a condus dezvoltarea tehnologiilor avansate de scanare 3D mobilă și generare de avatare, în timp ce a ocupat și funcția de membru al consiliului de administrație al OpenCV.org.
La CraftStory, el se concentrează acum pe crearea de videoclipuri native AI, construind tehnologie care transformă intrări simple în videoclipuri realiste și gata de utilizare de către creatori. Sub conducerea sa, compania dezvoltă modele generative de videoclipuri de ultimă generație, proiectate pentru echipele de marketing, educatorii și povestitorii de produse care au nevoie de conținut de înaltă calitate și rapid, fără a necesita o echipă de producție completă.
Ai fost o forță motrice în spatele unor dintre cele mai influente proiecte de viziune calculată – de la OpenCV la Itseez3D. Ce te-a inspirat să înființezi CraftStory și cum a influențat munca ta anterioară viziunea pentru videoclipurile cu lungime lungă și de calitate studio?
Înainte de CraftStory, echipa mea și cu mine lucram la Avatar SDK – un instrument care creează avatare realiste din poze pentru VR/AR, jocuri, marketing și alte aplicații. Ne-am gândit profund la oamenii digitali de-a lungul mai multor ani. Apoi, cu aproximativ doi ani în urmă, am realizat că tehnologia GenAI pentru generarea de videoclipuri era suficient de bună pentru a debloca o nouă undă de aplicații și am sărit direct în acțiune.
CraftStory a fost lansat cu creatorii OpenCV în centrul său. Cum a influențat această fundație comună direcția tehnică și prioritățile de cercetare pentru Modelul 2.0?
Trăim într-o perioadă de progres extraordinar în domeniul viziunii calculate și al învățării automate. Se simte ca toate descoperirile din mecanica cuantică timpurie – care au fost inițial răspândite pe decenii – au fost comprimate în doar câțiva ani. Înțelegerea și generarea de imagini au evoluat mult dincolo de ceea ce lucram atunci când am dezvoltat OpenCV. Având în vedere această evoluție de-a lungul a peste un deceniu, făcând predicții și văzându-le reușind sau eșuând, am dobândit o intuiție profundă pentru direcția în care se îndreaptă tehnologia și piața. Această perspectivă a influențat direct prioritățile noastre de cercetare și drumul pentru Modelul 2.0.
Modelul 2.0 abordează ceva cu care se luptă multe modele de videoclipuri: menținerea identității, a emoției și a coerenței pe parcursul a minute de filmare. Care au fost descoperirile care au făcut posibil acest lucru?
Identitatea și coerența au fost prioritățile noastre de la început. Mai multe alegeri arhitecturale în rețea au fost proiectate în mod special pentru a aborda aceste provocări. Dar la fel de important a fost și ajustarea fină a modelului pe date pe care le-am colectat noi înșine. Am filmat actori profesioniști într-un mediu de studio controlat, utilizând camere cu cadru ridicat pentru a ne asigura că fiecare cadru – inclusiv mișcările rapide ale corpului, mâinilor și degetelor – rămâne clar. Acest nivel de date de înaltă calitate și bogate în mișcare a făcut o diferență semnificativă.
Echipa dvs. a introdus o conductă de difuzie paralelizată pentru a menține secvențe lungi coerente. Ce problemă a fost proiectată pentru a o rezolva și de ce a fost esențială pentru videoclipurile umane pe termen lung?
Rularea unui singur proces de difuzie pe o secvență lungă de cadre este extrem de dificilă – este costisitoare din punct de vedere computațional și necesită o cantitate masivă de date de antrenament. Conducta noastră de difuzie paralelizată rezolvă această problemă prin rularea mai multor procese de difuzie pe segmente de timp diferite, simultan. Printr-o descoperire cheie, am reușit să conectăm aceste segmente astfel încât să rămână coerente și consistente pe durate lungi. Modelul 2.0 poate genera acum videoclipuri de până la cinci minute, dar acesta este în principal o limitare tehnică. Cu mai multă muncă de inginerie, putem extinde acest lucru la videoclipuri de lungime practic arbitrară.
CraftStory pune accentul pe realism în mișcare și expresie. Care au fost cele mai mari provocări în păstrarea dinamicii naturale a mâinilor, corpului și feței la durate mai lungi?
Cea mai mare provocare este generarea de mișcări realiste ale corpului și feței consistent pe durate lungi. Detalii mici – precum mișcarea subtilă a mâinilor, schimbarea posturii sau micro-expresiilor – tind să se deterioreze în majoritatea modelelor pe măsură ce secvența devine mai lungă. Am rezolvat această problemă prin antrenarea pe propriul nostru set extins de date de înaltă calitate, capturat cu actori profesioniști și camere cu cadru ridicat. Acest nivel de filmări controlate și bogate în mișcare a oferit modelului semnalul necesar pentru a păstra dinamica naturală pe întreaga performanță, nu doar în momente izolate.
Multe companii sunt blocate între filmări live scumpe și clipuri AI scurte și neverosimile. Unde vedeți cea mai mare cerere comercială emergentă pentru videoclipuri umane pe termen lung, cu durată de minute?
Videoclipurile generate de AI devin rapid de nedisctinse de filmările realizate cu cameră, în timp ce costă doar o fracțiune din producția tradițională. Cea mai mare cerere pe care o vedem la început este în conținutul corporativ – în special învățarea și dezvoltarea – unde companiile au nevoie de volume mari de videoclipuri instructive clare și centrate pe oameni, care pot fi actualizate instantaneu. Prezentatorii AI multi-minute și consecvenți sunt o potrivire perfectă pentru aceasta.
De asemenea, vedem un interes crescând în cazurile de utilizare a marketingului, cum ar fi prezentările de produse, tutorialele și explicațiile. Pe măsură ce tehnologia se maturizează, videoclipurile lungi AI vor înlocui din ce în ce mai mult atât filmările live scumpe, cât și clipurile scurte și neverosimile pe care majoritatea instrumentelor le pot produce astăzi.
Ai construit un sistem avansat de sincronizare a buzelor și alinierii gesturilor. Cât de departe suntem de dialogul AI pe deplin convingător și ce mai necesită îmbunătățiri?
Cred că suntem foarte aproape. O singură iterație a tehnologiei – în special pentru a o face mai rapidă și pentru a genera 1080p nativ – ne va aduce la dialogul AI pe deplin convingător.
Modelul dvs. text-la-videoclip pe care îl dezvoltați promite generare pe termen lung direct din scripturi. Care sunt barierelor tehnice pe care le mai lucrați pentru a le depăși înainte ca aceasta să devină mainstream?
Nu există barieră fundamentală – doar o mulțime de muncă de inginerie înainte. De la videoclip la videoclip a fost roada mai ușoară, așa că am adus-o pe piață mai întâi. Acum ne concentrăm pe modelul imagine-la-videoclip care ia un script și o imagine de referință ca intrare. Facem progrese rapide și sperăm să-l lansăm în următoarele câteva săptămâni.
Secvențele cu cameră în mișcare – precum secvențele “plimbă-te și vorbește” – sunt un pas major către automatizarea cinematografică. Cum abordați această provocare în comparație cu competitori precum Sora?
Ne concentrăm pe generarea de secvențe lungi de “plimbă-te și vorbește” – secvențe de multi-minute care par cinematografice și naturale. Obiectivul nostru este de a oferi clienților posibilitatea de a crea videoclipuri în stilul celebrei campanii “Continuă să mergi” de la Johnnie Walker, dar fără o echipă de producție completă. Facem progrese rapide și foarte curând vom putea produce secvențe de “plimbă-te și vorbește” care rulează timp de mai multe minute, cu personaje, mișcări și dinamici de cameră consistente.
Cu OpenAI, Google și alții intrând în cursa pentru videoclipuri lungi, ce considerați că este avantajul CraftStory în această piață emergentă?
Piața videoclipurilor AI este incredibil de competitivă și ne așteptăm ca jucătorii mari să se recupereze din punct de vedere tehnologic. Dar avantajul nostru este focalizarea și viteza. Avem un drum ambițios și suntem o echipă mică care poate să se miște rapid și să iterateze rapid. Această agilitate – și focalizarea noastră pe videoclipuri lungi și centrate pe oameni – este ceea ce diferențiază CraftStory.
Pe măsură ce videoclipurile umane generate de AI devin mai realiste și mai scalabile, ce garduri etice sau creative considerați că ar trebui să fie în loc pentru a preveni utilizarea necorespunzătoare a acestei tehnologii?
Orice tehnologie puternică este o sabie cu două tăișuri și este crucial să înțelegem riscurile specifice care vin odată cu aducerea ei pe piață. În cazul videoclipurilor umane generate de AI, impersonarea este cea mai semnificativă, deși nu singura, preocupare. Am analizat aceste riscuri și am implementat garduri care previn anumite cazuri de utilizare dăunătoare. Pe măsură ce tehnologia devine mai realistă și mai scalabilă, menținerea unor protecții etice și creative puternice va fi esențială pentru întreaga industrie.
Mulțumim pentru acest interviu minunat; cititorii care doresc să afle mai multe pot vizita CraftStory.












