Connect with us

Victor Erukhimov, CEO CraftStory – Wywiad z serii

Wywiady

Victor Erukhimov, CEO CraftStory – Wywiad z serii

mm

Victor Erukhimov, CEO CraftStory, jest inżynierem badawczym z dziedziny komputerowego widzenia, który przekształcił się w przedsiębiorcę i pomógł ukształtować wczesną ewolucję OpenCV, a następnie współzałożył Itseez i poprowadził ją od startupu technologicznego do jednego z wiodących zespołów badawczych komputerowego widzenia na świecie, zanim została przejęta przez Intel. Przez ponad dekadę awansował od stanowiska CTO do CEO, a następnie do Prezesa, i kontynuował tę ścieżkę w Itseez3D, gdzie kierował rozwojem zaawansowanych technologii skanowania 3D i generowania awatarów na urządzeniach mobilnych, jednocześnie pełniąc funkcję długoletniego członka zarządu OpenCV.org.

W CraftStory skupia się teraz na tworzeniu AI-natywnych filmów wideo, budując technologię, która przekształca proste dane wejściowe w bardzo realistyczne, gotowe do użycia filmy. Pod jego kierownictwem firma rozwija kolejne generacyjne modele wideo przeznaczone dla zespołów marketingowych, edukatorów i twórców produktów, którzy potrzebują szybko wysokiej jakości treści bez nakładów studia.

Jesteś siłą napędową za niektórymi z najbardziej wpływowych projektów z dziedziny komputerowego widzenia – od OpenCV do Itseez3D. Co zainspirowało Cię do założenia CraftStory, i jak Twoja poprzednia praca ukształtowała wizję długich, studialnych filmów wideo AI?

Przed CraftStory, moja drużyna i ja pracowaliśmy nad Avatar SDK – narzędziem, które tworzy realistyczne awatary z selfie dla VR/AR, gier, marketingu i innych aplikacji. Już wcześniej głęboko zastanawialiśmy się nad ludźmi cyfrowymi. Następnie, około dwa lata temu, zrealizowaliśmy, że technologia GenAI do generowania filmów wideo jest wystarczająco dobra, aby odblokować zupełnie nową falę aplikacji, i od razu w to weszliśmy.

CraftStory rozpoczęło się z twórcami OpenCV w swoim rdzeniu. Jak to wspólne tło wpłynęło na kierunek techniczny i priorytety badawcze dla Modelu 2.0?

Żyjemy w okresie nadzwyczajnego postępu w dziedzinie komputerowego widzenia i uczenia maszynowego. Wydaje się, że wszystkie przełomy wczesnej mechaniki kwantowej – pierwotnie rozciągnięte na dekady – zostały ściśnięte w zaledwie kilka lat. Zrozumienie i generowanie obrazów posunęły się znacznie dalej niż to, z czym pracowaliśmy przy tworzeniu OpenCV. Obserwując tę ewolucję przez ponad dekadę, robienie przewidywań i widzenie, czy się powiodły, czy nie, zdobyliśmy głębokie intuicje, gdzie technologia i rynek są skierowane. Ta perspektywa bezpośrednio ukształtowała nasze priorytety badawcze i mapę drogową dla Modelu 2.0.

Model 2.0 rozwiązuje coś, z czym wiele modeli filmów wideo się boryka: utrzymanie tożsamości, emocji i spójności przez minuty filmu. Jakie przełomy umożliwiły to?

Tożsamość i spójność były naszymi priorytetami od samego początku. Kilka wyborów architektonicznych w sieci zostało specjalnie zaprojektowanych, aby rozwiązać te wyzwania. Ale równie ważne było dostosowanie modelu do danych, które sami zebraliśmy. Nagraliśmy profesjonalnych aktorów w kontrolowanym środowisku studia, używając naszych własnych kamer o wysokiej częstotliwości, aby upewnić się, że każdy klatka – w tym szybkie ruchy ciała, rąk i palców – pozostał ostry. Ten poziom wysokiej jakości, bogatych w ruch danych, zrobił znaczącą różnicę.

Twoja drużyna wprowadziła zrównoleglony proces dyfuzji, aby utrzymać długie sekwencje spójne. Jaki problem został zaprojektowany do rozwiązania, i dlaczego był on niezbędny dla wielominutowych filmów wideo z ludźmi?

Uruchomienie jednego procesu dyfuzji na długiej sekwencji klatek jest niezwykle trudne – jest to kosztowne obliczeniowo i wymaga ogromnej ilości danych szkoleniowych. Nasz zrównoleglony proces dyfuzji rozwiązuje to, uruchamiając wiele procesów dyfuzji na różnych segmentach czasowych jednocześnie. Kluczowym przełomem było ustalenie, jak połączyć te segmenty, aby pozostały spójne i konsekwentne przez dłuższy czas. Model 2.0 może teraz generować filmy wideo do pięciu minut, ale to głównie ograniczenie techniczne. Z większymi pracami inżynieryjnymi możemy wydłużyć to do filmów o praktycznie dowolnej długości.

CraftStory kładzie nacisk na realizm w ruchu i wyrażaniu. Jakie były najtrudniejsze wyzwania w zachowaniu naturalnych ruchów rąk, ciała i twarzy w dłuższych sekwencjach?

Największym wyzwaniem jest generowanie realistycznych ruchów ciała i twarzy konsekwentnie przez dłuższy czas. Małe szczegóły – takie jak subtelne ruchy rąk, zmiany postawy lub mikro-wyrażenia – tendencję do łamania w większości modeli, gdy sekwencja staje się dłuższa. Rozwiązaliśmy to, szkoląc się na naszym własnym, obszernym, wysokiej jakości zestawie danych, nagranym z profesjonalnymi aktorami i kamerami o wysokiej częstotliwości. Ten poziom kontrolowanego, bogatego w ruch materiału dał modelowi sygnał, którego potrzebował, aby zachować naturalne dynamiki przez całą prezentację, a nie tylko w izolowanych momentach.

Wiele firm utknęło pomiędzy drogimi sesjami zdjęciowymi a krótkimi, niewiarygodnymi klipami AI. Gdzie widzisz największe komercyjne zapotrzebowanie na wielominutowe, skupione na ludziach filmy wideo?

Filmy wideo generowane przez AI stają się szybko nieodróżnialne od filmów nakręconych kamerą, a jednocześnie kosztują ułamek tradycyjnej produkcji. Największe wczesne zapotrzebowanie, które widzimy, jest w treściach korporacyjnych – szczególnie w dziale Nauczania i Rozwoju – gdzie firmy potrzebują dużych ilości jasnych, ludzkich instruktażowych filmów wideo, które mogą być zaktualizowane natychmiast. Wielominutowi, konsekwentni prezentatorzy AI są idealnym rozwiązaniem dla tego.

Widzimy również rosnące zainteresowanie przypadkami użycia w marketingu, takimi jak wprowadzenia produktów, tutoriale i objaśnienia. W miarę dojrzewania technologii, długie filmy wideo AI będą coraz częściej zastępować zarówno drogie sesje zdjęciowe, jak i krótkie, niewiarygodne klipy, które większość narzędzi może produkować dzisiaj.

Zbudowałeś zaawansowany system synchronizacji ruchu warg i wyrównania gestów. Jak daleko jesteśmy od w pełni wiarygodnego dialogu AI?

Myślę, że jesteśmy bardzo blisko. Jeszcze jeden przełom technologiczny – szczególnie aby uczynić go szybszym i wygenerować rodzime 1080p – dostanie nas do w pełni wiarygodnego dialogu AI.

Model tekst-wideo, który rozwijasz, obiecuje długie generowanie bezpośrednio z scenariuszy. Jakie techniczne bariery nadal musisz pokonać, zanim to stanie się powszechne?

Nie ma podstawowych barier – po prostu wiele pracy inżynieryjnej przed nami. Video-to-video było owocem wiszącym na niższej gałęzi, więc wprowadziliśmy to na rynek jako pierwsze. Teraz koncentrujemy się na modelu obraz-wideo, który pobiera scenariusz i odniesienie do obrazu jako dane wejściowe. Robimy szybki postęp i mamy nadzieję, że wydamy to w ciągu kilku najbliższych tygodni.

Sekwencje z ruchomą kamerą – takie jak ujęcia “chodź i rozmawiaj” – są dużym krokiem w stronę automatyzacji filmowej. Jak Twoja drużyna podchodzi do tego wyzwania w porównaniu z konkurentami, takimi jak Sora?

Koncentrujemy się na generowaniu długich sekwencji “chodź i rozmawiaj” – wielominutowych ujęć, które wyglądają jak filmy i naturalne. Naszym celem jest dać klientom możliwość tworzenia filmów w stylu słynnej kampanii “Keep Walking” Johnnie Walkera, ale bez pełnego zespołu produkcyjnego. Robimy szybki postęp, i bardzo szybko będziemy w stanie produkować sekwencje “chodź i rozmawiaj”, które potrwają kilka minut z konsekwentnymi postaciami, ruchem i dynamiką kamery.

Z OpenAI, Google i innymi, które wkraczają w długie filmy wideo, co widzisz jako przewagę CraftStory na tym wschodzącym rynku?

Rynek filmów wideo AI jest niezwykle konkurencyjny, i spodziewamy się, że duzi gracze dogonią nas technologicznie. Ale nasza przewaga tkwi w skupieniu i szybkości. Mamy bardzo ambitną mapę drogową, i jesteśmy zwiną drużyną, która może poruszać się szybko i iterować szybko. Ta elastyczność – oraz nasze skupienie na długich, ludzkich filmach wideo AI – jest tym, co wyróżnia CraftStory.

Jak AI-generowane filmy wideo z ludźmi stają się bardziej realistyczne i skalowalne, jakie środki ostrożności etyczne lub twórcze powinny być wprowadzone, gdy ta technologia się rozprzestrzenia?

Każe potężna technologia jest obosiecznym mieczem, i jest kluczowe, aby zrozumieć specyficzne ryzyka, które przychodzą z wprowadzeniem jej na rynek. W AI-generowanych filmach wideo z ludźmi, oszustwo jest największym – choć nie jedynym – problemem. Spędziliśmy czas na analizowaniu tych ryzyk i wdrożeniu środków ostrożności, które zapobiegają pewnym szkodliwym przypadkom użycia. W miarę jak technologia staje się bardziej realistyczna i skalowalna, utrzymanie silnych ochron etycznych i twórczych będzie niezbędne dla całej branży.

Dziękujemy za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić CraftStory.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.