Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

Generera bÀttre AI-video frÄn bara tvÄ bilder

mm

publicerade

 on

Bilder frÄn den medföljande YouTube-videon till tidningen 'Framer: Interactive Frame Interpolation'. KÀlla: https://www.youtube.com/watch?v=4MPGKgn7jRc

Videoraminterpolation (VFI) Àr en öppet problem i generativ videoforskning. Utmaningen Àr att generera mellanliggande bildrutor mellan tvÄ befintliga bildrutor i en videosekvens.

Klicka för att spela. FILM-ramverket, ett samarbete mellan Google och University of Washington, föreslog en effektiv raminterpolationsmetod som fortfarande Àr populÀr inom hobby- och professionella sfÀrer. Till vÀnster kan vi se de tvÄ separata och distinkta ramarna överlagrade; i mitten, 'slutramen'; och till höger den slutliga syntesen mellan ramarna. KÀllor: https://film-net.github.io/ och https://arxiv.org/pdf/2202.04901

I stort sett gÄr denna teknik tillbaka över ett sekel och har varit det anvÀnds i traditionell animation sedan dess. I det sammanhanget skulle master-"keyframes" genereras av en frÀmsta animationsartist, medan arbetet med att "tweena" mellanliggande frames skulle utföras som av andra anstÀllda, som en mer ointressant uppgift.

Före framvĂ€xten av generativ AI anvĂ€ndes raminterpolation i projekt som t.ex Mellanflödesuppskattning i realtid (UTBREDD), Djupmedveten videoraminterpolation (DAIN) och Googles Raminterpolation för stor rörelse (FILM – se ovan) i syfte att öka bildfrekvensen för en befintlig video, eller möjliggöra artificiellt genererade slowmotion-effekter. Detta Ă„stadkoms genom att dela upp de befintliga ramarna i ett klipp och generera uppskattade mellanliggande ramar.

VFI anvÀnds ocksÄ i utvecklingen av bÀttre video-codecs, och, mer generellt, i optiskt flöde-baserade system (inklusive generativa system), som anvÀnder förhandskÀnnedom om kommande nyckelbildrutor för att optimera och forma det mellanliggande innehÄllet som föregÄr dem.

Slutramar i generativa videosystem

Moderna generativa system som Luma och Kling tillÄter anvÀndare att specificera en start- och en slutram, och kan utföra denna uppgift genom att analysera nyckelpunkter i de tvÄ bilderna och uppskatta en bana mellan de tvÄ bilderna.

Som vi kan se i exemplen nedan gör det att det generativa videosystemet (i det hÀr fallet Kling) bÀttre kan bibehÄlla aspekter som identitet, Àven om resultaten inte Àr perfekta (sÀrskilt med stora rörelser).

Klicka för att spela. Kling Àr en av ett vÀxande antal videogeneratorer, inklusive Runway och Luma, som lÄter anvÀndaren specificera en slutram. I de flesta fall kommer minimal rörelse att leda till de mest realistiska och minst felaktiga resultaten. KÀlla: https://www.youtube.com/watch?v=8oylqODAaH8

I exemplet ovan Àr personens identitet konsekvent mellan de tvÄ anvÀndartillhandahÄllna nyckelbildrutorna, vilket leder till en relativt konsekvent videogenerering.

DÀr endast startramen tillhandahÄlls, Àr det generativa systemets uppmÀrksamhetsfönster vanligtvis inte tillrÀckligt stort för att "komma ihÄg" hur personen sÄg ut i början av videon. Snarare kommer identiteten sannolikt att skifta lite med varje bildruta, tills all likhet försvinner. I exemplet nedan laddades en startbild upp och personens rörelse vÀgleddes av en textuppmaning:

Klicka för att spela. Utan Àndram har Kling bara en liten grupp av omedelbart föregÄende ramar för att vÀgleda genereringen av nÀsta ramar. I de fall dÀr nÄgon betydande rörelse behövs blir denna identitetsatrofi allvarlig.

Vi kan se att skÄdespelarens likhet inte Àr motstÄndskraftig mot instruktionerna, eftersom det generativa systemet inte vet hur han skulle se ut om han ler, och han ler inte i fröbilden (den enda tillgÀngliga referensen).

Majoriteten av virala generativa klipp Àr noggrant kurerade för att understryka dessa brister. Men framstegen för tidsmÀssigt konsekventa generativa videosystem kan bero pÄ ny utveckling frÄn forskningssektorn nÀr det gÀller raminterpolation, eftersom det enda möjliga alternativet Àr ett beroende av traditionell CGI som en drivande, "guide" video (och Àven i detta fall , konsistens av textur och belysning Àr för nÀrvarande svÄra att uppnÄ).

Dessutom gör den lÄngsamt iterativa karaktÀren av att hÀrleda en ny ram frÄn en liten grupp av nya ramar mycket svÄrt för att uppnÄ stora och djÀrva rörelser. Detta beror pÄ att ett föremÄl som rör sig snabbt över en ram kan passera frÄn den ena sidan till den andra i utrymmet för en enda ram, i motsats till de mer gradvisa rörelser som systemet sannolikt har trÀnats pÄ.

PÄ samma sÀtt kan en betydande och djÀrv förÀndring av stÀllning leda inte bara till identitetsförskjutning, utan till levande icke-kongruenser:

Klicka för att spela. I det hÀr exemplet frÄn Luma verkar den begÀrda rörelsen inte vara vÀl representerad i trÀningsdatan.

Ram

Detta leder oss till en intressant ny artikel frĂ„n Kina, som pĂ„stĂ„r sig ha uppnĂ„tt en ny toppmoderna raminterpolation med autentiskt utseende – och som Ă€r den första i sitt slag som erbjuder dragbaserad anvĂ€ndarinteraktion.

Framer lÄter anvÀndaren styra rörelser med hjÀlp av ett intuitivt dragbaserat grÀnssnitt, Àven om det ocksÄ har ett "automatiskt" lÀge. KÀlla: https://www.youtube.com/watch?v=4MPGKgn7jRc

Drag-centrerade applikationer har blivit frekvent in d litteraturen pÄ sistone, eftersom forskningssektorn kÀmpar för att tillhandahÄlla verktyg för generativa system som inte Àr baserade pÄ de ganska grova resultat som erhÄlls genom textuppmaningar.

Det nya systemet, med titeln Ram, kan inte bara följa det anvÀndarstyrda draget, utan har ocksÄ ett mer konventionellt "autopilot"-lÀge. Förutom konventionell interpolering kan systemet producera time-lapse-simuleringar, sÄvÀl som morphing och nya vyer av ingÄngsbilden.

Mellanliggande ramar genererade för en time-lapse-simulering i Framer. KÀlla: https://arxiv.org/pdf/2410.18978

Mellanliggande ramar genererade för en time-lapse-simulering i Framer. KÀlla: https://arxiv.org/pdf/2410.18978

NĂ€r det gĂ€ller produktionen av nya vyer, korsar Framer lite till territoriet för Neural Radiance Fields (NeRF) – Ă€ven om det bara krĂ€ver tvĂ„ bilder, medan NeRF i allmĂ€nhet krĂ€ver sex eller fler bildinmatningsvyer.

I tester, Framer, som Àr baserad pÄ Stability.ai's Stabil videodiffusion latent diffusionsgenerativ videomodell, kunde övertrÀffa ungefÀrliga rivaliserande tillvÀgagÄngssÀtt, i en anvÀndarstudie.

I skrivande stund Àr koden instÀlld pÄ att slÀppas pÄ GitHub. Videoprover (frÄn vilka ovanstÄende bilder hÀrrör) finns tillgÀngliga pÄ projektplatsen, och forskarna har ocksÄ slÀppt en YouTube-video.

Ocuco-landskapet nytt papper har titeln Framer: Interactive Frame Interpolation, och kommer frÄn nio forskare frÄn Zhejiang University och den Alibaba-stödda myrgruppen.

Metod

Framer anvÀnder nyckelpunktsbaserad interpolation i endera av dess tvÄ modaliteter, dÀr ingÄngsbilden utvÀrderas för grundlÀggande topologi, och "rörliga" punkter tilldelas vid behov. I sjÀlva verket motsvarar dessa punkter ansiktslandmÀrken i ID-baserade system, men generaliserar till vilken yta som helst.

Forskarna finstÀmd Stable Video Diffusion (SVD) pÄ OpenVid-1M datauppsÀttning, vilket lÀgger till en ytterligare syntesfunktion för sista bildrutan. Detta underlÀttar en bankontrollmekanism (överst till höger i schemabilden nedan) som kan utvÀrdera en vÀg mot slutramen (eller tillbaka frÄn den).

Schema för Framer.

Schema för Framer.

NÀr det gÀller tillÀgget av konditionering av sista ram, sÀger författarna:

'För att bevara den visuella förutsÀttningen för den förtrÀnade SVD sÄ mycket som möjligt, följer vi konditioneringsparadigmet för SVD och injicerar slutramförhÄllanden i det latenta utrymmet respektive det semantiska utrymmet.

"SÀrskilt sammankopplar vi den VAE-kodade latenta funktionen hos den första [ramen] med den brusiga latenten i den första ramen, som gjorde i SVD. Dessutom sammanfogar vi den latenta funktionen hos den sista ramen, zn, med den brusiga latenten av slutramen, med tanke pÄ att villkoren och motsvarande brusiga latenter Àr rymdligt inriktade.

"Dessutom extraherar vi CLIP-bildinbÀddningen av de första och sista bildrutorna separat och sammanfogar dem för injicering av korsuppmÀrksamhet."

För dragbaserad funktionalitet anvÀnder banamodulen Meta Ai-led CoTracker ram, som utvÀrderar mÄnga möjliga vÀgar framÄt. Dessa bantas ner till mellan 1-10 möjliga banor.

De erhÄllna punktkoordinaterna transformeras sedan genom en metodik inspirerad av DragNUWA och DraAnything arkitekturer. Detta erhÄller en Gaussisk vÀrmekarta, som individualiserar mÄlomrÄdena för rörelse.

DÀrefter matas data till konditioneringsmekanismerna för ControlNet, ett kompletterande överensstÀmmelsesystem som ursprungligen designades för stabil diffusion och sedan dess anpassat till andra arkitekturer.

För autopilotlĂ€ge utförs funktionsmatchning initialt via SÅLLA, som tolkar en bana som sedan kan skickas till en automatisk uppdateringsmekanism inspirerad av DragGAN och DraDiffusion.

Schema för uppskattning av punktbana i Framer.

Schema för uppskattning av punktbana i Framer.

Data och tester

För finjusteringen av Framer var den rumsliga uppmÀrksamheten och kvarvarande block frystes, och endast de temporala uppmÀrksamhetsskikten och kvarvarande blocken pÄverkades.

Modellen trÀnades för 10,000 XNUMX iterationer under AdamW, vid en inlÀrningshastighet av 1e-4 och en satsstorlek av 16. Utbildning Àgde rum över 16 NVIDIA A100 GPU:er.

Eftersom tidigare tillvÀgagÄngssÀtt till problemet inte erbjuder dra-baserad redigering, valde forskarna att jÀmföra Framers autopilotlÀge med standardfunktionaliteten hos Àldre erbjudanden.

De ramverk som testades för kategorin av nuvarande diffusionsbaserade videogenereringssystem var LDMVFI; Dynamisk Crafter; Och SVDKFI. För "traditionella" videosystem var de rivaliserande ramverken AMT; UTBREDD; FLAVR; och den tidigare nÀmnda FILM.

Förutom anvÀndarstudien genomfördes tester över DAVIS och UCF101 datauppsÀttningar.

Kvalitativa test kan endast utvÀrderas av forskargruppens objektiva fakulteter och av anvÀndarstudier. Men papperet noterar, traditionella kvantitativ mÀtvÀrden Àr i stort sett olÀmpliga för förslaget:

"[Rekonstruktion]-mÄtt som PSNR, SSIM och LPIPS lyckas inte fÄnga kvaliteten pÄ interpolerade bildrutor korrekt, eftersom de straffar andra rimliga interpolationsresultat som inte Àr pixeljusterade med originalvideon.

"Medan generationsmÄtt som FID erbjuder vissa förbÀttringar, kommer de fortfarande till korta eftersom de inte tar hÀnsyn till tidsmÀssig konsekvens och utvÀrderar ramar isolerat."

Trots detta genomförde forskarna kvalitativa tester med flera populÀra mÀtetal:

Kvantitativa resultat för Framer vs rivaliserande system.

Kvantitativa resultat för Framer vs rivaliserande system.

Författarna noterar att trots att oddsen stÄr emot sig, uppnÄr Framer fortfarande det bÀsta FVD-resultatet bland de testade metoderna.

Nedan Àr tidningens exempelresultat för en kvalitativ jÀmförelse:

Kvalitativ jÀmförelse mot tidigare tillvÀgagÄngssÀtt.

Kvalitativ jÀmförelse mot tidigare tillvÀgagÄngssÀtt. Se tidningen för bÀttre upplösning, samt videoresultat pÄ https://www.youtube.com/watch?v=4MPGKgn7jRc.

Författarna kommenterar:

"[VÄr] metod ger betydligt tydligare texturer och naturliga rörelser jÀmfört med befintliga interpolationstekniker. Den fungerar sÀrskilt bra i scenarier med betydande skillnader mellan inmatningsramarna, dÀr traditionella metoder ofta misslyckas med att interpolera innehÄll korrekt.

"JÀmfört med andra diffusionsbaserade metoder som LDMVFI och SVDKFI, visar Framer överlÀgsen anpassningsförmÄga till utmanande fall och erbjuder bÀttre kontroll."

För anvÀndarstudien samlade forskarna 20 deltagare, som bedömde 100 slumpmÀssigt ordnade videoresultat frÄn de olika metoderna som testades. SÄledes erhölls 1000 betyg, utvÀrderade de mest "realistiska" erbjudandena:

Resultat frÄn anvÀndarstudien.

Resultat frÄn anvÀndarstudien.

Som framgÄr av diagrammet ovan, gynnade anvÀndarna övervÀldigande resultat frÄn Framer.

Projektet följer med YouTube video- beskriver nĂ„gra av de potentiella andra anvĂ€ndningsomrĂ„dena för framer, inklusive morphing och tecknad film dĂ€remellan – dĂ€r hela konceptet började.

Slutsats

Det Àr svÄrt att överbetona hur viktig denna utmaning för nÀrvarande Àr för uppgiften att generera AI-baserad video. Hittills har Àldre lösningar som FILM och (icke-AI) EbSynth anvÀnts, av bÄde amatör- och professionella grupper, för interpolering mellan bildrutor; men dessa lösningar har anmÀrkningsvÀrda begrÀnsningar.

PÄ grund av den oseriösa sammanstÀllningen av officiella exempelvideor för nya T2V-ramverk, finns det en bred allmÀn missuppfattning att maskininlÀrningssystem exakt kan hÀrleda geometri i rörelse utan att anvÀnda styrmekanismer som 3D-morfbara modeller (3DMM) eller andra underordnade tillvÀgagÄngssÀtt, som t.ex. som LoRAs.

Om jag ska vara Àrlig, sÄ utgör interpoleringen i sig sjÀlv, Àven om den skulle kunna utföras perfekt, bara ett "hack" eller fusk pÄ detta problem. Men eftersom det ofta Àr lÀttare att producera tvÄ vÀljusterade rambilder Àn att utföra vÀgledning via textmeddelanden eller det aktuella utbudet av alternativ, Àr det bra att se iterativa framsteg pÄ en AI-baserad version av denna Àldre metod.

Första gÄngen publicerad tisdagen den 29 oktober 2024

Skribent pÄ maskininlÀrning, domÀnspecialist pÄ mÀnsklig bildsyntes. Tidigare chef för forskningsinnehÄll pÄ Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai