Artificial Intelligence

CameraCtrl: Camerabediening inschakelen voor het genereren van tekst naar video

gepubliceerd

3 weken geleden

23 mei 2024

Recente raamwerken die proberen tekst-naar-video- of T2V-generatie te genereren, maken gebruik van diffusiemodellen om stabiliteit toe te voegen aan hun trainingsproces, en het Video Diffusion Model, een van de pioniers op het gebied van tekst-naar-video-generatieframeworks, breidt een 2D-beeldverspreidingsarchitectuur uit in een poging tegemoet te komen aan videogegevens, en train het model vanaf het begin samen op video en beeld. Voortbouwend op hetzelfde, en om een krachtige, vooraf getrainde beeldgenerator zoals Stable Diffusion te implementeren, blazen recente werken hun 2D-architectuur op door tijdelijke lagen tussen de vooraf getrainde 2D-lagen te plaatsen, en het nieuwe model te verfijnen op onzichtbare grote datasets. Ondanks hun aanpak staan tekst-naar-video-diffusiemodellen voor een aanzienlijke uitdaging, aangezien de dubbelzinnigheid van uitsluitend gebruikte tekstbeschrijvingen om het videovoorbeeld te genereren er vaak toe leidt dat het tekst-naar-video-model een zwakkere controle over de generatie heeft. Om deze beperking aan te pakken, bieden sommige modellen verbeterde begeleiding, terwijl andere werken met precieze signalen om de scène of menselijke bewegingen in de gesynthetiseerde video's nauwkeurig te besturen. Aan de andere kant zijn er een paar tekst-naar-video-frameworks die afbeeldingen gebruiken als besturingssignaal naar de videogenerator, wat resulteert in een nauwkeurige modellering van temporele relaties of een hoge videokwaliteit.

Het zou veilig zijn om te zeggen dat beheersbaarheid een cruciale rol speelt bij het genereren van afbeeldingen en video's, omdat gebruikers hierdoor de gewenste inhoud kunnen creëren. Bestaande raamwerken gaan echter vaak voorbij aan de precieze controle van de camerahouding die dient als filmische taal om de diepere narratieve nuances van het model beter tot uitdrukking te brengen. Om de huidige beperkingen van de bestuurbaarheid aan te pakken, zullen we het in dit artikel hebben over CameraCtrl, een nieuw idee dat probeert nauwkeurige controle van de camerapositie mogelijk te maken voor tekst-naar-videomodellen. Na het traject van de camera nauwkeurig te hebben geparametreerd, traint het model een plug-and-play cameramodule op een tekst-naar-video-model en laat de andere componenten onaangeroerd. Bovendien voert het CameraCtrl-model ook een uitgebreid onderzoek uit naar het effect van verschillende datasets, en suggereert dat video's met een vergelijkbaar uiterlijk en diverse cameradistributie de algehele beheersbaarheid en generalisatiemogelijkheden van het model kunnen verbeteren. Experimenten die zijn uitgevoerd om de prestaties van het CameraCtrl-model bij taken uit de echte wereld te analyseren, geven de efficiëntie van het raamwerk aan bij het bereiken van nauwkeurige en domein-adaptieve camerabediening, waardoor een weg voorwaarts wordt gevonden voor het nastreven van aangepaste en dynamische videogeneratie op basis van camerahouding en tekstuele invoer.

Dit artikel heeft tot doel het CameraCtrl-framework diepgaand te behandelen, en we onderzoeken het mechanisme, de methodologie en de architectuur van het raamwerk, samen met de vergelijking ervan met de modernste raamwerken. Dus laten we beginnen.

CameraCtrl: camerabediening voor T2V-generatie

De recente ontwikkeling en vooruitgang van diffusiemodellen heeft de tekstgestuurde videogeneratie de afgelopen jaren aanzienlijk verbeterd en een revolutie teweeggebracht in de workflows voor het ontwerpen van inhoud. Beheersbaarheid speelt een belangrijke rol bij praktische toepassingen voor het genereren van video's, omdat gebruikers hierdoor de gegenereerde resultaten kunnen aanpassen aan hun behoeften en vereisten. Dankzij de hoge beheersbaarheid kan het model het realisme, de kwaliteit en de bruikbaarheid van de video's die het genereert verbeteren, en hoewel tekst- en beeldinvoer vaak door modellen wordt gebruikt om de algehele beheersbaarheid te verbeteren, ontbreekt het hen vaak aan nauwkeurige controle over beweging en inhoud. . Om deze beperking aan te pakken, hebben sommige raamwerken voorgesteld om controlesignalen zoals pose-skelet, optische stroom en andere multimodale signalen te gebruiken om een nauwkeurigere controle mogelijk te maken om de videogeneratie te begeleiden. Een andere beperking waarmee bestaande raamwerken worden geconfronteerd, is dat ze geen nauwkeurige controle hebben over het stimuleren of aanpassen van camerapunten bij het genereren van video's, aangezien de mogelijkheid om de camera te besturen cruciaal is, omdat dit niet alleen het realisme van de gegenereerde video's vergroot, maar door aangepaste gezichtspunten mogelijk te maken. verbetert de betrokkenheid van gebruikers, een functie die essentieel is bij de ontwikkeling van games, augmented reality en virtual reality. Bovendien stelt het vakkundig beheren van camerabewegingen makers in staat om karakterrelaties te benadrukken, emoties te benadrukken en de focus van de doelgroep te sturen, iets dat van groot belang is in de film- en reclame-industrie.

Om deze beperkingen aan te pakken en te overwinnen, is er het CameraCtrl-framework, een leerbare en nauwkeurige plug-and-play-cameramodule met de mogelijkheid om de gezichtspunten van de camera te besturen voor het genereren van video. Het integreren van een aangepaste camera in een bestaande tekst-naar-video-modelpijplijn is echter gemakkelijker gezegd dan gedaan, waardoor het CameraCtrl-framework wordt gedwongen te zoeken naar manieren om de camera effectief in de modelarchitectuur weer te geven en te injecteren. Op dezelfde manier gebruikt het CameraCtrl-framework plucker-inbedding als de primaire vorm van cameraparameters, en de reden om voor plucker-inbedding te kiezen kan worden toegeschreven aan hun vermogen om geometrische beschrijvingen van de camerapositie-informatie te coderen. Om de generaliseerbaarheid en toepasbaarheid van het CameraCtrl-model na de training te garanderen, introduceert het model bovendien een camerabesturingsmodel dat alleen plucker-inbedding als invoer accepteert. Om ervoor te zorgen dat het camerabesturingsmodel effectief wordt getraind, voeren het raamwerk en de ontwikkelaars ervan een uitgebreid onderzoek uit om te onderzoeken hoe verschillende trainingsgegevens het raamwerk beïnvloeden, van synthetische tot realistische gegevens. De experimentele resultaten geven aan dat het implementeren van gegevens met een diverse verdeling van de cameraposities en een soortgelijk uiterlijk als het oorspronkelijke basismodel de beste afweging tussen beheersbaarheid en generaliseerbaarheid oplevert. De ontwikkelaars van het CameraCtrl-framework hebben het model bovenop het AnimateDiff-framework geïmplementeerd, waardoor nauwkeurige controle mogelijk is bij het genereren van video's over verschillende gepersonaliseerde video's, wat de veelzijdigheid en bruikbaarheid ervan in een breed scala aan videocreatiecontexten aantoont.

Het AnimateDiff-framework neemt het efficiënte over LoRA verfijningsaanpak om de gewichten van het model voor verschillende soorten schoten te verkrijgen. Het Direct-a-video-framework stelt voor om een camera-embedder te implementeren om de houding van de camera's te controleren tijdens het proces van videogeneratie, maar het beperkt zich slechts tot drie cameraparameters, waardoor de besturingsmogelijkheden van de camera worden beperkt tot de meeste basistypen. Aan de andere kant ontwerpen raamwerken waaronder MotionCtrl een bewegingscontroller die meer dan drie invoerparameters accepteert en video's kan produceren met complexere cameraposities. De noodzaak om delen van de gegenereerde video’s te verfijnen belemmert echter de generaliseerbaarheid van het model. Bovendien integreren sommige raamwerken aanvullende structurele controlesignalen, zoals dieptekaarten, in het proces om de beheersbaarheid van zowel het genereren van afbeeldingen als tekst te verbeteren. Normaal gesproken voert het model deze besturingssignalen naar een extra encoder en injecteert de signalen vervolgens met behulp van verschillende bewerkingen in een generator.

CameraCtrl: Modelarchitectuur

Voordat we naar het architectuur- en trainingsparadigma voor de camera-encoder kunnen kijken, is het van cruciaal belang dat we de verschillende camerarepresentaties begrijpen. Normaal gesproken verwijst een camerapositie naar intrinsieke en extrinsieke parameters, en een van de eenvoudige keuzes om een videogenerator de camerapositie te laten bepalen, is het invoeren van ruwe waarden met betrekking tot de cameraparameters in de generator. Het implementeren van een dergelijke aanpak verbetert echter om een aantal redenen mogelijk niet de nauwkeurige camerabediening. Ten eerste, hoewel de rotatiematrix wordt beperkt door orthogonaliteit, is de translatievector doorgaans ongedwongen in omvang, wat leidt tot een mismatch in het leerproces die de consistentie van de controle kan beïnvloeden. Ten tweede kan het rechtstreeks gebruiken van onbewerkte cameraparameters het voor het model moeilijk maken om deze waarden te correleren met beeldpixels, wat resulteert in verminderde controle over visuele details. Om deze beperkingen te vermijden, kiest het CameraCtrl-framework plucker-inbedding als representatie voor de camerapositie, aangezien de plucker-inbedding geometrische representaties heeft van elke pixel van het videoframe, en een uitgebreidere beschrijving van de camerapositie-informatie kan bieden.

Camerabestuurbaarheid in videogeneratoren

Terwijl het model het traject van de camera parametriseert in een plucker-inbeddingsreeks, dat wil zeggen ruimtelijke kaarten, heeft het model de keuze om een encodermodel te gebruiken om de camerakenmerken te extraheren, en vervolgens de camerakenmerken samen te smelten in videogeneratoren. Gelijkwaardig aan tekst naar afbeelding adapter introduceert het CameraCtrl-model een camera-encoder die speciaal is ontworpen voor video's. De camera-encoder bevat na elk convolutioneel blok een temporeel aandachtsmodel, waardoor de temporele relaties van cameraposities gedurende de hele videoclip kunnen worden vastgelegd. Zoals in de volgende afbeelding wordt gedemonstreerd, accepteert de camera-encoder alleen plucker-inbeddingsinvoer en levert hij functies op meerdere schalen. Na het verkrijgen van de camerafuncties op meerdere schaal, streeft het CameraCtrl-model ernaar deze functies naadloos te integreren in de U-net-architectuur van het tekst-naar-videomodel, en bepaalt het de lagen die moeten worden gebruikt om de camera-informatie effectief te integreren. Bovendien injecteert het CameraCtrl-model, aangezien het merendeel van de bestaande raamwerken een U-Net-achtige architectuur aanneemt die zowel de temporele als de ruimtelijke aandachtslagen bevat, de camerarepresentaties in het temporele aandachtsblok, een beslissing die wordt ondersteund door het vermogen van de temporele aandachtsblokken. lagen om temporele relaties vast te leggen, in lijn met de inherente informele en opeenvolgende aard van een cameratraject met de ruimtelijke aandachtslagen die de individuele frames weergeven.

Cameradistributies leren

Het trainen van de camera-encodercomponent binnen het CameraCtrl-framework op een videogenerator vereist een grote hoeveelheid goed gelabelde en geannoteerde video's, waarbij het model in staat is om het cameratraject te verkrijgen met behulp van structuur uit beweging of SfM-benadering. Het CameraCtrl-framework probeert de dataset te selecteren waarvan het uiterlijk nauw aansluit bij de trainingsgegevens van de basistekst en het videomodel, en een zo breed mogelijke verdeling van de cameraposities te hebben. Monsters in de dataset die zijn gegenereerd met behulp van virtuele motoren vertonen een diverse cameradistributie, aangezien ontwikkelaars de flexibiliteit hebben om de parameters van de camera te controleren tijdens de weergavefase, hoewel er wel sprake is van een distributiekloof in vergelijking met datasets die voorbeelden uit de echte wereld bevatten. Bij het werken met datasets die voorbeelden uit de echte wereld bevatten, is de verdeling van de camera meestal smal, en in dergelijke gevallen moet het raamwerk een evenwicht vinden tussen de diversiteit tussen verschillende cameratrajecten en de complexiteit van het individuele cameratraject. De complexiteit van het individuele cameratraject zorgt ervoor dat het model tijdens het trainingsproces complexe trajecten leert beheersen, terwijl de diversiteit tussen verschillende cameratrajecten ervoor zorgt dat het model niet te veel past in bepaalde vaste patronen. Om het trainingsproces van de camera-encoder te monitoren, stelt het CameraCtrl-framework bovendien de camera-uitlijningsmetriek voor om de besturingskwaliteit van de camera te meten door de fout tussen het cameratraject van de gegenereerde monsters en de invoercamera-omstandigheden te kwantificeren.

CameraCtrl: experimenten en resultaten

Het CameraCtrl-framework implementeert het AnimateDiff-model als het basistekst-naar-videomodel en een belangrijke reden hiervoor is dat de trainingsstrategie van het AnimateDiff-model het mogelijk maakt dat de bewegingsmodule wordt geïntegreerd met tekst-naar-beeld-basismodellen of tekst-naar-beeld LoRA's om video mogelijk te maken. generatie in verschillende genres en domeinen. Het model gebruikt de Adam-optimalisatie om het model te trainen met een constante leersnelheid van 1e-4. Bovendien om ervoor te zorgen dat het model geen invloed heeft op de videogeneratiemogelijkheden van het origineel tekst-naar-videomodel negatief is dat het CameraCtrl-framework de FID- of Frechet Inception Distance-metriek gebruikt om de weergavekwaliteit van de video te beoordelen, en de kwaliteit van de gegenereerde video vergelijkt voor en na het opnemen van de cameramodule.

Om de prestaties ervan te beoordelen, wordt het CameraCtrl-framework geëvalueerd aan de hand van twee bestaande camerabesturingsframeworks: MotionCtrl en AnimateDiff. Omdat het AnimateDiff-framework echter slechts acht basiscameratrajecten ondersteunt, is de vergelijking tussen CameraCtrl en AnimateDiff beperkt tot drie basistrajecten. Aan de andere kant selecteert het raamwerk, ter vergelijking met MotionCtrl, meer dan duizend willekeurige cameratrajecten uit de bestaande dataset naast de basiscameratrajecten, genereert het video's met behulp van deze trajecten en evalueert deze met behulp van de TransErr- en RotErr-metrieken.

Zoals u kunt zien, presteert het CameraCtrl-framework beter dan het AnimateDiff-framework op het gebied van basistrajecten en levert het betere resultaten op in vergelijking met het MotionCtrl-framework op het gebied van complexe trajectgegevens.

Bovendien demonstreert de volgende afbeelding het effect van de camera-encoderarchitectuur op de algehele kwaliteit van de gegenereerde samples. Rij a tot en met rij d vertegenwoordigen de resultaten die zijn gegenereerd met camera-encoder geïmplementeerd in de architectuur: respectievelijk ControlNet, ControlNet met tijdelijke aandacht, T2I-adapter en T2I-adapter met tijdelijke aandacht.

In de volgende afbeelding vervangen de eerste twee de video die is gegenereerd met behulp van een combinatie van de RGB-encoder van het SparseCtrl-framework en de methode die wordt gebruikt in het CameraCtrl-framework.

Conclusie

In dit artikel hebben we gesproken over CameraCtrl, een nieuw idee dat probeert nauwkeurige camerapositiecontrole mogelijk te maken voor tekst-naar-videomodellen. Na het traject van de camera nauwkeurig te hebben geparametreerd, traint het model een plug-and-play cameramodule op een tekst-naar-video-model en laat de andere componenten onaangeroerd. Bovendien voert het CameraCtrl-model ook een uitgebreid onderzoek uit naar het effect van verschillende datasets, en suggereert dat video's met een vergelijkbaar uiterlijk en diverse cameradistributie de algehele beheersbaarheid en generalisatiemogelijkheden van het model kunnen verbeteren. Experimenten die zijn uitgevoerd om de prestaties van het CameraCtrl-model bij taken uit de echte wereld te analyseren, geven de efficiëntie van het raamwerk aan bij het bereiken van nauwkeurige en domein-adaptieve camerabediening, waardoor een weg voorwaarts wordt gevonden voor het nastreven van aangepaste en dynamische videogeneratie op basis van camerahouding en tekstuele invoer.

MambaOut: hebben we Mamba echt nodig voor visie?

Mis het niet

Wat is er misgegaan met de Humane AI-pin?

Kunal Kejriwal

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.