Хиймэл оюун

CameraCtrl: Текстээс видео үүсгэх камерын хяналтыг идэвхжүүлж байна

Нийтэлсэн

3 долоо хоногийн өмнө

23 болтугай 2024

Сүүлийн үеийн фрэймворкүүд нь текстээс видео эсвэл T2V үүсгэхийг оролдож байгаа нь сургалтын үйл явцад тогтвортой байдлыг нэмэгдүүлэхийн тулд тархалтын загваруудыг ашиглаж байгаа бөгөөд текстээс видео үүсгэх хүрээний анхдагчдын нэг болох Video Diffusion Model нь 2D дүрсний тархалтын архитектурыг өргөтгөж, үүнийг тохируулах оролдлого хийж байна. видео өгөгдөл, загварыг эхнээс нь видео болон зураг дээр хамтран сургах. Тогтвортой тархалт гэх мэт урьдчилан бэлтгэгдсэн хүчирхэг дүрс үүсгэгчийг хэрэгжүүлэхийн тулд сүүлийн үеийн бүтээлүүд нь урьдчилан бэлтгэгдсэн 2D давхаргын хооронд түр зуурын давхаргыг хооронд нь хольж, үл үзэгдэх том өгөгдлийн багц дээр шинэ загварыг нарийн тааруулах замаар 2 хэмжээст архитектурыг сайжруулж байна. Хэдийгээр тэдний хандлагыг үл харгалзан, текстээс видеог тараах загварууд нь ихээхэн бэрхшээлтэй тулгардаг тул видеоны дээжийг үүсгэхийн тулд зөвхөн текстийн тайлбарыг ашиглах нь тодорхойгүй байх нь ихэвчлэн текстээс видео загвар үүсгэхэд хяналт сулрахад хүргэдэг. Энэхүү хязгаарлалтыг даван туулахын тулд зарим загварууд сайжруулсан удирдамжийг өгдөг бол зарим нь нийлэгжүүлсэн видеон дээрх дүр зураг эсвэл хүний хөдөлгөөнийг нарийн хянахын тулд нарийн дохиогоор ажилладаг. Нөгөөтэйгүүр, дүрсийг видео үүсгэгчийн хяналтын дохио болгон ашигладаг цөөн хэдэн текстээс видео хүрээнүүд байдаг бөгөөд энэ нь цаг хугацааны харилцааны үнэн зөв загварчлал эсвэл видеоны өндөр чанарыг бий болгодог.

Хянах чадвар нь зураг, видео бүтээх ажилд чухал үүрэг гүйцэтгэдэг, учир нь энэ нь хэрэглэгчдэд хүссэн контентоо бүтээх боломжийг олгодог гэж хэлэхэд аюулгүй байх болно. Гэсэн хэдий ч одоо байгаа хүрээнүүд нь камерын позын нарийн удирдлагыг ихэвчлэн үл тоомсорлодог бөгөөд энэ нь загварт илүү гүн гүнзгий өгүүлэмжийг илүү сайн илэрхийлэх киноны хэл болж өгдөг. Одоогийн хяналтын хязгаарлалтыг шийдвэрлэхийн тулд энэ нийтлэлд бид CameraCtrl-ийн тухай ярих болно, энэ нь текстээс видео загварт камерын байрлалыг нарийн хянах боломжийг олгодог шинэ санаа юм. Камерын траекторийн параметрүүдийг нарийн тодорхойлсны дараа загвар нь залгуур болон тоглох камерын модулийг текстээс видео загварт сургаж, бусад бүрэлдэхүүн хэсгүүдийг хөндөхгүй. Цаашилбал, CameraCtrl загвар нь янз бүрийн өгөгдлийн багцын үр нөлөөний талаар иж бүрэн судалгаа хийж, ижил төстэй дүр төрхтэй, олон төрлийн камерын тархалттай видеонууд нь загварын ерөнхий хяналт, ерөнхий чадварыг сайжруулж чадна гэж санал болгож байна. Бодит ертөнцийн даалгаврууд дээр CameraCtrl загварын гүйцэтгэлд дүн шинжилгээ хийх туршилтууд нь камерын дүр төрх, текстийн оролтоос тохируулсан, динамик видео үүсгэхийг эрэлхийлж, нарийвчлалтай, домэйнд дасан зохицох камерын хяналтыг бий болгоход хүрээний үр ашгийг харуулж байна.

Энэхүү нийтлэл нь CameraCtrl хүрээг нарийвчлан авч үзэх зорилготой бөгөөд бид хүрээний механизм, арга зүй, архитектурыг орчин үеийн орчин үеийн хүрээтэй харьцуулахын зэрэгцээ судлах болно. Ингээд эхэлцгээе.

CameraCtrl: T2V үеийн камерын удирдлага

Диффузын загваруудын сүүлийн үеийн хөгжил, дэвшил нь сүүлийн жилүүдэд текстийг удирдан чиглүүлсэн видео бүтээх ажлыг ихээхэн ахиулж, агуулгын дизайны ажлын урсгалд хувьсгал хийсэн. Хянах чадвар нь практик видео үүсгэх програмуудад чухал үүрэг гүйцэтгэдэг, учир нь энэ нь хэрэглэгчдэд бий болсон үр дүнг өөрсдийн хэрэгцээ, шаардлагад нийцүүлэн өөрчлөх боломжийг олгодог. Хяналт өндөртэй тул загвар нь үүсгэсэн видеоны бодит байдал, чанар, ашиглах чадварыг сайжруулах боломжтой бөгөөд ерөнхий хяналтыг сайжруулахын тулд текст болон зургийн оролтыг загварууд ихэвчлэн ашигладаг боловч хөдөлгөөн, контентыг нарийн хянах чадваргүй байдаг. . Энэхүү хязгаарлалтыг даван туулахын тулд зарим тогтолцоо нь дүрс үүсгэхэд чиглүүлэхийн тулд илүү нарийвчлалтай хяналтыг идэвхжүүлэхийн тулд позын араг яс, оптик урсгал болон бусад олон төрлийн дохиолол зэрэг хяналтын дохиог ашиглахыг санал болгосон. Одоо байгаа тогтолцооны өөр нэг хязгаарлалт нь видео үүсгэх явцад камерын цэгүүдийг өдөөх, тохируулах талаар нарийн хяналтгүй байдаг тул камерыг удирдах чадвар нь зөвхөн үүсгэсэн видеоны бодит байдлыг сайжруулаад зогсохгүй өөрчилсөн үзэл бодлыг бий болгох боломжийг олгодог. тоглоом хөгжүүлэх, нэмэгдүүлсэн бодит байдал, виртуал бодит байдалд зайлшгүй шаардлагатай функц болох хэрэглэгчийн оролцоог сайжруулдаг. Цаашилбал, камерын хөдөлгөөнийг чадварлаг удирдах нь бүтээгчид дүрийн харилцааг тодотгож, сэтгэл хөдлөлийг онцолж, зорилтот үзэгчдийн анхаарлыг чиглүүлэх боломжийг олгодог бөгөөд энэ нь кино, зар сурталчилгааны салбарт чухал ач холбогдолтой юм.

Эдгээр хязгаарлалтыг даван туулахын тулд CameraCtrl хүрээ, сурах боломжтой, нарийн залгагддаг камерын модуль нь видео үүсгэх камерын үзэл бодлыг хянах чадвартай. Гэсэн хэдий ч, өөрчилсөн камерыг одоо байгаа текстээс видео загвар дамжуулах хоолойд нэгтгэх нь хэлэхэд хялбар ажил бөгөөд CameraCtrl хүрээг загвар архитектурт камерыг хэрхэн үр дүнтэй төлөөлөх, оруулах арга замыг хайхад хүргэдэг. Үүнтэй адилаар CameraCtrl систем нь камерын параметрийн үндсэн хэлбэр болох түүгч суулгацыг ашигладаг бөгөөд түүгч суулгацыг сонгох болсон шалтгаан нь камерын позын мэдээллийн геометрийн дүрслэлийг кодлох чадвартай холбоотой гэж үзэж болно. Цаашилбал, CameraCtrl загварын сургалтын дараах ерөнхий болон хэрэглэгдэх боломжтой байдлыг хангахын тулд загвар нь зөвхөн таслагчийн суулгацыг оролт болгон хүлээн авдаг камерын удирдлагын загварыг нэвтрүүлсэн. Камерын удирдлагын загварыг үр дүнтэй сургахын тулд уг хүрээ болон түүний хөгжүүлэгчид янз бүрийн сургалтын өгөгдөл нь нийлэгээс бодит өгөгдөл хүртэлх тогтолцоонд хэрхэн нөлөөлж байгааг судлах цогц судалгааг явуулдаг. Туршилтын үр дүнгээс харахад камерын байрлалын олон янзын тархалт, анхны суурь загвартай ижил төстэй дүр төрх бүхий өгөгдлийг хэрэгжүүлэх нь хяналт болон ерөнхийлөлт хоёрын хооронд хамгийн сайн тохирч байгааг харуулж байна. CameraCtrl хүрээний хөгжүүлэгчид уг загварыг AnimateDiff хүрээн дээр хэрэгжүүлсэн бөгөөд ингэснээр өөр өөр хувийн тохиргоонд видео үүсгэх нарийн хяналтыг бий болгож, видео бүтээх өргөн хүрээний нөхцөлд түүний олон талт байдал, ашигтай байдлыг харуулсан.

AnimateDiff хүрээ нь үр ашигтайг ашигладаг ЛоРА янз бүрийн төрлийн зураг авалтын загварын жинг олж авах нарийн тааруулах арга. Direct-a-video framework нь видео үүсгэх явцад камерын байрлалыг хянахын тулд камерын суулгацыг хэрэгжүүлэхийг санал болгож байгаа боловч энэ нь зөвхөн гурван камерын параметрт нөхцөлийг бүрдүүлж, камерын хяналтын чадварыг ихэнх үндсэн төрлүүдэд хязгаарладаг. Нөгөөтэйгүүр, MotionCtrl зэрэг хүрээнүүд нь гурваас дээш оролтын параметрүүдийг хүлээн авах хөдөлгөөн хянагчийг зохион бүтээж, илүү төвөгтэй камерын байрлалтай видео бичлэг хийх боломжтой. Гэсэн хэдий ч үүсгэсэн видеоны хэсгүүдийг нарийн тохируулах хэрэгцээ нь загварыг ерөнхийд нь харуулахад саад болж байна. Цаашилбал, зарим фреймворкууд нь зураг болон текст үүсгэх хяналтыг сайжруулахын тулд гүнийн зураг гэх мэт нэмэлт бүтцийн хяналтын дохиог процесст оруулдаг. Ерөнхийдөө загвар нь эдгээр хяналтын дохиог нэмэлт кодлогч руу оруулаад дараа нь янз бүрийн үйлдлүүдийг ашиглан генератор руу дохиог оруулдаг.

CameraCtrl: Загвар архитектур

Камерын кодлогчийн архитектур, сургалтын парадигмыг үзэхийн өмнө камерын янз бүрийн дүрслэлийг ойлгох нь бидний хувьд маш чухал юм. Ихэвчлэн камерын поз нь дотоод болон гадаад параметрүүдийг хэлдэг бөгөөд камерын поз дээр видео үүсгэгч нөхцөлийг бий болгох энгийн сонголтуудын нэг нь камерын параметрүүдийн түүхий утгыг генератор руу оруулах явдал юм. Гэсэн хэдий ч ийм аргыг хэрэгжүүлэх нь хэд хэдэн шалтгааны улмаас камерын нарийвчлалыг сайжруулахгүй байж магадгүй юм. Нэгдүгээрт, эргэлтийн матриц нь ортогональ байдлаар хязгаарлагддаг бол орчуулгын вектор нь ихэвчлэн хэмжигдэхүүнгүй бөгөөд сургалтын үйл явцад үл нийцэх байдалд хүргэдэг бөгөөд энэ нь хяналтын тогтвортой байдалд нөлөөлдөг. Хоёрдугаарт, камерын түүхий параметрүүдийг шууд ашиглах нь загварт эдгээр утгыг зургийн пикселтэй уялдуулахад хүндрэл учруулж, улмаар харааны нарийн ширийн зүйлийг хянах хяналтыг бууруулдаг. Эдгээр хязгаарлалтаас зайлсхийхийн тулд CameraCtrl хүрээ нь таслагчийн суулгацыг камерын позын дүрслэл болгон сонгож авдаг, учир нь таслагчийн суулгацууд нь видео хүрээний пиксел бүрийн геометрийн дүрслэлтэй бөгөөд камерын позын мэдээллийн талаар илүү нарийвчилсан тайлбар өгөх боломжтой.

Видео үүсгэгч дэх камерын хяналт

Загвар нь камерын траекторийг таслагчийн дараалал, өөрөөр хэлбэл орон зайн газрын зураг болгон хувиргадаг тул камерын онцлогийг задлахын тулд кодлогчийн загварыг ашиглах, дараа нь камерын функцуудыг видео үүсгэгч болгон нэгтгэх сонголттой. Тэй төстэй текст рүү зураг адаптер, CameraCtrl загвар нь видеонд тусгайлан зориулсан камерын кодлогчийг танилцуулж байна. Камерын кодлогч нь эргэлтийн блок бүрийн дараа түр зуурын анхаарлын загварыг агуулдаг бөгөөд энэ нь видео клипийн туршид камерын позын түр зуурын хамаарлыг авах боломжийг олгодог. Дараах зурган дээр харуулсанчлан камерын кодлогч нь зөвхөн plucker-ийн оруулах оролтыг хүлээн авч, олон төрлийн функцуудыг өгдөг. Олон хэмжээст камерын функцуудыг олж авсны дараа CameraCtrl загвар нь эдгээр функцуудыг текстийн U-net архитектурт видео загварт саадгүй нэгтгэх зорилготой бөгөөд камерын мэдээллийг үр дүнтэй оруулахад ашиглах давхаргыг тодорхойлдог. Цаашилбал, одоо байгаа ихэнх хүрээнүүд нь цаг хугацааны болон орон зайн анхаарлын давхаргыг агуулсан U-Net шиг архитектурыг ашигладаг тул CameraCtrl загвар нь камерын дүрслэлийг түр зуурын анхаарлын блок руу оруулдаг бөгөөд энэ нь түр зуурын анхаарлын чадвараар баталгаажсан шийдвэр юм. камерын траекторийн төрөлхийн санамсаргүй, дэс дарааллын шинж чанартай, тус тусын хүрээг дүрсэлсэн орон зайн анхаарлын давхаргатай уялдуулж, цаг хугацааны харилцааг дүрслэх давхаргууд.

Камерын тархалтыг сурах

Камерын кодлогч бүрэлдэхүүнийг CameraCtrl хүрээн дэх видео үүсгэгч дээр сургахад хөдөлгөөн эсвэл SfM аргыг ашиглан камерын траекторийг олж авах чадвартай загвар нь маш их хэмжээний сайн шошготой, тайлбартай видеог шаарддаг. CameraCtrl хүрээ нь үндсэн текстийн сургалтын өгөгдөлтэй видео загвартай нягт таарч тохирох өгөгдлийн багцыг сонгож, камерын байрлалыг аль болох өргөнөөр хуваарилахыг оролддог. Виртуал хөдөлгүүр ашиглан үүсгэсэн өгөгдлийн багц дахь дээжүүд нь камерын янз бүрийн тархалтыг харуулдаг, учир нь хөгжүүлэгчид дүрслэх үе шатанд камерын параметрүүдийг хянах уян хатан чадвартай байдаг ч бодит ертөнцийн дээжийг агуулсан өгөгдлийн багцтай харьцуулахад түгээлтийн зөрүүтэй байдаг. Бодит ертөнцийн дээжийг агуулсан өгөгдлийн багцтай ажиллахдаа камерын тархалт нь ихэвчлэн нарийхан байдаг бөгөөд ийм тохиолдолд камерын янз бүрийн замналуудын олон талт байдал болон камерын замналын нарийн төвөгтэй байдлын хоорондын тэнцвэрийг олох шаардлагатай байдаг. Камерын бие даасан траекторийн нарийн төвөгтэй байдал нь загвар нь сургалтын явцад нарийн төвөгтэй замыг удирдаж сурах боломжийг олгодог бол камерын өөр өөр замуудын олон янз байдал нь загвар нь тодорхой тогтсон хэв маягт тохирохгүй байхыг баталгаажуулдаг. Цаашилбал, камерын кодлогчийн сургалтын үйл явцыг хянахын тулд CameraCtrl хүрээ нь үүсгэсэн дээжийн камерын траектор болон оролтын камерын нөхцлийн хоорондох алдааг тооцоолох замаар камерын хяналтын чанарыг хэмжих камерын зэрэгцүүлэх хэмжигдэхүүнийг санал болгодог.

CameraCtrl : Туршилт ба үр дүн

CameraCtrl хүрээ нь AnimateDiff загварыг үндсэн текстээс видео загвар болгон хэрэгжүүлдэг бөгөөд үүний гол шалтгаан нь AnimateDiff загварын сургалтын стратеги нь хөдөлгөөнт модулийг текстээс зураг руу шилжүүлэх загварууд эсвэл видеог байрлуулах текстийг LoRA-тай нэгтгэх боломжийг олгодог. Төрөл бүрийн төрөл, домэйн дээр бий болсон. Загвар нь Адам оптимизаторыг ашиглан 1e-4-ийн тогтмол суралцах хурдтай загварыг сургадаг. Цаашилбал, загвар нь эх хувилбарын видео үүсгэх чадварт нөлөөлөхгүй байхын тулд текстийг видео загварт оруулах Үүний сөрөг тал нь CameraCtrl хүрээ нь FID эсвэл Frechet Inception Distance хэмжигчийг ашиглан видеоны харагдах чанарыг үнэлж, камерын модулийг оруулахаас өмнө болон дараа үүсгэсэн видеоны чанарыг харьцуулдаг.

Түүний гүйцэтгэлийг үнэлэхийн тулд CameraCtrl хүрээг одоо байгаа MotionCtrl болон AnimateDiff гэсэн хоёр камерын хяналтын хүрээтэй харьцуулан үнэлдэг. Гэсэн хэдий ч, AnimateDiff хүрээ нь зөвхөн найман үндсэн камерын траекторийг дэмждэг тул CameraCtrl болон AnimateDiff-ийн хоорондох харьцуулалтыг гурван үндсэн траектороор хязгаарладаг. Нөгөөтэйгүүр, MotionCtrl-тэй харьцуулахын тулд уг хүрээ нь камерын үндсэн чиглэлээс гадна одоо байгаа өгөгдлийн багцаас мянга гаруй санамсаргүй камерын траекторийг сонгож, эдгээр траекторуудыг ашиглан видео үүсгэж, TransErr болон RotErr хэмжигдэхүүнийг ашиглан үнэлдэг.

Ажиглаж байгаагаар CameraCtrl хүрээ нь үндсэн траекторийн хувьд AnimateDiff хүрээг давж, нарийн төвөгтэй траекторийн хэмжигдэхүүн дээрх MotionCtrl хүрээтэй харьцуулахад илүү сайн үр дүнг өгдөг.

Цаашилбал, дараах зураг нь үүсгэсэн дээжийн нийт чанарт камерын кодлогчийн архитектурын нөлөөг харуулж байна. A-аас d эгнээ хүртэл архитектурт хэрэгжсэн камерын кодлогчоор үүсгэсэн үр дүнг харуулна: ControlNet, түр зуурын анхаарал бүхий ControlNet, T2I адаптер, түр зуурын анхаарал бүхий T2I адаптер.

Дараах зурагт эхний хоёр нь SparseCtrl фреймворкийн RGB кодлогч болон CameraCtrl хүрээн дэх аргыг хослуулан үүсгэсэн видеог орлуулж байна.

Final бодол

Энэ нийтлэлд бид CameraCtrl-ийн тухай өгүүлсэн бөгөөд энэ нь текстээс видео загварт камерын байрлалыг нарийн хянах боломжийг олгодог шинэ санаа юм. Камерын траекторийн параметрүүдийг нарийн тодорхойлсны дараа загвар нь залгуур болон тоглох камерын модулийг текстээс видео загварт сургаж, бусад бүрэлдэхүүн хэсгүүдийг хөндөхгүй. Цаашилбал, CameraCtrl загвар нь янз бүрийн өгөгдлийн багцын үр нөлөөний талаар иж бүрэн судалгаа хийж, ижил төстэй дүр төрхтэй, олон төрлийн камерын тархалттай видеонууд нь загварын ерөнхий хяналт, ерөнхий чадварыг сайжруулж чадна гэж санал болгож байна. Бодит ертөнцийн даалгаврууд дээр CameraCtrl загварын гүйцэтгэлд дүн шинжилгээ хийх туршилтууд нь камерын дүр төрх, текстийн оролтоос тохируулсан, динамик видео үүсгэхийг эрэлхийлж, нарийвчлалтай, домэйнд дасан зохицох камерын хяналтыг бий болгоход хүрээний үр ашгийг харуулж байна.

Дараа хүртэл

MambaOut: Бидэнд харааны хувьд Мамба үнэхээр хэрэгтэй юу?

Бүү саад бол

Хүмүүнлэг AI зүү дээр юу нь буруу болсон бэ?

Кунал Кежривал

"Мэргэжилээрээ инженер, цээжээрээ зохиолч". Кунал бол хиймэл оюун ухаан болон ML-д гүн гүнзгий хайртай, ойлголттой техникийн зохиолч бөгөөд эдгээр салбар дахь нарийн төвөгтэй ойлголтуудыг сонирхолтой, мэдээлэл сайтай баримт бичгүүдээрээ хялбарчлахад зориулагдсан.