stub RigNeRF: Мэдрэлийн цацрагийн талбаруудыг ашигладаг шинэ Deepfakes арга - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

RigNeRF: Мэдрэлийн цацрагийн талбарыг ашигладаг шинэ Deepfakes арга

mm
шинэчлэгдсэн on

Adobe-д боловсруулсан шинэ судалгаа нь үндсэн дээр суурилсан анхны бодит үр дүнтэй гүнзгийрүүлэх аргыг санал болгож байна Мэдрэлийн цацрагийн талбарууд (NeRF) - магадгүй 2017 онд deepfakes гарч ирснээс хойшхи таван жилийн хугацаанд архитектур эсвэл арга барил дахь анхны бодит шинэчлэл байж магадгүй юм.

Гарчигтай арга RigNeRF, ашигладаг 3D хувиргах боломжтой нүүрний загварууд (3DMMs) нь хүссэн оролт (жишээ нь NeRF дүрслэлд оруулах таних тэмдэг) болон мэдрэлийн орон зайны хоорондох хэрэглүүрийн завсрын давхарга болох бөгөөд энэ аргыг ашигласан. сүүлийн жилүүдэд өргөн хэрэглэгдэж байна Generative Adversarial Network (GAN) нүүрний синтезийн аргуудын аль нь ч видеонд зориулсан функциональ, хэрэгцээтэй нүүр солих хүрээг хараахан гаргаж чадаагүй байна.

Шинэ нийтлэлийн нэмэлт материалаас бид сургалтын мэдээллийн багцыг бүрдүүлдэг ухаалаг гар утаснаас авсан 3 секундын бодит бичлэг болон мэдрэлийн цацрагийн талбарын ихэвчлэн стоик параметрүүдийн хооронд интерфэйсийн үүрэг гүйцэтгэдэг 3D хувиргах нүүрний загварыг (70DMM) харж байна. дүрслэл. Энэ клипийн өндөр нарийвчлалтай хувилбарыг бусад олон бичлэгийн хамт төслийн хуудас эсвэл энэ нийтлэлийн төгсгөлд суулгасан видеоноос үзнэ үү. Эх сурвалж: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

Уламжлалт гүнзгий хуурамч видео бичлэгүүдээс ялгаатай нь энд байгаа хөдөлгөөнт контентын аль нь ч "бодит" биш, харин товч бичлэг дээр сургагдсан, судлах боломжтой мэдрэлийн орон зай юм. Баруун талд бид хүссэн залруулга ('инээмсэглэх', 'зүүн тийш харах', 'дээшээ харах' гэх мэт) болон мэдрэлийн цацрагийн талбарын ихэвчлэн шийдэгдэх боломжгүй параметрүүдийн хооронд интерфейс болж буй 3D хувиргах нүүрний загварыг (3DMM) харж байна. дүрслэл. Энэ клипийн өндөр нарийвчлалтай хувилбарыг бусад жишээнүүдийн хамт үзнэ үү төслийн хуудас, эсвэл энэ нийтлэлийн төгсгөлд суулгагдсан видеонууд. Эх сурвалж: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

3DMM нь нүүр царайны CGI загварууд бөгөөд параметрүүдийг нь хянахад хэцүү NeRF, GAN гэх мэт хийсвэр дүрсний синтезийн системд тохируулж болно.

Дээрх зурган дээр (дунд талын зураг, цэнхэр цамцтай эрэгтэй) харж байгаа зүйл, мөн шууд доор байгаа зураг (зүүн талын зураг, цэнхэр цамцтай эрэгтэй) нь жижиг хэсэгтэй "бодит" видео биш юм. Хуурамч нүүрийг давхарласан боловч бие болон дэвсгэрийг оролцуулан зөвхөн эзэлхүүний мэдрэлийн дүрслэл хэлбэрээр оршдог бүхэлдээ нэгтгэсэн дүр зураг:

Дээрх шууд жишээн дээр баруун талд байгаа бодит амьдрал дээрх видеог (улаан даашинзтай эмэгтэй) зүүн талд байгаа дүрсийг (цэнхэр цамц өмссөн эрэгтэй) RigNeRF-ээр дамжуулан "хүүхэлдэй" болгоход ашигладаг бөгөөд энэ нь (зохиогчдын үзэж байгаагаар) анхных юм. NeRF-д суурилсан систем нь шинэ дүр төрхийг нэгтгэх чадвартай байхын зэрэгцээ дүр төрх, илэрхийлэлийг салгах боломжийг олгодог.

Дээрх зургийн зүүн талд байгаа эрэгтэй дүрсийг 70 секундын ухаалаг утасны видео бичлэгээс авсан бөгөөд оролтын өгөгдлийг (бүх үзэгдлийн мэдээллийг оруулаад) дараа нь дүр зургийг авахын тулд 4 V100 GPU-д сургасан.

3DMM загварын параметрийн өрөмдлөгүүдийг бас авах боломжтой бүх биеийн параметрийн CGI прокси (зүгээр л нүүр царай биш) RigNeRF нь хүний ​​бодит хөдөлгөөн, бүтэц, илэрхийлэлийг CGI-д суурилсан параметрийн давхаргад дамжуулж, дараа нь үйлдэл, илэрхийлэлийг NeRF орчин, видео болгон хувиргах бүрэн биетэй гүний хуурамч зургийг гаргах боломжийг нээж өгдөг. .

RigNeRF-ийн тухайд - гарчиг нь энэ нэр томъёог ойлгож байгаа нь одоогийн утгаараа гүн хуурамч арга гэж тэнцэх үү? Эсвэл энэ нь DeepFaceLab болон бусад хөдөлмөр их шаарддаг, 2017 оны эрин үеийн автомат кодлогч гүн фэйк систем рүү гүйж очсон өөр нэг хагас дутуу юм уу?

Шинэ нийтлэлийн судлаачид энэ талаар хоёрдмол утгагүй байна:

"RigNeRF нь нүүр царайг сэргээх чадвартай арга учраас муу жүжигчид хуурамч дүр бүтээхийн тулд буруугаар ашиглах хандлагатай байдаг."

Шинэ цаасан гэсэн гарчигтай RigNeRF: Бүрэн удирдах боломжтой мэдрэлийн 3D хөрөг зураг, мөн RigNeRF-ийн хөгжүүлэлтийн үеэр Adobe-д дадлага хийж байсан Стонибрук их сургуулийн ШахРух Атха болон Adobe Research-ийн өөр дөрвөн зохиогчоос гаралтай.

Автомат кодлогч дээр суурилсан Deepfakes-ээс гадна

Сүүлийн хэдэн жилийн турш олны анхаарлыг татсан вирусын гаралтай гүн фэйкүүдийн дийлэнх хувийг үйлдвэрлэдэг автомат кодчилол- 2017 онд нэн даруй хориглосон r/deepfakes subreddit дээр нийтлэгдсэн кодоос гаралтай системүүд - хэдийгээр гарахаас өмнө байгаагүй. хуулбарласан GitHub руу, одоогоор салаатай байна мянга гаруй удаа, наад зах нь алдартай (хэрэв маргаантай) DeepFaceLab хуваарилалт, мөн түүнчлэн нүүр солих төсөл.

GAN болон NeRF-ээс гадна автомат кодлогчийн хүрээ нь нүүрний нийлэгжилтийн хүрээг сайжруулах "удирдамж" болгон 3DMM-ийг туршиж үзсэн. Үүний нэг жишээ бол HifiFace төсөл 2021 оны XNUMX-р сараас. Гэсэн хэдий ч энэ арга барилаас өнөөг хүртэл ашиглах боломжтой эсвэл түгээмэл санаачилга гараагүй бололтой.

RigNeRF үзэгдлийн өгөгдлийг ухаалаг утасны богино хэмжээний видео бичлэг хийх замаар олж авдаг. Төслийн хувьд RigNeRF-ийн судлаачид бүх туршилтанд iPhone XR эсвэл iPhone 12 ашигласан. Зураг авалтын эхний хагаст камерыг тойруулан хөдөлгөхөд тухайн хүнээс толгойгоо хөдөлгөөнгүй байлгахын зэрэгцээ олон төрлийн нүүрний хувирал, яриаг гүйцэтгэхийг хүснэ.

Зураг авалтын хоёр дахь хагаст камер нь тогтмол байрлалаа хадгалж байхад тухайн хүн толгойгоо хөдөлгөж, өргөн хүрээний илэрхийлэлийг харуулах ёстой. Үр дүнд нь 40-70 секундын бичлэг (ойролцоогоор 1200-2100 фрейм) нь загварыг сургахад ашиглагдах бүх мэдээллийн багцыг төлөөлдөг.

Мэдээлэл цуглуулахыг багасгах

Үүний эсрэгээр, DeepFaceLab гэх мэт автомат кодлогч системүүд нь ихэвчлэн YouTube-ийн видео болон бусад олон нийтийн мэдээллийн сувгууд, түүнчлэн кинонуудаас (алдартны гүний хуурамч зургуудын хувьд) авсан олон мянган янз бүрийн зургийг харьцангуй их хөдөлмөрлөж, цуглуулах шаардлагатай болдог.

Үр дүнд нь сургагдсан автомат кодлогчийн загваруудыг ихэвчлэн янз бүрийн нөхцөлд ашиглах зорилготой байдаг. Гэсэн хэдий ч сургалтад долоо хоног ба түүнээс дээш хугацаа шаардагддаг ч хамгийн хурдан "алдартай" гүнзгийрүүлэгчид нэг видеоны төлөө бүхэл бүтэн загвар өмсөгчдийг эхнээс нь сургаж чаддаг.

Шинэ нийтлэлийн судлаачдын сэрэмжлүүлгийг үл харгалзан хиймэл оюун ухаантай порно болон YouTube/TikTok-ын алдартай YouTube/TikTok-ын 'deepfale recasting'-ийг хүчирхэгжүүлдэг "нөхөх ажил" болон өргөн хүрээний өгөгдлийн багцууд нь RigNeRF гэх мэт гүнзгий хуурамч системд хүлээн зөвшөөрөгдөхүйц, тогтвортой үр дүнд хүрэхгүй бололтой. үзэгдэлд зориулсан тусгай аргачлалтай. Шинэ бүтээлд дурдсан өгөгдөл цуглуулах хязгаарлалтыг харгалзан үзвэл энэ нь зарим талаараа хорлонтой гүн хуурамч этгээдүүд хувийн мэдээллийг санамсаргүй завшихаас хамгаалах нэмэлт хамгаалалт болж чадна.

NeRF-ийг Deepfake видеонд тохируулж байна

NeRF нь фотограмметрт суурилсан арга бөгөөд янз бүрийн өнцгөөс авсан цөөн тооны эх зургийг судлах боломжтой 3D мэдрэлийн орон зайд цуглуулдаг. Энэ арга нь энэ оны эхээр NVIDIA-г танилцуулах үед олны анхаарлыг татсан Шуурхай NeRF систем нь NeRF-ийн сургалтын асар их хугацааг минут, бүр секунд хүртэл бууруулах чадвартай.

Шуурхай NeRF. Эх сурвалж: https://www.youtube.com/watch?v=DJ2hcC1orc4

Үүссэн мэдрэлийн цацрагийн талбар нь үндсэндээ статик орчин бөгөөд үүнийг судлах боломжтой боловч засварлахад хэцүү. Судлаачид NeRF-д суурилсан өмнөх хоёр санаачлага - HyperNeRF + E/P болон NerFACE – нүүрний дүрс бичлэгийн нийлэгжилтэнд хутгалуулж, (бүрэн бүтэн байдал, хичээнгүй байдлын үүднээс) туршилтын шатанд RigNeRF-ийг эдгээр хоёр хүрээний эсрэг тавьсан:

Шуурхай NeRF. Эх сурвалж: https://www.youtube.com/watch?v=DJ2hcC1orc4

RigNeRF, HyperNeRF, NerFACE хоёрын чанарын харьцуулалт. Холбогдох эх сурвалжийн видео болон PDF-ээс илүү өндөр чанартай хувилбаруудыг үзнэ үү. Статик зургийн эх сурвалж: https://arxiv.org/pdf/2012.03065.pdf

RigNeRF, HyperNeRF, NerFACE хоёрын чанарын харьцуулалт. Холбогдох эх сурвалжийн видео болон PDF-ээс илүү өндөр чанартай хувилбаруудыг үзнэ үү. Статик зургийн эх сурвалж: https://arxiv.org/pdf/2012.03065.pdf

Гэсэн хэдий ч, энэ тохиолдолд RigNeRF-ийг дэмжсэн үр дүн нь хоёр шалтгааны улмаас нэлээд гажигтай байна: нэгдүгээрт, зохиогчид "алим-алимыг харьцуулах ажил байхгүй байна" гэж ажигласан; хоёрдугаарт, энэ нь өмнөх системүүдийн илүү хязгаарлагдмал ажиллагаатай ядаж хэсэгчлэн тааруулахын тулд RigNeRF-ийн чадавхийг хязгаарлах шаардлагатай болсон.

Үр дүн нь өмнөх ажлынхаа ахиц дэвшил биш, харин NeRF-ийн засварлах боломж, хэрэглүүрт гарсан "ололт"-ыг төлөөлж байгаа тул бид туршилтын үеийг хойш тавьж, оронд нь RigNeRF өмнөх хувилбаруудаас юугаараа ялгаатай болохыг харах болно.

Хамтарсан хүч чадал

NeRF орчинд поз/илэрхийллийн хяналтыг бий болгож чаддаг NerFACE-ийн үндсэн хязгаарлалт нь эх сурвалжийн бичлэгийг статик камераар авах болно гэж үздэг. Энэ нь зураг авах хязгаарлалтаас давсан шинэ үзэл бодлыг гаргаж чадахгүй гэсэн үг юм. Энэ нь "хөдөлгөөнт хөрөг" үүсгэх системийг бий болгодог, гэхдээ энэ нь гүнзгий хуурамч маягийн видео бичлэг хийхэд тохиромжгүй юм.

Харин HyperNeRF нь шинэлэг, хэт бодитой үзэл бодлыг бий болгох чадвартай ч толгойны байрлал, нүүрний хувирлыг өөрчлөх ямар ч хэрэгсэлгүй бөгөөд энэ нь дахин автомат кодлогч дээр суурилсан гүн хуурамч зурагтай ямар ч төрлийн өрсөлдөгч болохгүй.

RigNeRF нь 3DMM модулийн оролтоор хазайлт, хэв гажилтыг хийх үндсэн суурь болох "каноник орон зай" үүсгэснээр эдгээр хоёр тусгаарлагдсан функцийг нэгтгэх боломжтой.

3DMM-ээр үүсгэсэн хэв гажилтууд (жишээ нь поз, илэрхийлэл) ажиллах боломжтой "каноник орон зай" (поз, илэрхийлэлгүй) бий болгох.

3DMM-ээр үүсгэсэн хэв гажилтууд (жишээ нь поз, илэрхийлэл) ажиллах боломжтой "каноник орон зай" (поз, илэрхийлэлгүй) бий болгох.

3DMM систем нь авсан объекттой яг таарахгүй тул энэ үйл явцад үүнийг нөхөх нь чухал юм. RigNeRF нь үүнийг а-аас тооцоолсон хэв гажилтын талбараар гүйцэтгэдэг Олон давхаргат перцептрон (MLP) эх сурвалжаас авсан.

Деформацийг тооцоолоход шаардлагатай камерын параметрүүдийг ашиглан олж авна CONLMAP, хүрээ тус бүрийн илэрхийлэл болон хэлбэрийн параметрүүдийг -аас авдаг DECA.

Байршлыг улам оновчтой болгож байна тэмдэглэгээний тохируулга болон COLMAP-ын камерын параметрүүд, мөн тооцоолох нөөцийн хязгаарлалтын улмаас видео гаралтыг сургалтын зориулалтаар 256×256 нягтрал болгон бууруулсан (техник хангамжийн хязгаарлагдмал агшилтын процесс нь автомат кодлогчийн гүнзгийрүүлэх үзэгдэлд бас нөлөөлдөг).

Үүний дараа хэв гажилтын сүлжээг дөрвөн V100 дээр сургадаг - энгийн сонирхогчдын хүртээмжгүй гайхалтай техник хангамж (гэхдээ машин сургалтын сургалтын тухайд бол цаг хугацааны хувьд их хэмжээний мөнгө солилцох боломжтой байдаг бөгөөд энэ загварыг зүгээр л хүлээн зөвшөөрдөг. сургалт нь хэдэн өдөр, бүр долоо хоног байх болно).

Дүгнэж хэлэхэд судлаачид:

"Бусад аргуудаас ялгаатай нь RigNeRF нь 3DMM-ээр удирдуулсан хэв гажилтын модулийг ашигласны ачаар толгойны байрлал, нүүрний хувирал, бүрэн 3D хөрөг зургийг өндөр нарийвчлалтайгаар загварчлах боломжтой бөгөөд ингэснээр хурц нарийн ширийн зүйлсээр илүү сайн сэргээн засварлах боломжийг олгодог."

Дэлгэрэнгүй мэдээлэл болон үр дүнгийн бичлэгийг доорх суулгагдсан видеонуудыг үзнэ үү.

RigNeRF: Бүрэн удирдах боломжтой мэдрэлийн 3D хөрөг зураг

RigNeRF-ийн үр дүн

 

 

Анх 15 оны 2022-р сарын XNUMX-нд нийтлэгдсэн.