Хиймэл оюун

Шинэ Deepfake арга нь "Нүүрний хост"-ын асуудлыг шийддэг

шинэчлэгдсэн on Арванхоёрдугаар сар 9, 2022

Хэд хэдэн жилийн турш хэвлэл мэдээллийн хэрэгслээр гүн хуурамч зургууд нь видео бичлэгийн жинхэнэ гэдэгт итгэх бидний итгэлийг хөсөрдүүлж болзошгүй талаар хэтрүүлэн шуугиулж байсан ч одоогоор түгээмэл хэрэглэгддэг бүх аргууд нь зорилтот нүүртэй ерөнхийдөө төстэй "царайны хостуудыг" олоход тулгуурладаг.

Анхны бичлэг нь өргөн царайтай, харин зорилтот объект нь нарийхан царайтай бол үр дүн нь үргэлж асуудалтай байдаг, учир нь ийм шилжүүлэлт нь анхны нүүрний хэсгийг таслан авч, одоо ил гарсан дэвсгэрийг сэргээдэг. DeepFaceLab болон FaceSwap зэрэг одоогийн багцууд нь тохиргоог өөрчлөх үед (нарийн>өргөн) хязгаарлагдмал үр дүнг гаргах боломжтой боловч энэ хувилбарыг үнэмшилтэй шийдвэрлэх ямар ч боломж байхгүй.

Одоо Tencent болон Хятадын Шиамэнь их сургуулийн хамтын ажиллагаа a шинэ хандлагаЭнэ дутагдлыг нөхөх зорилготой HifiFace нэртэй.

Хоёр HifiFace Deepfakes нь Энн Хэтэуэйн анхных бөгөөд нүүрний хэлбэр нь таарахгүй байсан ч сайн дүр төрхийг олж авдаг. HifiFace нь нүдний шилтэй байн дээр ч сайн ажилладаг бөгөөд энэ нь уламжлалт байдлаар deepfake-д саад болдог. Эх сурвалж: https://arxiv.org/pdf/2106.09965.pdf

Хоёр HifiFace Deepfakes нь Энн Хэтэуэйн анхных бөгөөд нүүрний хэлбэр нь таарахгүй байгаа хэдий ч сайн дүр төрхийг олж авдаг. HifiFace нь нүдний шилтэй байн дээр ч сайн ажилладаг бөгөөд энэ нь уламжлалт байдлаар гүнзгийрүүлэхэд саад болдог. Эх сурвалж: https://arxiv.org/pdf/2106.09965.pdf

Гүнзгий царайг засах

Өмнөх хандлага, тухайлбал 2019 он Субьект үл тоомсорлож буй царайг солих, дахин дүрслэх (ФСГАН), -аас хамааралтай байсан 3DMM тохируулга (3D хувиргах загварууд) эсвэл нүүрний онцлогийг таних эсвэл хувиргахад суурилсан бусад аргачлалууд бөгөөд энд "дарж бичих" нүүрний шугамууд нь солилцооны хил хязгаарыг бараг зааж өгдөг:

3DMM нүүрний тэмдэглэгээг илрүүлэх. Эх сурвалж: https://github.com/Yinghao-Li/3DMM-fitting

Өрсөлдөгч аргууд нь нүүр царай таних сүлжээнүүдийн онцлогт тулгуурласан хэдий ч эдгээр нь үндсэндээ бүтэц гэхээсээ илүү бүтцийг сэргээхэд чиглэгддэг бөгөөд нүүр царай нь бүрэн нийцэхгүй тохиолдолд (жишээ нь, хязгаар, хэлбэр) ижил төстэй байдлаар "маск шиг" нөлөө үзүүлдэг. үсний шугам, эрүү, хацрын яс).

Эдгээр асуудлыг шийдвэрлэхийн тулд Хятадын судлаачид тус их сургуулийн Хиймэл оюун ухааны тэнхимийн Медиа аналитик ба тооцооллын лабораторид түшиглэн 3D сэргээн босгох загварыг ашиглан зорилтот болон эх үүсвэрийн коэффициентийг регресс болгон төгсгөлийн сүлжээг бүтээжээ. Дараа нь дүрсний мэдээлэл болгон дахин нэгтгэж, нүүр таних сүлжээний таних векторын мэдээлэлтэй холбодог.

Дараа нь энэхүү геометрийн өгөгдлийг кодлогч-декодерийн загварт бүтцийн мэдээлэл болгон оруулж, зорилтот царайны илэрхийлэл, хандлагатай холилдож, үнэн зөв дамжуулахад туслах эх үүсвэр болгон ашигладаг.

Семантик нүүрний нэгдэл

Нэмж дурдахад HifiFace нь Semantic Facial Fusion (SFF) бүрэлдэхүүнийг агуулдаг бөгөөд энэ нь зорилтот зургийн таних чанарыг алдагдуулахгүйгээр орон зайн болон бүтэцтэй мэдээллийг хадгалахын тулд кодлогчийн доод түвшний функцийг ашигладаг. Кодер болон декодчилогчийн онцлогуудыг сурсан дасан зохицох маск болгон нэгтгэж, суурь мэдээллийг сурсан нүүрний маск ашиглан гаралтад нэгтгэдэг.

HifiFace ажиллаж байна. Эх сурвалж: https://johann.wang/HifiFace/

Ийм маягаар HifiFace нь нүүр царайны семантик сегментчиллийг ашиглан анхны материаллаг нүүрний хил хязгаарыг хатуу хязгаар болгон ашиглахаас татгалзаж, загвар нь нүүрний ирмэгийн хил дээр илүү сайн дасан зохицох чадвартай болно.

Өмнөх хоёр арга (зүүн дээд ба доод) болон кодлогч, декодлогч, 3D хэлбэрийг таних таних төхөөрөмж, SFF модулиас бүрдэх шинэ HifiFace архитектур.

FSGAN-ийн өмнөх аргуудтай харьцуулбал, SimSwap болон FaceShifter, HifiFace нь нүүрний хуваалтууд нь таних тэмдэг>баримтлалын зураглалыг төөрөлдүүлж буй "сүнс" элементүүдийг ойртуулахгүй, харин тэдгээрийг бүрэн сэргээдэг тул нүүрний хэлбэрийг дээд зэргээр сэргээж байгааг харуулж байна.

тест хийх

Судлаачид уг системийг ашиглан VGGFace2 болон DeepGlint Азийн алдартнууд өгөгдлийн багц. Нүүрийг 5 гадна талын тэмдэглэгээгээр зэрэгцүүлж, 256×256 пиксел болгож дахин тайрсан. Нэмэлт өндөр нарийвчлалтай загварт зориулж 512 × 512 пикселийн хувилбарыг үүсгэхийн тулд хөрөг сайжруулах сүлжээг ашигласан. Загвар өмсөгчийг дор сургасан Адам.

Хэдийгээр FaceShifter нь хувийн шинж чанарыг сайн хадгалдаг боловч HifiFace шиг илэрхийлэл, өнгө, түгжрэл зэрэг асуудлыг шийдэж чадахгүй бөгөөд илүү төвөгтэй сүлжээний бүтэцтэй. FSGAN нь гэрэлтүүлгийг эх үүсвэрээс объект руу шилжүүлэхэд асуудалтай байдаг.

Судлаачид ашигладаг FaceForensics ++ тоон харьцуулалт хийхийн тулд өрсөлдөгч аргуудын дагуу хөрвүүлсэн видеонуудын багцад тус бүр арван фрэймийг түүвэрлэн, HifiFace нь ID сэргээх өндөр оноо авсан болохыг олж мэдэв. Зургийн чанар зэрэг бусад олон хүчин зүйлийг туршиж үзэхэд судлаачид өөрсдийн арга нь өрсөлдөгчийн арга зүйгээсээ илүү байгааг олж тогтоосон.

Бенедикт Камбербэтчийн нүүрний шугамыг үнэнчээр хуулбарласан.

Энэхүү ажил нь эх материалыг хийсвэрлэх цаашдын алхам бөгөөд энэ нь зөвхөн үнэн зөв таних мэдээллийг шилжүүлэх боломжтой бүдүүлэг загвар юм. DeepFaceLab зэрэг одоогийн FOSS багцуудын зарим нь толгойг бүрэн солих шинэхэн функцтэй байдаг боловч HifiFace-ийн нэгэн адил эдгээр нь үсийг харгалздаггүй бөгөөд нүүр царайг тааруулахын тулд зүсэхээс илүү "барьж гаргахад" илүү үр дүнтэй байдаг. хүссэн зорилтот эх сурвалж.

Дараа хүртэл

Мэдрэлийн хэсгүүд: Утга учиртай геометрийн командуудыг задлах

Бүү саад бол

Синтетик өгөгдөл: Grand Theft Auto ашиглан бөглөрлийн цоорхойг арилгах

Мартин Андерсон

Машин сургалт, хиймэл оюун ухаан, том өгөгдлийн талаар зохиолч.
Хувийн сайт: martinanderson.ai
Холбоо барих: [имэйлээр хамгаалагдсан]
Twitter: @manders_ai

Unite.AI

Шинэ Deepfake арга нь "Нүүрний хост"-ын асуудлыг шийддэг

Хиймэл оюун