Îstîxbaratê ya sûnî

LipSync3D-ya Google-ê Hevdengkirina Tevgera Devê 'Deepfaked' Pêşvebir pêşkêşî dike

Demê on December 9, 2022

A hevkarî di navbera lêkolînerên Google AI û Enstîtuya Teknolojiya Hindî Kharagpur de çarçoveyek nû pêşkêşî dike da ku serê axaftinê ji naveroka bihîstwerî berhev bike. Proje armanc dike ku awayên xweşbînkirî û bi çavkaniyek maqûl hilberîne da ku naveroka vîdyoyê ya 'serê axaftinê' ji dengbêjiyê biafirîne, ji bo mebestên hevdengkirina tevgerên lêvan bi dengê dublajkirî an bi makîneyê veguheztin, û ji bo karanîna di avataran de, di sepanên înteraktîf de, û di warên din de. derdorên rast-time.

Çavkanî: https://www.youtube.com/watch?v=L1StbX9OznY

Modelên fêrbûna makîneyê yên ku di pêvajoyê de hatine perwerde kirin - bi navê LipSync3D - tenê vîdyoyek nasnameya rûyê armancê wekî daneya têketinê hewce dike. Xeta amadekirina daneyê derxistina geometriya rû ji nirxandina ronahiyê û aliyên din ên vîdyoyek têketinê vediqetîne, ku destûrê dide perwerdehiya aborî û baldartir.

Kar-herikîna du-qonaxa LipSync3D. Li jor, hilberîna rûyek 3D ya dînamîkî ya bi xêzkirî ya ji dengê 'hedef'; li jêr, xistina tevna çêkirî di vîdyoyek armanc de.

Di rastiyê de, beşdariya herî berbiçav a LipSync3D di laşê hewildana lêkolînê de di vê deverê de dibe ku algorîtmaya wê ya normalîzekirina ronahiyê be, ku perwerdehiyê û ronahiya encamkirinê vediqetîne.

Veqetandina daneya ronahiyê ji geometriya giştî ji LipSync3D re dibe alîkar ku di bin şert û mercên dijwar de hilbera tevgera lêvên rastîntir hilberîne. Nêzîktêdayînên din ên van salên dawî xwe bi şert û mercên ronahiyê yên 'serast' ve sînordar kirine ku dê di vî warî de kapasîteya wan a hindiktir eşkere neke.

Di dema pêş-pêvajoya çarçoveyên daneya têketinê de, pêdivî ye ku pergal xalên spekuler nas bike û jê rake, ji ber ku ev taybetî ji şert û mercên ronahiyê yên ku vîdyoyê tê de hatî girtin in, û wekî din dê di pêvajoya ronîkirina nû de mudaxele bikin.

LipSync3D, wekî ku navê wê diyar dike, ne tenê analîza pixelê li ser rûyên ku ew dinirxîne pêk tîne, lê bi awayekî aktîf nîşanên rûyê naskirî bikar tîne da ku tevnên şêwaza CGI-ya tevgerî biafirîne, bi hev re tevnvîsên 'nevekirî' yên ku li dora wan di CGI-yek kevneşopî de hatine pêçan. boriyê.

Di LipSync3D de normalîzekirina poz. Li milê çepê çarçoveyên têketinê û taybetmendiyên hatine tespîtkirin hene; di naverastê de, lûtkeyên normalîzekirî yên nirxandina tevna hilberandî; û li milê rastê, atlasa tevnvîsê ya têkildar, ku rastiya zemînê ji bo pêşbîniya tevnê peyda dike. Çavkanî: https://arxiv.org/pdf/2106.04185.pdf

Ji xeynî rêbaza nûvekirina nûjen, lêkolîner îdia dikin ku LipSync3D sê nûbûnên sereke li ser xebata berê pêşkêşî dike: veqetandina geometrî, ronîkirin, poz û nîgarê di herikên daneya veqetandî de li cîhek normalîzekirî; modelek pêşbîniya tevnvîsê ya xweser-regresîv ku bi hêsanî tê perwerdekirin ku hevrêziya vîdyoyê ya demkî çêdike; û realîzma zêde, wekî ku ji hêla pîvanên mirovî û metrîkên objektîf ve têne nirxandin.

Parçekirina cûrbecûr aliyên dîmenên rûyê vîdyoyê di senteza vîdyoyê de bêtir kontrol dike.

LipSync3D dikare bi analîzkirina fonem û aliyên din ên axaftinê ve, tevgera geometrîya lêv guncan rasterast ji deng derxe, û wan wergerîne nav pozên masûlkeyên têkildar ên li dora devera devê.

Ev pêvajo boriyek pêşbîniya hevbeş bikar tîne, ku li wir geometrî û tevna têgihîştî şîfrekerên veqetandî di sazûmanek kodkerek xweser de hene, lê şîfreyek dengî bi axaftina ku tê xwestin ku li ser modelê were ferz kirin re parve dike:

Senteza tevgera label a LipSync3D di heman demê de ji bo hêzkirina avatarên CGI yên stîlîzekirî jî tê armanc kirin, ku di rastiyê de tenê heman celeb agahdariya tevn û tevnê ne wekî wêneyên cîhana rastîn:

Avatarek 3D-ya stîlîzekirî tevgerên lêvên xwe di demek rast de ji hêla vîdyoyek axaftvanek çavkaniyê ve têne hêz kirin. Di senaryoyek weha de, encamên çêtirîn dê bi pêş-perwerdeya kesane were bidestxistin.

Lekolînwan her weha pêşbîniya karanîna avataran bi hestek hinekî rastîntir dikin:

Demên perwerdehiyê yên nimûne ji bo vîdyoyan di navbera 3-5 demjimêran de ji bo vîdyoyek 2-5 hûrdem, di lûleyek ku TensorFlow, Python û C++ li ser GeForce GTX 1080 bikar tîne. Di danişînên perwerdehiyê de mezinahiya komê ya 128 çarçove li ser 500-1000 bikar anîn. serdem, bi her serdemê re nirxandinek bêkêmasî ya vîdyoyê temsîl dike.

LipSync3D: Ji Vîdyoyê Rûyên Axaftina 3D Kesanekirî bi karanîna Normalkirina Poz û Ronahî

LipSync3D: Personalized 3D Talking Faces from Video using Pose and Lighting Normalization

Watch this video on YouTube

Ber bi Dinamîk Re-Synching of Lip Movement

Qada hevdengkirina lêvên ji nû ve ji bo cîbicîkirina rêgezek dengî ya nû di van çend salên dawî de di lêkolîna dîtina kompîturê de balek mezin kişandiye (li jêr binêre), nexasim ji ber ku ew berhemek nakok e. teknolojiya deepfake.

Di 2017 de Zanîngeha Washington lêkolîn pêşkêş kirin ku bikaribe ji dengbêjî hevdengkirina lêvan fêr bibe, wê bikar bîne da ku tevgerên lêvên serokê wê demê Obama biguhezîne. Di sala 2018 de; Enstîtuya Max Planck ji bo Informatîk rêberiya destpêşxeriya lêkolînê ya din ji bo çalakkirina nasname> veguheztina vîdyoya nasnameyê, bi hevrêziya lêv a by-berhema pêvajoyê; û di gulana 2021-an de destpêkek AI-yê FlawlessAI teknolojiya xweya hevdemkirina lêvên TrueSync, bi berfirehî eşkere kir. stand di çapameniyê de wekî çalakkarê teknolojiyên dûblajê yên pêşkeftî yên ji bo weşanên mezin ên fîlman li ser zimanan.

Û, bê guman, pêşkeftina domdar a depoyên çavkaniya vekirî ya kûr-fake şaxek din a lêkolîna çalak a bikarhêner a beşdar di vê qada senteza wêneya rû de peyda dike.