stuacach The Dawn of Deepfaked Mothúcháin - Unite.AI
Ceangail le linn

Faisnéise Saorga

Dawn na Mothúcháin Deepfaked

mm
Nuashonraithe on

Tá teicníc nua foghlama meaisín forbartha ag taighdeoirí chun mothúcháin nua a fhorchur go treallach ar aghaidheanna i bhfíseáin, ag oiriúnú teicneolaíochtaí atá ann cheana féin a tháinig chun cinn le déanaí mar réitigh chun gluaiseachtaí liopaí a mheaitseáil le dubáil teangacha iasachta.

Is comhoibriú comhionann é an taighde idir Ollscoil Oirthuaisceart Boston agus an Media Lab ag MIT, agus is teideal dó Frowns Invertable: Aistriúchán Físe-go-Físe ar Mhothúchán Aghaidhe. Cé go n-admhaíonn na taighdeoirí go gcaithfear cáilíocht tosaigh na dtorthaí a fhorbairt trí thaighde breise a dhéanamh, maíonn siad gurb í an teicníc, ar a dtugtar Wav2Lip-Emotion, an chéad cheann dá leithéid chun dul i ngleic go díreach le modhnú lánfhíseáin trí theicnící líonra néaraigh.

Tá an cód bonn curtha scaoileadh ar GitHub, cé go gcuirfear seicphointí múnla leis an stór foinse oscailte níos déanaí, geallann na húdair.

Ar thaobh na láimhe clé, fráma 'brónach' den fhíseán foinse. Ar dheis, fráma ‘sona’. Sa lár tá dhá chur chuige éiritheacha chun mothúcháin mhalartacha a shintéisiú – as a chéile ar an mbarr: aghaidh lán-mhaisithe ina bhfuil dromchla iomlán na slonn curtha in ionad; bun an tsraith: modh Wav2Lip níos traidisiúnta, nach n-ionadaíonn ach an chuid íochtair den aghaidh. Foinse: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Ar thaobh na láimhe clé, fráma 'brónach' den fhíseán foinse. Ar dheis, fráma ‘sona’. Sa lár tá dhá chur chuige éiritheacha chun mothúcháin mhalartacha a shintéisiú – as a chéile ar an mbarr: aghaidh lán-mhaisithe ina bhfuil dromchla iomlán na slonn curtha in ionad; bun an tsraith: modh Wav2Lip níos traidisiúnta, nach n-ionadaíonn ach an chuid íochtair den aghaidh. Foinse: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Físeán Aonair mar Shonraí Foinse

Go teoiriciúil, is féidir ionramhálacha den sórt sin a fháil anois trí oiliúint iomlán a chur ar stórtha domhainfhréige traidisiúnta mar DeepFaceLab nó FaceSwap. Mar sin féin, is éard a bheadh ​​i gceist leis an ngnáthsreabhadh oibre ná úsáid a bhaint as féiniúlacht mhalartach leis an ‘spriocfhéiniúlacht’, amhail aisteoir ag déanamh aithrise ar an sprioc, a aistreofaí a shloinneadh féin chuig duine aonair eile, in éineacht leis an gcuid eile den léiriú. Ina theannta sin, bheadh ​​​​teicnící clónála gutha domhainfake riachtanach de ghnáth chun an seachmaill a chomhlánú.

Thairis sin, i ndáiríre ag athrú an abairt de sprioc1>sprioc1 i bhfíseán foinse amháin faoi na creataí móréilimh seo bheadh ​​athrú ar an veicteoirí ailíniú aghaidhe ar bhealach nach n-éascaíonn na hailtireachtaí sin faoi láthair.

Coinníonn Wav2Lip-Emotion sioncrónú liopaí ar an gcomhphlé físe fuaime bunaidh agus na habairtí gaolmhara á n-athrú ag an am céanna.

Coinníonn Wav2Lip-Emotion sioncronú liopaí ar an mbunchomhrá fuaime físe agus na habairtí bainteacha á n-aistriú.

Ina áit sin, féachann Wav2Lip-Emotion go héifeachtach le habairtí a bhaineann le mothúcháin a ‘chóipeáil agus a ghreamú’ ó chuid amháin d’fhíseán agus iad a chur ina n-ionad i bpointí eile, le frugality féinfhorchurtha na sonraí foinseacha a bhfuil sé d’aidhm acu sa deireadh modh iarrachta níos ísle a thairiscint do ionramháil abairt.

D’fhéadfaí samhlacha as líne a fhorbairt níos déanaí a chuirtear faoi oiliúint ar fhíseáin mhalartacha den chainteoir, rud a fhágann nach gá go mbeadh ‘pailéad’ de stáit chainte in aon fhíseán amháin chun an físeán a láimhseáil.

Cuspóirí Féideartha

Molann na húdair roinnt iarratas ar mhodhnú slonn, lena n-áirítear scagaire físe beo chun éifeachtaí PTSD agus daoine atá ag fulaingt le pairilis aghaidhe a chúiteamh. Tugann an páipéar faoi deara:

‘D’fhéadfadh go mbainfeadh daoine aonair a bhfuil gothaí gnúise bactha acu nó nach bhfuil bac orthu leas a bhaint as a gcuid tuairimí féin a oiriúnú chun a gcúinsí sóisialta a oiriúnú níos fearr. Seans gur mhaith le duine na habairtí sna físeáin a thaispeántar dóibh a athrú. D'fhéadfadh cainteoirí a bheith ag béicíl ar a chéile le linn físchomhdháil, ach mar sin féin ba mhaith leo an t-ábhar a bhailiú ina malartú gan na habairtí míthaitneamhach. Nó b'fhéidir gur mhaith le stiúrthóir scannán nathanna cainte aisteoireachta a mhéadú nó a laghdú.'

Ós rud é go bhfuil léiriú facial a príomhtháscaire agus croí-tháscaire rúin, fiú sa chás go bhféadfadh sé abradú i gcoinne na bhfocal atá á labhairt, cuireann an cumas chun slonn a athrú freisin, go pointe, an cumas an chaoi a ndéantar an chumarsáid a athrú. a fuarthas.

Obair Roimh Ré

Téann an spéis san athrú slonn meaisínfhoghlama siar go dtí 2012 ar a laghad, nuair a comhoibriú idir Adobe, Facebook agus Ollscoil Rutgers mhol modh chun nathanna a athrú trí úsáid a bhaint as cur chuige atógáil céimseata 3D bunaithe ar Tensor, a chuir go dian i bhfeidhm mogalra CGI thar gach fráma de spriocfhíseán chun an t-athrú a chur i bhfeidhm.

Rinne taighde Adobe/Facebook 2012 ionramháil ar nathanna cainte trí athruithe traidisiúnta, bunaithe ar CGI a fhorchur ar phíosaí scannáin. D’fhéadfaí na habairtí a mhéadú nó a chur faoi chois. Foinse: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Rinne taighde Adobe/Facebook 2012 ionramháil ar nathanna cainte trí athruithe traidisiúnta, bunaithe ar CGI a fhorchur ar phíosaí scannáin. D’fhéadfaí na habairtí a mhéadú nó a chur faoi chois. Foinse: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Cé go raibh na torthaí tuar dóchais inti, bhí an teicníocht ualach agus ba mhór na hacmhainní a bhí ag teastáil. Ag an bpointe seo, bhí CGI i bhfad chun tosaigh ar chur chuige físbhunaithe ríomhaire maidir le spás gné díreach agus ionramháil picteilín.

Tá baint níos dlúithe ag an bpáipéar nua MEAD, múnla giniúna tacair sonraí agus slonn a eisíodh in 2020, atá in ann físeáin 'ceann cainte' a ghiniúint, ach gan an leibhéal sofaisticiúlachta a d'fhéadfaí a fháil trí fhíseán foinse iarbhír a mhodhnú go díreach.

Giniúint léirithe le 2020's MEAD, comhoibriú idir SenseTime Research, Carnegie Mellon, agus trí ollscoil na Síne. Foinse: https://wywu.github.io/projects/MEAD/MEAD.html

Giniúint léirithe le 2020's MEAD, comhoibriú idir SenseTime Research, Carnegie Mellon, agus trí ollscoil na Síne. Foinse: https://wywu.github.io/projects/MEAD/MEAD.html

In 2018 páipéar eile, dar teideal GANimation: Beochan Aghaidhe ó Íomhá Aonair atá feasach ar anatamaíocht, a tháinig chun cinn mar chomhoibriú taighde acadúil SAM/Spáinne, agus úsáid á baint as Líonraí Gineadacha Sáraimh chun nathanna cainte a mhéadú nó a athrú in íomhánna neamhbheo amháin.

Sloinn a athrú in íomhánna neamhbheo le GANimation. Foinse: https://arxiv.org/pdf/1807.09251.pdf

Sloinn a athrú in íomhánna neamhbheo le GANimation. Foinse: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Ina áit sin, tá an tionscadal nua bunaithe ar Wav2Lip, a poiblíocht garnered in 2020 trí mhodh féideartha a thairiscint chun gluaiseacht liopaí a athshioncronú chun freastal ar chaint nua (nó amhrán) ionchur nach raibh sa bhunfhíseán riamh.

An bunaidh Wav2lip ailtireacht cuireadh oiliúint air ar chorpas abairtí labhartha ó chartlann an BBC. D'fhonn Wav2Lip a chur in oiriúint don tasc a bhaineann le hathrú cainte, rinne na taighdeoirí 'mionchoigeartú' ar an ailtireacht ar an tacar sonraí MEAD thuasluaite.

Is éard atá i MEAD ná 40 uair an chloig d’fhíseáin ina bhfuil 60 aisteoir ag léamh na habairte céanna agus iad ag léiriú gothaí gnúise éagsúla. Is as 15 thír dhifriúla na haisteoirí agus tairgeann siad raon de thréithe idirnáisiúnta atá dírithe ar chabhrú leis an tionscadal (agus tionscadail díorthaithe) sintéis nathanna cainte infheidhmithe agus dea-ghinearálta a tháirgeadh.

Tráth an taighde, ní raibh ach an chéad chuid den tacar sonraí eisithe ag MEAD, ina raibh 47 duine ag léiriú nathanna cainte ar nós ‘feargach’, ‘disgust’, ‘eagla’, ‘díspeagadh’, ‘sona’, ‘brónach’ agus ‘iontas’. '. Sa chéad turas seo isteach i gcur chuige nua, chuir na taighdeoirí teorainn le scóip an tionscadail chun na mothúcháin ‘sona’ agus ‘brónach’ a bhraitear a fhorshuí nó a athrú ar bhealach eile, ós rud é gurb iad seo na cinn is éasca a aithnítear.

Modh agus Torthaí

Ní thagann an bhunailtireacht Wav2Lip in ionad ach an chuid íochtair den aghaidh, ach déanann Wav2Lip-Emotion turgnaimh freisin le masc athsholáthair aghaidhe iomlán agus sintéis léirithe. Mar sin bhí sé riachtanach do na taighdeoirí na modhanna meastóireachta ionsuite a mhodhnú freisin, ós rud é nach raibh siad seo deartha le haghaidh cumraíochta lán-aghaidhe.

Feabhsaíonn na húdair ar an gcód bunaidh tríd an ionchur fuaime bunaidh a choinneáil, comhsheasmhacht gluaiseachta liopaí a chothabháil.

Tá ionchódóir aitheantais, ionchódóir cainte agus díchódóir aghaidh ag an eilimint ghineadóra, de réir na hoibre níos luaithe. Tá an eilimint chainte ionchódaithe freisin mar convolutions cruachta 2T a chomhtháthaítear ina dhiaidh sin lena fráma(í) gaolmhar.

Chomh maith leis an eilimint ghiniúna, tá trí phríomh-chomhpháirt idirdhealaitheacha san ailtireacht mhodhnaithe, ag díriú ar cháilíocht sioncrónaithe liopaí, eilimint oibiachtúil mothúcháin, agus cuspóir cáilíochta amhairc atá oilte go sáraitheach.

Chun aghaidh iomlán a athchruthú, ní raibh aon fasach sa bhunobair Wav2Lip, agus mar sin cuireadh oiliúint ar an tsamhail ón tús. Maidir le hoiliúint ar aghaidh níos ísle (leath-masc), chuaigh na taighdeoirí ar aghaidh ó sheicphointí a bhí sa bhunchód Wav2Lip.

In aice leis an meastóireacht uathoibríoch, d'úsáid na taighdeoirí tuairimí sluafhoinsithe a sholáthair ardán seirbhíse leath-uathoibríoch. Go ginearálta, thug na hoibrithe ard-rátáil ar an aschur i dtéarmaí na mothúcháin fhorshuite a aithint, agus gan ach meastóireachtaí 'measartha' a thuairisciú ar cháilíocht íomhá.

Tugann na húdair le fios, seachas feabhas a chur ar cháilíocht físeán ginte le tuilleadh mionchoigeartuithe, go bhféadfadh atriallta na hoibre amach anseo raon níos leithne de mhothúcháin a chuimsiú, agus go bhféadfaí an saothar a chur i bhfeidhm go cothrom amach anseo ar shonraí agus tacair shonraí foinse lipéadaithe nó go huathoibríoch tátal, chun tosaigh, sa deireadh. , le córas barántúil ina bhféadfaí mothúcháin a dhiailiú suas nó anuas ag whim an úsáideora, nó ar deireadh thiar mothúcháin chodarsnacha a chur ina n-ionad i leith an bhunfhíseáin.