Mākslīgais intelekts
Atdalīšana ir nākamā dziļā viltus revolūcija
CGI datu palielināšana tiek izmantota jaunā projektā, lai iegūtu lielāku kontroli pār dziļi viltotiem attēliem. Lai gan jūs joprojām nevarat efektīvi izmantot CGI galviņas, lai aizpildītu trūkstošās nepilnības dziļi viltotās sejas datu kopās, jauns pētījumu vilnis par identitātes nošķiršanu no konteksta nozīmē, ka drīzumā jums tas vairs nebūs jādara.
Dažu pēdējo gadu veiksmīgāko vīrusu dziļo viltojumu videoklipu veidotāji ļoti rūpīgi atlasa savus avota videoklipus, izvairoties no ilgstošiem profila kadriem (ti, tādiem sānu kadriem, ko popularizē policijas aizturēšanas procedūras), akūtiem leņķiem un neparastiem vai pārspīlētiem izteicieniem. . Arvien biežāk demonstrācijas videoklipi, ko veido vīrusu dziļi viltotāji, ir rediģētas kompilācijas, kurās tiek atlasīti “vieglākie” dziļuma viltošanas leņķi un izteiksmes.
Faktiski vispiemērotākais mērķa videoklips, kurā ievietot dziļi viltotu slavenību, ir tāds, kurā sākotnējā persona (kuras identitāti dzēsīs dziļais viltojums) skatās tieši kamerā ar minimālu izteicienu klāstu.
Tā kā deepfake tehnoloģijas, piemēram, DeepFaceLab un Sejas maiņa veikt šos vienkāršākos mijmaiņas darījumus ļoti labi, mēs esam pietiekami apžilbināti no viņu paveiktā, lai nepamanītu, uz ko viņi nav spējīgi, un bieži vien pat nemēģināt:
Jauns pētījums Izraēla ierosina jaunu metodi sintētisko datu, piemēram, CGI galviņu, izmantošanai, lai 2020. gados ieviestu dziļu viltošanu, patiesi nošķirot sejas identitātes (ti, galvenās “Toma Krūza” sejas īpašības no visiem leņķiem) no konteksta (t. Meklēt, skatoties uz sāniem, sariecot, raustoties tumsā, uzacis sarauktas, aizvērtas acis, Utt.)
Tas nav vienkārši deepfake head-leļļu teātris, paņēmiens, kas ir vairāk piemērots iemiesojumiem un daļējai sejas lūpu sinhronizēšanai, un kam ir ierobežots potenciāls pilnvērtīgām deepfake video transformācijām.
Tas drīzāk ir ceļš uz priekšu instrumentalitātes fundamentālai nodalīšanai (piemēram, "mainīt galvas leņķi", 'raukt pieri') no identitātes, piedāvājot ceļu uz augsta līmeņa, nevis uz “atvasinātu” attēlu sintēzi balstītu deepfake ietvaru.
Jaunajam papīram ir nosaukums Delta-GAN-kodētājs: semantisko izmaiņu kodēšana precīzai attēlu rediģēšanai, izmantojot dažus sintētiskos paraugus, un nāk no Technion – Izraēlas Tehnoloģiju institūta pētniekiem.
Lai saprastu, ko nozīmē darbs, apskatīsim, kā pašlaik tiek ražoti dziļi viltojumi visur, sākot no dziļi viltotām pornogrāfijas vietnēm līdz Rūpnieciskā gaisma un maģija (jo DeepFaceLab atvērtā pirmkoda repozitorijs pašlaik dominē gan "amatieru", gan profesionālajā dziļajā viltošanā).
Kas aizkavē pašreizējo Deepfake tehnoloģiju?
Deepfake pašlaik tiek veidotas, apmācot an kodētājs/dekodētājs mašīnmācīšanās modelis uz divām sejas attēlu mapēm — personai, kuru vēlaties “pārkrāsot” (iepriekšējā piemērā tas ir Ārnijs), un personai, kuru vēlaties ievietot materiālā (Sly).
Tad kodētāja/dekodētāja sistēma salīdzina katru attēlu katrā mapē savā starpā, uzturot, uzlabojot un atkārtojot šo darbību simtiem tūkstošu iterāciju (bieži vien pat nedēļu), līdz tā pietiekami labi izprot abu identitāšu būtiskos raksturlielumus, lai pēc vēlēšanās tās apmainītu.
Katram no diviem cilvēkiem, kas tiek apmainīti šajā procesā, dziļās viltus arhitektūra uzzina par identitāti sapinušies ar kontekstu. Tas nevar iemācīties un pielietot principus par vispārīgu pozu “uz labu un visiem”, bet apmācības datu kopā ir vajadzīgi bagātīgi piemēri katrai identitātei, kas tiks iesaistīta seju maiņā.
Tāpēc, ja vēlaties apmainīties ar divām identitātēm, kas dara kaut ko neparastāku, nekā tikai smaida vai skatās tieši kamerā, jums būs nepieciešams daudz šīs konkrētās pozas/identitātes gadījumi abās seju kopās:
Ja komplektā A ir neparastā poza, bet komplektā B tās trūkst, jums nav paveicies; neatkarīgi no tā, cik ilgi jūs apmācīsit modeli, tas nekad neiemācīsies labi atveidot šo pozu starp identitātēm, jo tai bija tikai puse no nepieciešamās informācijas, kad tā tika apmācīta.
Pat ja jums ir atbilstoši attēli, ar to var nepietikt: ja komplektam A ir atbilstoša poza, bet ar skarbu sānu apgaismojumu, salīdzinot ar plakanā apgaismojuma ekvivalentu pozu otrā sejas komplektā, maiņas kvalitāte uzvarēja. nav tik labi, it kā katram būtu kopīgas apgaismojuma īpašības.
Kāpēc datu ir maz
Ja vien jūs netiekat arestēts regulāri, iespējams, jums nav tik daudz sānprofila kadru ar sevi. Visu, kas radās, jūs, iespējams, izmetāt. Tā kā attēlu aģentūras rīkojas tāpat, profila sejas attēlus ir grūti atrast.
Deepfakers bieži iekļauj vairākas ierobežotā sānskata profila datu kopijas, kas viņiem ir identitātei sejas komplektā, lai poza iegūtu vismaz maz uzmanība un laiks treniņa laikā, nevis tiek atņemts kā an ārēji.
Taču ir daudz vairāk iespējamo veidu sānskata sejas attēlu, nekā varētu būt pieejams iekļaušanai datu kopā. smiling, saraucot pieri, kliedz, saucošs, tumši apgaismots, nievājošs, garlaicīgi, jautrs, zibspuldze apgaismota, Meklēt, skatīties lejā, acis vaļā, acis ciet…un tā tālāk. Jebkura no šīm pozām vairākās kombinācijās var būt nepieciešama mērķa dziļa viltota mērķa videoklipā.
Un tie ir tikai profili. Cik tev ir bilžu, kurās tu skaties taisni uz augšu? Vai jums ir pietiekami daudz, lai plaši pārstāvētu 10,000 XNUMX iespējamo izteicienu jūs varētu valkāt, turot tieši šo pozu no šī precīzā kameras leņķa, aptverot vismaz dažus no viens miljons iespējamo apgaismojuma vidi?
Pastāv iespēja, ka jums pat nav viens attēls, kurā jūs skatāties uz augšu. Un tie ir tikai divi leņķi no simts vai vairāk, kas nepieciešami pilnīgam pārklājumam.
Pat ja būtu iespējams ģenerēt pilnīgu sejas pārklājumu no visiem leņķiem dažādos apgaismojuma apstākļos, iegūtā datu kopa būtu pārāk liela, lai to apmācītu — simtiem tūkstošu attēlu; un pat ja tā varētu Apmācības process pašreizējām dziļi viltotām ietvariem izmestu lielāko daļu šo papildu datu par labu ierobežotam skaitam atvasinātu funkciju, jo pašreizējās sistēmas ir reducējošas un nav īpaši mērogojamas.
Sintētiskā aizstāšana
Kopš dziļo viltojumu sākuma dziļi viltotāji ir eksperimentējuši ar CGI stila attēlu izmantošanu, galvām, kas izgatavotas 3D lietojumprogrammās, piemēram, Cinema4D un Maya, lai radītu šīs "trūkstošās pozas".
Jaunie dziļo viltojumu praktiķi parasti agri atsakās no šīs metodes, jo, lai gan tā var nodrošināt pozas un izteiksmes, kas citādi nav pieejamas, CGI seju sintētiskais izskats parasti izplūst līdz mijmaiņas darījumiem ID un kontekstuālās/semantiskās informācijas sapīšanās dēļ.
Tas var novest pie pēkšņas “neparastās ielejas” seju uzplaiksnīšanas citādi pārliecinošā dziļi viltotā videoklipā, jo algoritms sāk izmantot vienīgos datus, kas tam var būt par neparastu pozu vai izteiksmi — acīmredzami viltotām sejām.
CGI sejas kā atsevišķas, konceptuālas vadlīnijas
Tā vietā Izraēlas pētnieku jaunā Delta-GAN kodētāja (DGE) metode ir efektīvāka, jo poza un kontekstuālā informācija no CGI attēliem ir pilnībā atdalīta no mērķa "identitātes" informācijas.
Šo principu var redzēt darbībā zemāk esošajā attēlā, kur ir iegūtas dažādas galvas orientācijas, izmantojot CGI attēlus kā vadlīnijas. Tā kā identitātes iezīmes nav saistītas ar kontekstuālajām pazīmēm, nav redzams ne CGI sejas viltus izskata sintētiskais izskats, ne tajā attēlotā identitāte:
Šī identitātes un konteksta nodalīšana tiek panākta apmācības posmā. Jaunās dziļās viltus arhitektūras konveijerā tiek meklēts latentais vektors iepriekš apmācītā ģeneratīvajā pretrunīgajā tīklā (Generative Adversarial Network — GAN), kas atbilst pārveidojamajam attēlam — Sim2Real metodoloģija, kas balstās uz 2018. projekts no IBM AI pētniecības sadaļas.
Pētnieki novēro:
“Izmantojot tikai dažus paraugus, kas atšķiras ar īpašu atribūtu, var uzzināt iepriekš apmācīta sapinušies ģeneratīvā modeļa atdalīto uzvedību. Lai sasniegtu šo mērķi, nav nepieciešami precīzi reālās pasaules paraugi, kas ne vienmēr ir iespējams.
"Izmantojot nereālistiskus datu paraugus, to pašu mērķi var sasniegt, izmantojot kodēto latento vektoru semantiku. Vēlamo izmaiņu piemērošanu esošajiem datu paraugiem var veikt bez skaidras latentās telpas uzvedības izpētes.
Pētnieki paredz, ka projektā izpētītos atdalīšanas pamatprincipus varētu pārnest uz citām jomām, piemēram, interjera arhitektūras simulācijām, un ka Delta-GAN-Encoder pieņemtā Sim2Real metode galu galā varētu nodrošināt dziļu viltojumu instrumentalitāti, kuras pamatā ir tikai skices, nevis CGI stila ievade.
Varētu apgalvot, ka tas, cik lielā mērā jaunā Izraēlas sistēma varētu vai nevarētu sintezēt dziļi viltotus videoklipus, ir daudz mazāk nozīmīgs nekā pētījuma progress konteksta nošķiršanā no identitātes, iegūstot lielāku kontroli pār latento telpu. no GAN.
Atdalīšana ir aktīvs attēlu sintēzes pētījumu lauks; 2021. gada janvārī Amazon vadīts pētījums papīrs demonstrēja līdzīgu pozu kontroli un atdalīšanu, un 2018. gadā a papīrs Ķīnas Zinātņu akadēmijas Šeņdžeņas progresīvo tehnoloģiju institūti ir panākuši progresu, veidojot patvaļīgus viedokļus GAN.