Inteligjenca artificiale
LipSync3D i Google ofron sinkronizim të përmirësuar të lëvizjes së gojës 'të thellë'
A bashkëpunim ndërmjet studiuesve të Google AI dhe Institutit Indian të Teknologjisë Kharagpur ofron një kornizë të re për të sintetizuar kokat që flasin nga përmbajtja audio. Projekti synon të prodhojë mënyra të optimizuara dhe me burime të arsyeshme për të krijuar përmbajtje video të 'kokës që flet' nga audio, për qëllime të sinkronizimit të lëvizjeve të buzëve me audion e dubluar ose të përkthyer nga makineri, dhe për përdorim në avatarë, në aplikacione interaktive dhe në të tjera mjedise në kohë reale.
Modelet e mësimit të makinerive të trajnuara në këtë proces - të quajtura LipSync3D - kërkojnë vetëm një video të vetme të identitetit të fytyrës së synuar si të dhëna hyrëse. Tubacioni i përgatitjes së të dhënave ndan nxjerrjen e gjeometrisë së fytyrës nga vlerësimi i ndriçimit dhe aspekteve të tjera të një videoje hyrëse, duke lejuar një trajnim më ekonomik dhe më të fokusuar.
Në fakt, kontributi më i dukshëm i LipSync3D në trupin e përpjekjeve kërkimore në këtë fushë mund të jetë algoritmi i tij i normalizimit të ndriçimit, i cili shkëput trajnimin dhe ndriçimin e konkluzioneve.
Gjatë përpunimit paraprak të kornizave të të dhënave hyrëse, sistemi duhet të identifikojë dhe të heqë pikat spekulare, pasi këto janë specifike për kushtet e ndriçimit në të cilat është realizuar videoja dhe përndryshe do të ndërhyjnë në procesin e rindizimit.
LipSync3D, siç sugjeron emri i tij, nuk po kryen thjesht analiza pixel në fytyrat që vlerëson, por përdor në mënyrë aktive pika referimi të identifikuara të fytyrës për të gjeneruar rrjeta lëvizëse të stilit CGI, së bashku me teksturat 'të shpalosura' që janë mbështjellë rreth tyre në një CGI tradicionale. tubacioni.
Përveç metodës së re të ndriçimit, studiuesit pohojnë se LipSync3D ofron tre risi kryesore në punën e mëparshme: ndarjen e gjeometrisë, ndriçimit, pozës dhe teksturës në rrjedha diskrete të të dhënave në një hapësirë të normalizuar; një model parashikimi teksture auto-regresive lehtësisht i trajnueshëm që prodhon sintezë video të qëndrueshme përkohësisht; dhe rritja e realizmit, siç vlerësohet nga vlerësimet njerëzore dhe metrikat objektive.
LipSync3D mund të nxjerrë lëvizjen e duhur të gjeometrisë së buzëve drejtpërdrejt nga audio duke analizuar fonema dhe aspekte të tjera të të folurit dhe duke i përkthyer ato në poza të njohura përkatëse të muskujve rreth zonës së gojës.
Ky proces përdor një tubacion parashikues të përbashkët, ku gjeometria dhe tekstura e konkluduar kanë kodues të dedikuar në një konfigurim autoenkoder, por ndajnë një kodues audio me fjalimin që synohet të imponohet në model:
Sinteza e lëvizjes labile të LipSync3D synon gjithashtu të fuqizojë avatarët e stilizuar CGI, të cilët në fakt janë vetëm i njëjti lloj informacioni i rrjetës dhe teksturës si imazhet e botës reale:
Studiuesit gjithashtu parashikojnë përdorimin e avatarëve me një ndjenjë pak më realiste:
Kohët e mostrës së trajnimit për videot variojnë nga 3-5 orë për një video 2-5 minuta, në një linjë që përdor TensorFlow, Python dhe C++ në një GeForce GTX 1080. Seancat e trajnimit përdorën një madhësi grupi prej 128 kornizash mbi 500-1000 epoka, ku çdo epokë përfaqëson një vlerësim të plotë të videos.
Drejt risinkronizimit dinamik të lëvizjes së buzëve
Fusha e risinkronizimit të buzëve për të akomoduar një pjesë të re audio ka marrë një vëmendje të madhe në kërkimin e vizionit kompjuterik në vitet e fundit (shih më poshtë), jo më pak pasi është një nënprodukt i diskutueshëm teknologji deepfake.
Në 2017 Universiteti i Uashingtonit prezantoi hulumtimin të aftë për të mësuar sinkronizimin e buzëve nga audio, duke e përdorur atë për të ndryshuar lëvizjet e buzëve të presidentit të atëhershëm Obama. Në vitin 2018; i udhëhequr nga Instituti Max Planck për Informatikë një nismë tjetër kërkimore për të mundësuar transferimin e videove të identitetit>identitetit, me sinkronizimin e buzëve a nënprodukt i procesit; dhe në maj të vitit 2021 startupi i AI FlawlessAI zbuloi teknologjinë e tij të pronarit të sinkronizimit të buzëve TrueSync, gjerësisht marrë në shtyp si një mundësues i teknologjive të përmirësuara të dublimit për publikimet kryesore të filmave nëpër gjuhë.
Dhe, sigurisht, zhvillimi i vazhdueshëm i depove me burim të hapur "deepfake" ofron një degë tjetër të kërkimit aktiv të kontribuar nga përdoruesit në këtë sferë të sintezës së imazhit të fytyrës.