Kënschtlech Intelligenz

Adobe Research verlängert Disentangled GAN Face Editing

aktualiséiert on Dezember 9, 2022

Et ass net schwéier ze verstoen firwat verankert ass e Problem an der Bildsynthese, well et dacks e Problem an anere Beräicher vum Liewen ass; zum Beispill, et ass vill méi schwéier Kurkuma aus engem Curry ze entfernen wéi et ass de Pickel an engem Burger ze werfen, an et ass praktesch onméiglech eng Taass Kaffi ze séiss ze maachen. E puer Saache kommen just gebündelt.

Och Entanglement ass e Stoussblock fir Bildsynthesearchitekturen déi am Idealfall verschidde Features a Konzepter ausernee wëllen wann Dir Maschinnléiere benotzt fir Gesiichter ze kreéieren oder z'änneren (oder Hënn, Schëffer, oder all aner Domain).

Wann Dir Strécke wéi z Alter, Geschlecht, Faarf, Haut Ton, Emotiounen, a sou weider, Dir hätt den Ufank vun der realer Instrumentalitéit a Flexibilitéit an engem Kader deen Gesiichtsbilder op engem wierklech granulärem Niveau erstellen an änneren, ouni ongewollte "Passagéier" an dës Konversiounen ze zéien.

Bei maximaler Entanglement (uewen lénks), alles wat Dir maache kënnt ass d'Bild vun engem geléierten GAN Netzwierk op d'Bild vun enger anerer Persoun z'änneren.

Dëst ass effektiv déi lescht AI Computer Visioun Technologie benotzt fir eppes z'erreechen dat mat anere Mëttelen geléist gouf virun iwwer drësseg Joer.

Mat e gewësse Grad vun der Trennung ('Medium Trennung' am fréiere Bild hei uewen), ass et méiglech Stil-baséiert Ännerunge wéi Hoerfaarf, Ausdrock, kosmetesch Uwendung a limitéierter Kapprotatioun, ënner anerem ze maachen.

Quell: FEAT: Face Editing with Attention, Februar 2022, https://arxiv.org/pdf/2202.02713.pdf

Source: FEAT: Face Editing mat Opmierksamkeet, Februar 2022, https://arxiv.org/pdf/2202.02713.pdf

Et gouf eng Rei Versuche an de leschten zwee Joer fir interaktiv Gesiichtsredigering-Ëmfeld ze kreéieren déi e Benotzer erlaben Gesiichtseigenschaften mat Schieber an aner traditionell UI Interaktiounen z'änneren, wärend d'Kärfeatures vum Zilgesicht intakt halen wann Dir Ergänzunge mécht oder Ännerungen. Wéi och ëmmer, dëst huet eng Erausfuerderung bewisen wéinst der Basisdaten Feature / Stil Entanglement am latente Raum vum GAN.

Zum Beispill, de Brëller Charakteristesch ass dacks mat der al sinn Charakteristesch, dat heescht datt d'Brëller derbäisetzen och d'Gesiicht 'alteren', während d'Alterung d'Gesiicht Brëller kéint addéieren, ofhängeg vum Grad vun der ugewandter Trennung vun High-Level Features (kuckt 'Test' hei ënnen fir Beispiller).

Virun allem ass et bal onméiglech gewiescht d'Hoerfaarf an aner Hoerfacetten z'änneren ouni datt d'Hoerstrécker an d'Dispositioun nei berechent ginn, wat e "sizzling", Iwwergangseffekt gëtt.

Source: InterFaceGAN Demo (CVPR 2020), https://www.youtube.com/watch?v=uoftpl3Bj6w

Latent-ze-latent GAN Traversal

En neien Adobe-gefouert Pabeier aginn fir WACV 2022 bitt eng nei Approche fir dës ënnerierdesch Themen an engem Pabeier Recht Latent to Latent: E geléierte Mapper fir Identitéitskonservatioun Editing vu Multiple Face Attributer a StyleGAN generéiert Biller.

Ergänzungsmaterial aus dem Pabeier Latent to Latent: A Learned Mapper for Identity Conserving Editing of Multiple Face Attributes in StyleGAN-generated Images. Hei gesi mer datt d'Basiseigenschaften am geléierte Gesiicht net an onrelatéierte Verännerungen gezunn ginn. Kuckt de komplette Video embed um Enn vum Artikel fir besser Detailer an Opléisung. Quell: https://www.youtube.com/watch?v=rf_61llRH0Q

Ergänzungsmaterial aus dem Pabeier Latent to Latent: E geléierte Mapper fir Identitéitskonservatioun Editing vu Multiple Face Attributer a StyleGAN generéiert Biller. Hei gesi mer datt d'Basiseigenschaften am geléierte Gesiicht net an onrelatéierte Verännerungen gezunn ginn. Kuckt de komplette Video embed um Enn vum Artikel fir besser Detailer an Opléisung. Quell: https://www.youtube.com/watch?v=rf_61llRH0Q

De Pabeier gëtt gefouert vum Adobe Applied Scientist Siavash Khodadadeh, zesumme mat véier aneren Adobe Fuerscher, an engem Fuerscher vum Departement fir Informatik op der University of Central Florida.

D'Stéck ass interessant deelweis well Adobe fir eng Zäit an dësem Raum operéiert ass, an et ass verlockend dës Funktionalitéit virzestellen, déi an den nächste Joren an e Creative Suite Projet erakommen; awer haaptsächlech well d'Architektur erstallt fir de Projet eng aner Approche hëlt fir visuell Integritéit an engem GAN Gesiichtseditor z'erhalen wärend Ännerungen applizéiert ginn.

D'Auteuren erklären:

'[Mir] trainéieren en neuralt Netzwierk fir eng latent-zu-latent Transformatioun auszeféieren déi d'latente Kodéierung fënnt, déi dem Bild entsprécht mam geännerten Attribut. Well d'Technik ee Shot ass, setzt se net op eng linear oder net-linear Trajectoire vun der gradueller Ännerung vun den Attributer.

'Duerch d'Ausbildung vum Netzwierk end-to-end iwwer déi voll Generatioun Pipeline, kann de System sech un déi latente Plazen vun off-the-shelf Generatorarchitekturen upassen. Conservatiounseigenschaften, sou wéi d'Erhalen vun der Identitéit vun der Persoun kënnen a Form vun Trainingsverloschter kodéiert ginn.

"Eemol de latent-ze-latent Netzwierk trainéiert gouf, kann et fir arbiträr Biller ouni Retraining erëmbenotzt ginn."

Dëse leschten Deel bedeit datt déi proposéiert Architektur mam Endverbraucher an engem fäerdegen Zoustand kënnt. Et muss nach ëmmer en neuralt Netzwierk op lokalen Ressourcen ausféieren, awer nei Biller kënnen 'androen' a prett sinn fir bal direkt z'änneren, well de Kader genuch ofkoppelt ass fir net weider Bildspezifesch Ausbildung ze brauchen.

Geschlecht a Gesiicht Hoer geännert wéi Schieber zoufälleg an arbiträr Weeër duerch de latente Raum plotten, net nëmmen "tëscht Endpunkte scrubben". Gesinn de Video embedded um Enn vum Artikel fir méi Transformatiounen mat besserer Opléisung.

Ënnert den Haapterreechungen an der Aarbecht ass d'Fäegkeet vum Netz fir Identitéiten am latente Raum ze 'afréieren' andeems se nëmmen d'Attributer an engem Zilvektor änneren, an 'Korrekturbegrëffer' ubidden déi Identitéiten konservéieren déi transforméiert ginn.

Wesentlech ass de proposéierte Netz an enger méi breeder Architektur agebonnen, déi all veraarbecht Elementer orchestréiert, déi duerch pre-trainéiert Komponenten mat gefruerene Gewiichter passéieren, déi keng ongewollt lateral Effekter op Transformatiounen produzéieren.

Zënter dem Trainingsprozess hänkt op Drillingen dat kann entweder duerch e Sombild generéiert ginn (ënner GAN Inversioun) oder eng existent initial latenter Kodéierung, ass de ganze Trainingsprozess net iwwerwaacht, mat den taciten Handlungen vun der üblecher Palette vun Etikettéierungs- a Kuréierungssystemer an esou Systemer effektiv an d'Architektur gebak. Tatsächlech benotzt den neie System off-the-shelf Attributer Regressoren:

'[D'Zuel vun den Attributer, déi eisen Netzwierk onofhängeg kontrolléiere kann, ass nëmme limitéiert duerch d'Fäegkeeten vun den Erkenner(en) - wann een en Erkenner fir en Attribut huet, kënne mir et op arbiträr Gesiichter addéieren. An eisen Experimenter hu mir dat latent-ze-latent Netzwierk trainéiert fir d'Ajustéierung vun 35 verschiddene Gesiichtsattributer z'erméiglechen, méi wéi all virdrun Approche.'

De System integréiert eng zousätzlech Schutz géint ongewollt 'Nebenwirkungen' Transformatiounen: an der Verontreiung vun enger Ufro fir eng Attributännerung, wäert dat latent-ze-latent Netzwierk e latente Vektor op sech selwer kartéieren, wat d'stabil Persistenz vun der Zilidentitéit weider erhéijen.

Gesiicht Unerkennung

Ee widderhuelend Thema mat GAN an Encoder / Decoder-baséiert Gesiichtsredaktoren vun de leschte Jore war datt applizéiert Transformatiounen tendéieren d'Ähnlechkeet ze degradéieren. Fir dëst ze bekämpfen, benotzt den Adobe Projet en embedded Gesiichtserkennungsnetz genannt FaceNet als Diskriminator.

Projet Architektur, kuckt ënnen Mëtt-lénks fir Inclusioun vun FaceNet. Source: Latent to Latent: A Learned Mapper for Identity Conserving Editing of Multiple Face Attributes in StyleGAN-generated Images, OpenAccess.

Projet Architektur, gesinn ënnen Mëtt-lénks fir Inclusioun vun FaceNet. Source: Latent to Latent: E geléierte Mapper fir Identitéitskonservatioun Editing vu Multiple Face Attributer a StyleGAN generéiert Biller, OpenAccess.

(Op enger perséinlecher Notiz, schéngt dëst en encouragéierende Beweegung fir d'Integratioun vu Standard Gesiichtsidentifikatioun a souguer Ausdrockserkennungssystemer an generativ Netzwierker, wuel de beschte Wee no vir ze iwwerwannen blann Pixel> Pixel Mapping déi aktuell Deepfake Architekturen dominéiert op Käschte vun Ausdrockvertrauen an aner wichteg Domainen am Gesiichtsgeneratiounssektor.)

Access All Areas am Latenten Raum

Eng aner beandrockend Feature vum Framework ass seng Fäegkeet fir arbiträr tëscht potenziellen Transformatiounen am latente Raum ze reesen, no Benotzernoll. Verschidde virdru Systemer déi explorativ Interfaces zur Verfügung gestallt hunn, hunn de Benotzer essentiell "scrubbing" tëscht fixe Feature Transformatioun Timelines verlooss - beandrockend, awer dacks zimlech linear oder proskriptiv Erfahrung.

Vum Verbesserung vum GAN Gläichgewiicht duerch Raising Spatial Sensibiliséierung: hei scrubs de Benotzer duerch eng Rei vu potenziellen Iwwergangspunkten tëscht zwee latente Plazplazen, awer bannent de Grenze vu viraus trainéierte Plazen am latente Raum. Fir aner Aarte vun Transformatioun op Basis vum selwechte Material z'applizéieren, ass d'Rekonfiguratioun an / oder d'Retraining néideg. Source: https://genforce.github.io/eqgan/

aus GAN Gläichgewiicht verbesseren andeems d'Ratial Sensibiliséierung erhéicht gëtt: Hei scrubs de Benotzer duerch eng Rei vu potenziellen Iwwergangspunkten tëscht zwee latente Plazplazen, awer bannent de Grenze vu viraus trainéierte Plazen am latente Raum. Fir aner Aarte vun Transformatioun op Basis vum selwechte Material z'applizéieren, ass d'Rekonfiguratioun an / oder d'Retraining néideg. Source: https://genforce.github.io/eqgan/

Zousätzlech zu komplett nei Benotzerbilder empfänegt ze sinn, kann de Benotzer och manuell Elementer 'afréieren', déi se wärend dem Transformatiounsprozess konservéiere wëllen. Sou kann de Benotzer dofir suergen, datt (zum Beispill) Hannergrënn net verschwannen, oder d'Aen op oder zou gehale ginn.

Daten

Den Attribut Regressiounsnetz gouf op dräi Netzwierker trainéiert: FFHQ, CelebAMask-HQ, an e lokalen, GAN-generéierten Netzwierk kritt andeems 400,000 Vektoren aus dem Z Raum vun probéieren StyleGAN-V2.

Out-of-Distribution (OOD) Biller goufen ewechfiltert, an Attributer extrahéiert mat Microsoft's Gesiicht API, mat der doraus resultéierend Bild-Set Split 90/10, verloosse 721,218 Training Biller an 72,172 Test Biller ze vergläichen géint.

Testen

Och wann dat experimentellt Netzwierk am Ufank konfiguréiert war fir 35 potenziell Transformatiounen z'empfänken, goufen dës op aacht ofgeschnidden fir analog Tester géint déi vergläichbar Kaderen ze maachen. InterFaceGAN, GANSspace, an StyleFlow.

Déi aacht ausgewielt Attributer waren Alter, Baldness, Beard, Ausdrock, Geschlecht, Brëller, Ofwierzentrum, an Jo. Et war néideg fir déi kompetitiv Kadere fir verschidde vun den aacht Attributer z'änneren, déi net an der ursprénglecher Verdeelung virgesinn waren, wéi z. Himmelsnout an Baart zu InterFaceGAN.

Wéi erwaart ass e gréisseren Niveau vun der Verrécklung an de rivaliséierende Architekturen geschitt. Zum Beispill, an engem Test, InterFaceGAN a StyleFlow hunn allebéid d'Geschlecht vum Thema geännert wann se gefrot gi fir ze bewerben Alter:

Zwee vun de kompetitive Kaderen hunn e Geschlecht änneren an d'Alter Transformatioun gerullt, och d'Hoerfaarf geännert ouni direkt Offer vum Benotzer.

Zousätzlech hunn zwee vun de Rivalen festgestallt datt Brëller an Alter onseparabel Facetten sinn:

Brëller an Hoerfaarf änneren ouni extra Käschten eran!

Et ass keng eenheetlech Victoire fir d'Fuerschung: wéi kann am begleetende Video gesi ginn, deen um Enn vum Artikel agebonne gëtt, ass de Kader am mannsten effektiv wann Dir probéiert verschidde Winkelen ze extrapoléieren (yaw), wärend GANSpace e bessert allgemengt Resultat fir Alter an d'Iwwerleeung vun Brëller. De latent-zu-latente Kader verbonne mat GANSpace a StyleFlow iwwer d'Additioun vum Pitch (Kappwénkel).

Resultater berechent op Basis vun enger Kalibrierung vum MTCNN Gesiichtsdetektor. Méi niddereg Resultater si besser.

Resultater berechent baséiert op enger Eechung vun der MTCNN Gesiichtsdetektor. Méi niddereg Resultater si besser.

Fir weider Detailer a besser Opléisung vu Beispiller, kuckt de Begleedungsvideo vum Pabeier hei ënnen.

Latent zu Latent - WACV 2022

Watch this video on YouTube

Éischt publizéiert 16. Februar 2022.

No weider

'Einfach' AI Kann d'Bankmanager 'Prêt-Entscheedungen op iwwer 95% Genauegkeet antizipéieren

Hu keng Miss

Fortgeschratt Ozean Roboter bidden besser global Klimamodeller

Martin Anderson

Schrëftsteller iwwer Maschinnléieren, kënschtlech Intelligenz a Big Data.
Perséinlech Säit: martinanderson.ai
Contact: [Email geschützt]
Twitter: @manders_ai