Inteligenta Artificiala
Orchestrarea sintezei faciale cu segmentare semantică
Problema inventării fețelor umane cu a Rețea Adversarială Generativă (GAN) este că datele din lumea reală care alimentează imaginile false vin cu accesorii nedorite și inseparabile, cum ar fi părul de pe cap (și/sau față), fundal și diverse tipuri de mobilier pentru față, cum ar fi ochelari, pălării, și cercei; și că aceste aspecte periferice ale personalității devin inevitabil legate într-o identitate „contopită”.
În cadrul celor mai comune arhitecturi GAN, aceste elemente nu sunt adresabile în propriul spațiu dedicat, ci mai degrabă sunt destul de strâns asociate cu fața în (sau în jurul) căreia sunt încorporate.
Nici de obicei nu este posibil să se dicteze sau să afecteze aspectul sub-secţiuni a unei fețe create de un GAN, cum ar fi îngustarea ochilor, alungirea nasului sau schimbarea culorii părului în modul în care ar putea un desenator polițist.
Cu toate acestea, sectorul de cercetare a sintezei imaginii lucrează la asta:
Într-un nou hârtie, cercetătorii de la brațul american al gigantului tehnologic multinațional chinez ByteDance au folosit segmentarea semantică pentru a împărți părțile constitutive ale feței în secțiuni discrete, fiecăruia fiind alocat propriul generator, astfel încât să fie posibil să se obțină un grad mai mare de descurcarea. Sau cel puțin, perceptiv descurcarea.
hârtie se intitulează SemanticStyleGAN: Învățarea priorităților generative compoziționale pentru sinteza și editarea imaginilor controlabile, și este însoțit de un media-bogat Pagina proiectului prezentând mai multe exemple ale diferitelor transformări cu granulație fină care pot fi realizate atunci când elementele faciale și ale capului sunt izolate în acest fel.
Spațiul latent neguvernabil
O rețea adversară generativă instruită să genereze fețe – cum ar fi StyleGan2 generator care alimentează popularul site web thispersondoesnotexist.com – formează interrelații complexe între „funcții” (nu în sensul facial) care derivă din analiza a mii de fețe din lumea reală, pentru a învăța cum să creeze chipuri umane realiste.
Aceste procese clandestine sunt „coduri latente”, în mod colectiv spatiu latent. Ele sunt greu de analizat și, în consecință, greu de instrumentalizat.
Săptămâna trecută a apărut un nou proiect diferit de sinteză a imaginilor care încearcă să „carteze” acest spațiu aproape ocult în timpul procesului de antrenament în sine și apoi să utilizați acele hărți pentru a naviga în mod interactiv, și diverse alte soluții au fost propuse pentru a obține un control mai profund al conținutului sintetizat de GAN.
S-au făcut unele progrese, cu o ofertă diversă de arhitecturi GAN care încearcă să „atingă” spațiul latent într-un fel și să controleze generațiile faciale de acolo. Astfel de eforturi includ InterFaceGAN, StyleFlow, GANSpațiu, și StyleRig, printre alte oferte într-un flux constant de lucrări noi.
Ceea ce au toate în comun sunt grade limitate de dezlegare; glisoarele GUI ingenioase pentru diverse fațete (cum ar fi „părul” sau „expresia”) tind să tragă fundalul și/sau alte elemente în procesul de transformare și niciunul dintre ele (inclusiv lucrarea discutată aici) nu a rezolvat problema temporalului. păr neural.
Împărțirea și cucerirea spațiului latent
În orice caz, cercetarea ByteDance adoptă o abordare diferită: în loc să încerce să discerne misterele unui singur GAN care operează pe o întreagă imagine a feței generate, SemanticStyleGAN formulează o abordare bazată pe aspect, în care fețele sunt „compuse” prin procese generatoare separate.
Pentru a realiza această distincție de caracteristici (faciale), SemanticStyleGAN folosește Caracteristici Fourier pentru a genera o hartă de segmentare semantică (diferențe brut colorate ale topografiei faciale, afișate în partea din dreapta jos a imaginii de mai jos) pentru a izola zonele faciale care vor primi o atenție individuală, dedicată.
Hărțile de segmentare sunt generate pentru imaginile false care sunt prezentate sistematic discriminatorului GAN pentru evaluare pe măsură ce modelul se îmbunătățește și imaginile sursă (non-false) utilizate pentru antrenament.
La începutul procesului, a Perceptron cu mai multe straturi (MLP) mapează inițial coduri latente alese aleatoriu, care vor fi apoi folosite pentru a controla greutățile mai multor generatori care vor prelua fiecare control asupra unei secțiuni a imaginii feței care urmează să fie produsă.
Fiecare generator creează o hartă de caracteristici și o hartă de adâncime simulată din caracteristicile Fourier care sunt alimentate în amonte. Această ieșire este baza pentru măștile de segmentare.
Rețeaua de randare din aval este condiționată doar de hărțile de caracteristici anterioare și acum știe cum să genereze o mască de segmentare cu rezoluție mai mare, facilitând producerea finală a imaginii.
În cele din urmă, un discriminator bifurcat supraveghează distribuția concatenată atât a imaginilor RGB (care sunt, pentru noi, rezultatul final), cât și a măștilor de segmentare care au permis separarea acestora.
Cu SemanticStyleGAN, nu există perturbări vizuale nedorite atunci când „apelarea” se schimbă caracteristicile faciale, deoarece fiecare caracteristică facială a fost antrenată separat în cadrul orchestrației.
Înlocuirea fundalurilor
Deoarece intenția proiectului este de a obține un control mai mare asupra mediului generat, procesul de randare/compunere include un generator de fundal antrenat pe imagini reale.
Deoarece hărțile de segmentare vor avea ca rezultat fețe fără fundal, aceste fundaluri „drop-in” nu oferă doar context, ci sunt și configurate să fie adecvate, în ceea ce privește iluminarea, fețelor suprapuse.
Training și date
Modelele „realiste” au fost instruite pe primele 28,000 de imagini în CelebAMask-HQ, redimensionat la 256×256 pixeli pentru a se adapta spațiului de antrenament (adică VRAM-ul disponibil, care dictează o dimensiune maximă a lotului pe iterație).
Au fost instruite o serie de modele și au fost experimentate diverse instrumente, seturi de date și arhitecturi în timpul procesului de dezvoltare și a diferitelor teste de ablație. Cel mai mare model productiv al proiectului a prezentat o rezoluție de 512×512, antrenat timp de 2.5 zile pe opt GPU-uri NVIDIA Tesla V100. După antrenament, generarea unei singure imagini durează 0.137 s pe un GPU cu lobi fără paralelizare.
Cele mai multe experimente în stil de desene animate/anime demonstrate în numeroasele videoclipuri de pe pagina proiectului (vezi linkul de mai sus) sunt derivate din diferite seturi de date populare bazate pe chipuri, inclusiv Toonify, MetFaces, și Bitmoji.
O soluție stopgap?
Autorii susțin că nu există niciun motiv pentru care SemanticStyleGAN nu ar putea fi aplicat altor domenii, cum ar fi peisajele, mașinile, bisericile și toate celelalte domenii de testare „implicite” la care noile arhitecturi sunt supuse în mod obișnuit la începutul carierei lor.
Cu toate acestea, lucrarea admite că, pe măsură ce numărul de clase crește pentru un domeniu (cum ar fi 'mașină', "felinar', „pieton”, 'cladire', 'mașină' etc.), această abordare fragmentară ar putea deveni imposibilă în mai multe moduri, fără a lucra în continuare la optimizare. Setul de date urban CityScapes, de exemplu, are 30 de clase în 8 categorii.
Este greu de spus dacă interesul actual pentru cucerirea mai directă a spațiului latent este la fel de condamnat ca alchimia; sau dacă codurile latente vor fi în cele din urmă descifrabile și controlabile – o dezvoltare care ar putea face ca acest tip de abordare mai „complex din exterior” să fie redundant.