Inteligenta Artificiala

Crearea unei rețele adversare generative personalizate cu schițe

Actualizat on December 9, 2022

Cercetătorii de la Carnegie Mellon și MIT au dezvoltat o nouă metodologie care permite unui utilizator să creeze personalități Rețea Adversarială Generativă (GAN) sisteme de creare a imaginilor pur și simplu prin schițarea doodle-urilor indicative.

Un sistem de acest tip ar putea permite unui utilizator final să creeze sisteme de generare de imagini capabile să genereze imagini foarte specifice, cum ar fi anumite animale, tipuri de clădiri – și chiar persoane individuale. În prezent, majoritatea sistemelor de generație GAN produc rezultate ample și destul de aleatorii, cu o facilitate limitată de a specifica anumite caracteristici, cum ar fi rasa animală, tipurile de păr la oameni, stilurile de arhitectură sau identitățile faciale reale.

Abordarea, conturată în hârtie Schițați-vă propriul GAN, utilizează o nouă interfață de schiță ca funcție eficientă de „căutare” pentru a găsi caracteristici și clase în baze de date de imagini, altfel supraîncărcate, care pot conține mii de tipuri de obiecte, inclusiv multe subtipuri care nu sunt relevante pentru intenția utilizatorului. GAN este apoi antrenat pe acest subset filtrat de imagini.

Prin schițarea tipului de obiect specific cu care utilizatorul dorește să calibreze GAN-ul, capacitățile generative ale cadrului devin specializate la acea clasă. De exemplu, dacă un utilizator dorește să creeze un cadru care să genereze un anumit tip de pisică (mai degrabă decât orice pisică veche, așa cum se poate obține cu Această pisică nu există), schițele lor de intrare servesc ca un filtru pentru a exclude clasele nerelevante de cat.

Sursa: https://peterwang512.github.io/GANSketching/

Cercetarea este condusă de Sheng Yu-Wang de la Universitatea Carnegie Mellon, împreună cu colegul Jun-Yan Zhu și David Bau de la Computer Science & Artificial Intelligence Laboratory al MIT.

Metoda în sine este denumită „schiță GAN” și utilizează schițele de intrare pentru a modifica direct ponderile unui model GAN „șablon” pentru a viza în mod specific domeniul sau subdomeniul identificat prin pierderi contradictorii între domenii.

Au fost explorate diferite metode de regularizare pentru a se asigura că rezultatul modelului este divers, menținând în același timp o calitate ridicată a imaginii. Cercetătorii au creat aplicații eșantion care sunt capabile să interpoleze spațiul latent și să efectueze proceduri de editare a imaginilor.

Acest [$class] nu există

Sistemele de generare de imagini bazate pe GAN au devenit o moft, dacă nu un meme, în ultimii ani, cu o proliferare de proiecte capabile să genereze imagini cu lucruri inexistente, inclusiv oameni, apartamente închiriate, gustări, picioare, cai, politicieni și insecte, printre multe altele.

Sistemele de sinteză a imaginilor bazate pe GAN sunt create prin compilarea sau curatarea seturi de date extinse care conțin imagini din domeniul țintă, cum ar fi fețe sau cai; modele de antrenament care generalizează o serie de caracteristici în imaginile din baza de date; și implementarea modulelor generatoare care pot scoate exemple aleatorii bazate pe caracteristicile învățate.

Ieșire din schițe în DeepFacePencil, care permite utilizatorilor să creeze fețe fotorealiste din schițe. Există multe proiecte similare schiță-imagine. Sursă: https://arxiv.org/pdf/2008.13343.pdf

Caracteristicile dimensionale sunt printre primele care sunt concretizate în timpul procesului de formare și sunt echivalente cu primele mostre largi de culoare ale unui pictor pe o pânză. Aceste caracteristici dimensionale înalte se vor corela în cele din urmă cu caracteristici mult mai detaliate (adică sclipirea ochilor și mustățile ascuțite ale unei pisici, în loc de doar o pată bej generică reprezentând capul).

Inteleg ce zici…

Prin cartografierea relației dintre aceste forme seminale anterioare și interpretările detaliate în cele din urmă care sunt obținute mult mai târziu în procesul de instruire, este posibil să se deducă relații între imaginile „vagi” și „specifice”, permițând utilizatorilor să creeze imagini complexe și fotorealiste din stropii brute. .

Recent, NVIDIA a lansat un versiunea pentru desktop a cercetării sale pe termen lung GauGAN privind generarea peisajului bazată pe GAN, care demonstrează cu ușurință acest principiu:

Dauburile aproximative sunt traduse în imagini scenice bogate prin GauGAN de la NVIDIA, iar acum prin aplicația NVIDIA Canvas. Sursa: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

De asemenea, mai multe sisteme precum DeepFacePencil au folosit același principiu pentru a crea generatoare de imagini fotoreale induse de schiță pentru diferite domenii.

Arhitectura lui DeepFacePencil.

Simplificarea schiță-la-imagine

Abordarea GAN Sketching a noii lucrări urmărește să îndepărteze povara formidabilă a culegerii și curatării datelor, care este în mod obișnuit implicată în dezvoltarea cadrelor de imagine GAN, utilizând input-ul utilizatorului pentru a defini ce subset de imagini ar trebui să constituie datele de antrenament.

Sistemul a fost proiectat pentru a necesita doar un număr mic de schițe de intrare pentru a calibra cadrul. Sistemul inversează efectiv funcționalitatea PhotoSketch, o inițiativă comună de cercetare din 2019 a cercetătorilor de la Carnegie Mellon, Adobe, Uber ATG și Argo AI, care este încorporată în noua lucrare. PhotoSketch a fost conceput pentru a crea schițe artistice din imagini și conține deja maparea eficientă a relațiilor vagi>specifice de creare a imaginii.

Pentru partea de generare a procesului, noua metodă modifică doar ponderile lui StyleGAN2. Deoarece datele de imagine utilizate sunt doar un subset din totalul datelor disponibile, simpla modificare a rețelei de cartografiere obține rezultate de dorit.

Metoda a fost evaluată pe o serie de subdomenii populare, inclusiv ecvestru, biserici și pisici.

Universitatea Princeton 2016 Setul de date LSUN a fost folosit ca material de bază din care să derivăm subdomeniile țintă. Pentru a stabili un sistem de cartografiere a schițelor care să fie robust la excentricitățile schițelor introduse de utilizator din lumea reală, sistemul este antrenat pe imagini din Set de date QuickDraw dezvoltat de Microsoft între 2021-2016.

Deși schițele dintre PhotoSketch și QuickDraw sunt destul de diferite, cercetătorii au descoperit că cadrul lor reușește bine să le încalece destul de ușor pe ipostaze relativ simple, deși pozițiile mai complicate (cum ar fi pisicile întinse) se dovedesc mai mult o provocare, în timp ce foarte abstracte. input-ul utilizatorului (adică desene prea brute) împiedică, de asemenea, calitatea rezultatelor.

Spațiu latent și editarea imaginilor naturale

Cercetătorii au dezvoltat două aplicații bazate pe munca de bază: editarea spațiului latent și editarea imaginilor. Editarea spațiului latent oferă controale interpretabile ale utilizatorului, care sunt facilitate în timpul antrenamentului și permit un grad larg de variație, rămânând în același timp fidel domeniului țintă și consistent în mod plăcut între variații.

Interpolare lină a spațiului latent cu modelele personalizate de GAN Sketching.

Componenta de editare a spațiului latent a fost alimentată de 2020 Proiectul GANSpace, o inițiativă comună a Universității Aalto, Adobe și NVIDIA.

O singură imagine poate fi alimentată și la modelul personalizat, facilitând editarea naturală a imaginii. În această aplicație, o singură imagine este proiectat la GAN personalizat, nu doar permițând editarea directă, ci și păstrând editarea spațiului latent de nivel superior, dacă a fost și aceasta utilizată.

Aici, o imagine reală a fost folosită ca intrare în GAN (modelul pisicii), care editează intrarea pentru a se potrivi cu schițele trimise. Acest lucru permite editarea imaginilor prin schiță.

Deși configurabil, sistemul nu este proiectat să funcționeze în timp real, cel puțin în ceea ce privește antrenamentul și calibrarea. În prezent, GAN Sketching necesită 30,000 de iterații de antrenament. Sistemul necesită, de asemenea, acces la datele de antrenament originale pentru modelul original.

În cazurile în care setul de date este cu sursă deschisă și are o licență care permite copierea locală, acest lucru ar putea fi adaptat prin includerea datelor sursă într-un pachet instalat local, deși acest lucru ar ocupa spațiu pe disc considerabil; sau prin accesarea sau procesarea datelor de la distanță, printr-o abordare bazată pe cloud, care introduce cheltuieli generale de rețea și (în cazul procesării care are loc efectiv pe cloud) eventual considerații de cost de calcul.

Transformări din modele personalizate FFHQ instruite pe doar 4 schițe generate de om.

Transformări de la personalizat FFHQ modele instruite numai pentru schițe generate de oameni.

Urmeaza

LumenVox lansează motorul de recunoaștere automată a vorbirii de nouă generație

Nu ratați

Intel extinde programul AI pentru forța de muncă

Martin Anderson

Scriitor despre învățare automată, inteligență artificială și date mari.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai