Inteligență artificială

Crearea unei rețele adversative generative personalizate cu schițe

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

Cercetătorii de la Carnegie Mellon și MIT au dezvoltat o nouă metodologie care permite unui utilizator să creeze un sistem de generare de imagini personalizat cu rețele adversative generative (GAN) prin simpla schițare a unor schițe indicative.

Un sistem de acest tip ar putea permite unui utilizator final să creeze sisteme de generare de imagini capabile să genereze imagini foarte specifice, cum ar fi anumite animale, tipuri de clădiri – și chiar persoane individuale. În prezent, majoritatea sistemelor de generare GAN produc ieșiri largi și destul de aleatorii, cu o capacitate limitată de a specifica caracteristici specifice, cum ar fi rasa unui animal, tipurile de păr la oameni, stilurile de arhitectură sau identitățile faciale reale.

Abordarea, prezentată în lucrarea Schițează-ți propria rețea GAN, utilizează o interfață de schițare inovatoare ca o funcție de “căutare” eficientă pentru a găsi caracteristici și clase în baze de date de imagini supraîncărcate care pot conține mii de tipuri de obiecte, inclusiv multe subtipuri care nu sunt relevante pentru intenția utilizatorului. Rețeaua GAN este apoi antrenată pe acest subset filtrat de imagini.

Prin schițarea tipului specific de obiect cu care utilizatorul dorește să calibreze rețeaua GAN, capacitățile generative ale cadrului devin specializate pentru acea clasă. De exemplu, dacă un utilizator dorește să creeze un cadru care generează un anumit tip de pisică (și nu orice pisică veche, așa cum se poate obține cu Această pisică nu există), schițele sale de intrare servesc ca un filtru pentru a exclude clasele nerelevante de pisici.

Sursă: https://peterwang512.github.io/GANSketching/

Cercetarea este condusă de Sheng Yu-Wang de la Universitatea Carnegie Mellon, împreună cu colegul său Jun-Yan Zhu și David Bau de la Laboratorul de știință și inteligență artificială al MIT.

Metoda însăși este denumită “schițare GAN” și utilizează schițele de intrare pentru a modifica direct greutățile unui model GAN “șablon” pentru a ținti în mod specific domeniul sau subdomeniul identificat prin pierdere adversă între domenii.

Au fost explorate diferite metode de regularizare pentru a se asigura că ieșirea modelului este diversă, menținând în același timp o calitate ridicată a imaginii. Cercetătorii au creat aplicații de exemplu care pot interpolarea spațiului latent și efectua proceduri de editare a imaginilor.

Acest [$class] nu există

Sistemele de generare de imagini bazate pe GAN au devenit o modă, dacă nu o glumă, în ultimii ani, cu o proliferare de proiecte capabile să genereze imagini cu lucruri inexistente, inclusiv oameni, apartamente de închiriat, gustări, picioare, cai, politicieni și insecte, printre altele.

Sistemele de sinteză de imagini bazate pe GAN sunt create prin compilarea sau curățarea unor seturi de date extinse care conțin imagini din domeniul țintă, cum ar fi fețe sau cai; antrenarea modelelor care generalizează o gamă de caracteristici în imagini din baza de date; și implementarea modulelor generatoare care pot produce exemple aleatorii pe baza caracteristicilor învățate.

Ieșire din schițe în DeepFacePencil, care permite utilizatorilor să creeze fețe fotorealiste din schițe. Multe proiecte similare de schiță-la-imagini există. Sursă: https://arxiv.org/pdf/2008.13343.pdf

Caracteristicile de înaltă dimensiune sunt printre primele care sunt concretizate în timpul procesului de antrenare și sunt echivalente cu primele pensule late de culoare ale unui pictor pe o pânză. Aceste caracteristici de înaltă dimensiune vor corela în cele din urmă cu caracteristici mult mai detaliate (de exemplu, strălucirea ochilor și mustățile ascuțite ale unei pisici, și nu doar o pată generică de culoare bej care reprezintă capul).

Știu ce vrei să spui…

Prin mapping-ul relației dintre aceste forme seminale timpurii și interpretările detaliate care sunt obținute mult mai târziu în procesul de antrenare, este posibil să se inferă relații între imagini “vage” și “specifice”, permițând utilizatorilor să creeze imagini complexe și fotorealiste din schițe crude.

Recent, NVIDIA a lansat o versiune de desktop a cercetării sale pe termen lung GauGAN privind generarea de peisaje bazate pe GAN, care demonstrează cu ușurință acest principiu:

Approximări de schițe sunt traduse în imagini scenice bogate prin NVIDIA GauGAN, și acum aplicația NVIDIA Canvas. Sursă: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

La fel, multiple sisteme, cum ar fi DeepFacePencil, au utilizat același principiu pentru a crea generatoare de imagini fotorealiste induse de schițe pentru diverse domenii.

Arhitectura DeepFacePencil.

Simplificarea schiței-la-imagini

Abordarea GAN Sketching din lucrarea nouă își propune să elimine povara formidabilă a colectării și curățării datelor care este de obicei implicată în dezvoltarea cadrului de imagini GAN, utilizând intrarea utilizatorului pentru a defini care subset de imagini ar trebui să constituie datele de antrenare.

Sistemul a fost proiectat pentru a necesita doar un număr mic de schițe de intrare pentru a calibra cadrul. Sistemul inversează în esență funcționalitatea PhotoSketch, o inițiativă de cercetare comună din 2019 de la cercetători de la Carnegie Mellon, Adobe, Uber ATG și Argo AI, care este incorporată în noua lucrare. PhotoSketch a fost proiectat pentru a crea schițe artistice din imagini și conține deja mapping-ul eficient al relațiilor de creare a imaginilor vagi și specifice.

Pentru partea de generare a procesului, noua metodă modifică doar greutățile StyleGAN2. Deoarece datele de imagine utilizate sunt doar un subset al datelor totale disponibile, modificarea doar a rețelei de mapping obține rezultate dorite.

Metoda a fost evaluată pe o serie de subdomenii populare, inclusiv ecvestru, biserici și pisici.

Setul de date LSUN al Universității Princeton din 2016 a fost utilizat ca material de bază din care să se deriveze subdomenii țintă. Pentru a stabili un sistem de mapping de schițe care să fie robust la excentricitățile intrărilor de schițe ale utilizatorilor din lumea reală, sistemul este antrenat pe imagini din setul de date QuickDraw dezvoltat de Microsoft între 2021-2016.

Deși mapping-urile de schițe dintre PhotoSketch și QuickDraw sunt destul de diferite, cercetătorii au constatat că cadrul lor reușește bine în a le traversa cu ușurință pe poziții relativ simple, deși poziții mai complicate (cum ar fi pisici culcate) se dovedesc a fi mai provocatoare, în timp ce intrările de schițe abstracte ale utilizatorului (de exemplu, desene prea crude) împiedică, de asemenea, calitatea rezultatelor.

Spațiu latent și editare de imagini naturale

Cercetătorii au dezvoltat două aplicații bazate pe lucrarea de bază: editarea spațiului latent și editarea de imagini. Editarea spațiului latent oferă controale utilizator interpretabile care sunt facilitate la momentul antrenării și permit o variație largă, rămânând în același timp fidelă domeniului țintă și plăcut de consistentă pe întreaga variație.

Interpolare netedă a spațiului latent cu modelele personalizate ale GAN Sketching.

Componenta de editare a spațiului latent a fost alimentată de proiectul GANSpace din 2020, o inițiativă comună de la Universitatea Aalto, Adobe și NVIDIA.

O singură imagine poate fi, de asemenea, alimentată la modelul personalizat, facilitând editarea de imagini naturale. În această aplicație, o imagine singulară este proiectată pe GAN-ul personalizat, permițând nu numai editarea directă, ci și păstrarea editării spațiului latent de nivel superior, dacă aceasta a fost utilizată și ea.

Aici, o imagine reală a fost utilizată ca intrare pentru GAN (model de pisică), care editează intrarea pentru a se potrivi cu schițele trimise. Acest lucru permite editarea de imagini prin schițare.

Deși configurabil, sistemul nu este proiectat pentru a funcționa în timp real, cel puțin în ceea ce privește antrenarea și calibrarea. În prezent, GAN Sketching necesită 30.000 de iterații de antrenare. Sistemul necesită, de asemenea, acces la datele de antrenare originale pentru modelul original.

În cazurile în care setul de date este open source și are o licență care permite copierea locală, acest lucru ar putea fi realizat prin includerea datelor sursă într-un pachet instalat local, deși acest lucru ar ocupa un spațiu considerabil pe disc; sau prin accesarea sau prelucrarea datelor la distanță, prin abordarea bazată pe cloud, ceea ce introduce suprasarcini de rețea și (în cazul în care prelucrarea efectivă are loc în cloud) posibile considerații de cost de calcul.