Inteligență artificială

Beneficiul Neintenționat al Hărțuirii Spațiului Latent al unei GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

În timp ce încercau să îmbunătățească calitatea și fidelitatea imaginilor generate de inteligența artificială, un grup de cercetători din China și Australia au descoperit accidental o metodă pentru a controla interactiv spațiul latent al unei Generative Adversarial Network (GAN) – matricea calculativă misterioasă din spatele noii valuri de tehnici de sinteză a imaginilor care urmează să revoluționeze filmele, jocurile, rețelele sociale și multe alte sectoare din divertisment și cercetare.

Descoperirea lor, un produs secundar al obiectivului central al proiectului, permite unui utilizator să exploreze arbitrar și interactiv spațiul latent al unei GAN cu un mouse, ca și cum ar derula un videoclip sau ar răsfoi o carte.

Un extras din videoclipul însoțitor al cercetătorilor (vezi încorporarea la sfârșitul articolului). Observați că utilizatorul manipulează transformările cu un cursor de „apucare” (sus-stânga). Sursă: https://www.youtube.com/watch?v=k7sG4XY5rIc

Un extras din videoclipul însoțitor al cercetătorilor (vezi încorporarea la sfârșitul articolului pentru multe alte exemple). Observați că utilizatorul manipulează transformările cu un cursor de „apucare” (sus-stânga). Sursă: https://www.youtube.com/watch?v=k7sG4XY5rIc

Metoda utilizează „hărți de căldură” pentru a indica care zone ale unei imagini ar trebui îmbunătățite pe măsură ce GAN-ul rulează prin același set de date de mii (sau sute de mii) de ori. Hărțile de căldură sunt destinate să îmbunătățească calitatea imaginii, spunându-i GAN-ului unde greșește, astfel încât următoarea încercare să fie mai bună; dar, în mod coincident, aceasta oferă și o „hartă” a întregului spațiu latent care poate fi parcursă prin mișcarea mouse-ului.

Atenția vizuală spațială evidențiată prin GradCAM, care indică zonele care necesită atenție prin impunerea de culori strălucitoare. Aceste mostre sunt generate în proiectul cercetătorilor cu o implementare implicită a StyleGan2. Sursă: https://arxiv.org/pdf/2112.00718.pdf

Atenția vizuală spațială evidențiată prin GradCAM, care indică zonele care necesită atenție prin impunerea de culori strălucitoare. Sursă: https://arxiv.org/pdf/2112.00718.pdf

Articolul științific se numește Îmbunătățirea Echilibrului GAN prin Creșterea Conștientizării Spațiale, și provine de la cercetători de la Universitatea Chineză din Hong Kong și Universitatea Națională Australiană. Pe lângă articol, videoclip și alte materiale pot fi găsite pe pagina proiectului.

Lucrarea este în curs de desfășurare și, în prezent, este limitată la imagini de joasă rezoluție (256×256), dar este o dovadă a conceptului care promite să deschidă „cutia neagră” a spațiului latent și vine într-un moment în care multiple proiecte de cercetare bat la acea ușă în căutarea unui control mai mare asupra sintezei de imagini.

Deși astfel de imagini sunt atractive (și puteți vedea mai multe dintre ele, în rezoluție mai bună, în videoclipul încorporat la sfârșitul acestui articol), ceea ce este poate mai semnificativ este că proiectul a găsit o modalitate de a crea o calitate a imaginii îmbunătățită și, posibil, de a o face mai rapid, spunându-i GAN-ului exact unde greșește în timpul antrenamentului.

Dar, așa cum Adversarial indică, un GAN nu este o entitate unică, ci mai degrabă un conflict inegal între autoritate și muncă. Pentru a înțelege ce îmbunătățiri au făcut cercetătorii în acest sens, să aruncăm o privire asupra modului în care a fost caracterizat acest război până acum.

Soarta jalnică a Generatorului

Dacă v-ați întrebat vreodată dacă un articol de îmbrăcăminte pe care l-ați cumpărat a fost produs într-un atelier de muncă într-o țară exploatată sau ați avut un șef sau client care v-a spus să „Faceți-o din nou!” fără să vă spună niciodată ce era greșit cu încercarea dvs. anterioară, cruțați un pic de milă pentru partea Generator a unei Generative Adversarial Network.

Generatorul este calul de lucru care v-a încântat în ultimii cinci ani sau aproximativ, ajutând GAN-urile să creeze persoane fotorealiste care nu există, să actualizeze jocuri video vechi la rezoluție 4k și să transforme imagini vechi de o sută de ani în imagini cu culori complete la 60 de cadre pe secundă, printre alte noutăți AI minunate.

De la crearea de fețe fotorealiste ale unor persoane care nu există la restaurarea de imagini vechi și revitalizarea jocurilor video arhivate, GAN a fost ocupat în ultimii ani.

Generatorul rulează prin toate datele de antrenament din nou și din nou (cum ar fi poze cu fețe, pentru a face un GAN care poate crea fotografii cu persoane care nu există), o poză odată, timp de zile sau chiar săptămâni, până când este capabil să creeze imagini care sunt la fel de convingătoare ca și pozele autentice pe care le-a studiat.

Așa că cum știe Generatorul că face progrese, de fiecare dată când încearcă să creeze o imagine mai bună decât încercarea anterioară?

Generatorul are un șef de coșmar.

Opacitatea nemiloasă a Discriminatorului

Rolul Discriminatorului este să spună Generatorului că nu a făcut suficient de bine în crearea unei imagini autentice față de datele originale și să o facă din nou. Discriminatorul nu spune Generatorului ce a fost greșit cu încercarea anterioară a Generatorului; el doar aruncă o privire privată asupra acesteia, o compară cu imaginile sursă (din nou, privat) și atribuie imaginii un punctaj.

Punctajul nu este niciodată suficient de bun. Discriminatorul nu va înceta să spună „Faceți-o din nou” până când oamenii de știință nu îl opresc (când ei consideră că antrenamentul suplimentar nu va îmbunătăți outputul).

În acest fel, lipsit de orice critică constructivă și înarmat doar cu un punctaj a cărui metrică este un mister, Generatorul trebuie să ghicească aleatoriu care părți sau aspecte ale imaginii au cauzat un punctaj mai mare decât înainte. Acest lucru îl va duce pe multe drumuri nesatisfăcătoare înainte de a schimba ceva suficient de pozitiv pentru a obține un punctaj mai mare.

Discriminatorul ca tutore și mentor

Inovația oferită de noua cercetare este esențialmente că Discriminatorul indică acum Generatorului care părți ale imaginii au fost nesatisfăcătoare, astfel încât Generatorul să se poată concentra asupra acelor zone în următoarea iterație și să nu arunce secțiunile care au fost evaluate mai bine. Natura relației s-a transformat de la combativă la colaborativă.

Pentru a remedia disparitatea de insight între Discriminator și Generator, cercetătorii au utilizat GradCAM ca mecanism capabil să formuleze insight-urile Discriminatorului într-un ajutor de feedback vizual pentru următoarea încercare a Generatorului.

Noua metodă de antrenament „echilibrat” se numește EqGAN. Pentru reproducerea maximă, cercetătorii au incorporat tehnici și metode existente la setări implicite, inclusiv utilizarea arhitecturii StyleGan2.

Arhitectura EqGAN. Codarea spațială a Generatorului este aliniată cu conștientizarea spațială a Discriminatorului, cu mostre aleatorii de hărți de căldură spațiale (a se vedea imaginea anterioară) codificate înapoi în generator prin stratul de codare spațială (SEL). GradCAM este mecanismul prin care hărțile de atenție ale Discriminatorului sunt puse la dispoziția generatorului.

GradCAM produce hărți de căldură (a se vedea imagini mai sus) care reflectă critica Discriminatorului asupra ultimei iterații și o face disponibilă Generatorului.

Odată ce modelul este antrenat, harta rămâne ca un artefact al acestui proces cooperativ, dar poate fi utilizată și pentru a explora codul latent final în modul interactiv demonstrat în videoclipul proiectului cercetătorilor (a se vedea mai jos).

EqGAN

Proiectul a utilizat o serie de seturi de date populare, inclusiv seturile de date LSUN Cat și Churches, precum și setul de date FFHQ. Videoclipul de mai jos prezintă, de asemenea, exemple de manipulare facială și felină utilizând EqGAN.

Toate imaginile au fost redimensionate la 256×256 înainte de antrenarea EqGAN pe implementarea oficială a StyleGAN2. Modelul a fost antrenat la o dimensiune a lotului de 64 pe 8 GPU-uri până când Discriminatorul a fost expus la peste 25 de milioane de imagini.

Testând rezultatele sistemului pe mostre selectate cu Frechet Inception Distance (FID), autorii au stabilit o metrică numită Indicator de Desechilibru (DI) – gradul în care Discriminatorul păstrează avantajul de cunoaștere față de Generator, cu obiectivul de a reduce această diferență.

Pe cele trei seturi de date antrenate, noua metrică a arătat o scădere utilă după codarea conștientizării spațiale în Generator, cu echilibru îmbunătățit demonstrat atât de FID, cât și de DI.

Cercetătorii concluzionează:

‘Sperăm că această lucrare poate inspira mai multe lucrări de reexaminare a echilibrului GAN și de dezvoltare a unor metode noi pentru a îmbunătăți calitatea sintezei de imagini prin manipularea echilibrului GAN. De asemenea, vom efectua o investigație teoretică mai amănunțită asupra acestei probleme în lucrările viitoare.’

Și continuă:

‘Rezultatele calitative arată că metoda noastră concentrează cu succes Generatorul asupra unor regiuni specifice. Experimentele pe diverse seturi de date validează faptul că metoda noastră atenuează disechilibrul în antrenamentul GAN și îmbunătățește semnificativ calitatea generală a sintezei de imagini. Modelul rezultat, cu conștientizare spațială, permite, de asemenea, manipularea interactivă a imaginii de output.’

Aruncați o privire asupra videoclipului de mai jos pentru mai multe detalii despre proiect și pentru exemple suplimentare de explorare dinamică și interactivă a spațiului latent într-un GAN.