Kënschtlech Intelligenz

Den ongewollten Virdeel fir de Latente Raum vun engem GAN ze kartéieren

aktualiséiert on Dezember 9, 2022

Wärend de Versuch d'Qualitéit an d'Vertraulechkeet vun AI-generéierte Biller ze verbesseren, huet e Grupp vu Fuerscher aus China an Australien onbedéngt eng Method entdeckt fir interaktiv de latente Raum vun engem Generative Géigner Netzwierk (GAN) - déi mysteriéis Berechnungsmatrix hannert der neier Welle vu Bildsynthesetechniken, déi agestallt gi fir Filmer, Spillerinne a soziale Medien ze revolutionéieren, a vill aner Secteuren an Ënnerhalung a Fuerschung.

Hir Entdeckung, en Nebenprodukt vum zentrale Zil vum Projet, erlaabt e Benotzer arbiträr an interaktiv de latente Raum vun engem GAN mat enger Maus ze entdecken, wéi wann se duerch e Video scrubben oder duerch e Buch bléien.

En Extrait aus dem Begleedungsvideo vun de Fuerscher (kuckt embed um Enn vum Artikel). Notéiert datt de Benotzer d'Transformatiounen manipuléiert mat engem 'Grab' Cursor (uewen lénks). Source: https://www.youtube.com/watch?v=k7sG4XY5rIc

En Auszich aus dem Begleedungsvideo vun de Fuerscher (kuckt embed um Enn vum Artikel fir vill méi Beispiller). Notéiert datt de Benotzer d'Transformatiounen manipuléiert mat engem 'Grab' Cursor (uewen lénks). Source: https://www.youtube.com/watch?v=k7sG4XY5rIc

D'Method benotzt 'Hëtztkaarten' fir unzeginn wéi eng Gebidder vun engem Bild solle verbessert ginn well de GAN duerch déiselwecht Datesaz Dausende (oder Honnerte vun Dausende) vun Mol leeft. D'Hëtztkaarten sollen d'Bildqualitéit verbesseren andeems se dem GAN soen wou et falsch leeft, sou datt säin nächste Versuch besser ass; awer zoufälleg, dëst bitt och eng 'Kaart' vum ganze latente Raum, deen duerch d'Mausbewegung duerchsicht ka ginn.

Raum visuell Opmierksamkeet betount iwwer GradCAM, wat Gebidder beweist déi Opmierksamkeet brauchen andeems se helle Faarwen imposéieren. Dës Echantillon ginn am Fuerscherprojet generéiert mat enger Standardimplementatioun vu StyleGan2. Source: https://arxiv.org/pdf/2112.00718.pdf

Raum visuell Opmierksamkeet betount iwwer GradCAM, wat Gebidder beweist déi Opmierksamkeet brauchen andeems se helle Faarwen imposéieren. Source: https://arxiv.org/pdf/2112.00718.pdf

d' Pabeier heescht Verbesserung vum GAN Gläichgewiicht duerch raimlech Bewosstsinn, a kënnt vu Fuerscher op der Chinesesch Universitéit vun Hong Kong an der Australian National University. Nieft dem Pabeier, Video an aner Material kann op der Projet Säit fonnt ginn.

D'Aarbecht ass nascent, a momentan limitéiert op niddereg Opléisung Biller (256 × 256), awer ass e Beweis vum Konzept dat versprécht d'"schwaarz Këscht" vum latente Raum opzebriechen, a kënnt zu enger Zäit wou verschidde Fuerschungsprojete hammeren bei där Dier op der Sich no enger méi grousser Kontroll iwwer d'Bildsynthese.

Och wann esou Biller engagéieren (an Dir kënnt méi vun hinnen gesinn, a besserer Opléisung, am Video um Enn vun dësem Artikel agebonnen), wat vläicht méi bedeitend ass datt de Projet e Wee fonnt huet fir eng verbessert Bildqualitéit ze kreéieren, a potenziell fir et méi séier ze maachen, andeems Dir dem GAN speziell seet, wou et während dem Training falsch leeft.

Zil, Ace Géigner weist, e GAN ass net eng eenzeg Entitéit, mee amplaz en ongläiche Konflikt tëscht Autoritéit an Drudgery. Fir ze verstoen wéi eng Verbesserungen d'Fuerscher an dësem Respekt gemaach hunn, kucke mer wéi dëse Krich bis elo charakteriséiert gouf.

De Piteous Plight vum Generator

Wann Dir jeemools vum Gedanke begeeschtert sidd, datt e super neit Kleedungsstéck, deen Dir kaaft hutt, an engem Sweatshop an engem exploitéierte Land produzéiert gouf, oder e Chef oder Client hat, deen Iech ëmmer erëm gesot huet "Maacht et nach eng Kéier!" ouni Iech jeemools ze soen wat mat Ärem leschte Versuch falsch war, schounen engem Mit schued fir de Generator Deel vun engem Generative Adversarial Network.

De Generator ass den Aarbechtspäerd deen Iech fir déi lescht fënnef oder sou Joer begeeschtert huet andeems Dir GANs hëlleft photorealistesch Leit déi net existéieren, upscale al Video Spiller zu 4k Resolutioun, a verwandelt Joerhonnert-al Footage an Full-Color HD Output bei 60fps, ënner anerem wonnerbar AI Neiheeten.

Vu Fotoreal Gesiichter vun onreale Leit erstellen fir antike Footage ze restauréieren an Archivvideospiller z'erliewen, GAN war an de leschte Jore beschäftegt.

De Generator leeft ëmmer erëm duerch all Trainingsdaten (wéi Biller vu Gesiichter, fir e GAN ze maachen deen Fotoe vu zoufälleg, net existente Leit ka kreéieren), eng Foto gläichzäiteg, fir Deeg oder souguer Wochen, bis et fäeg ass Biller ze kreéieren déi sou iwwerzeegend sinn wéi déi echt Fotoen déi et studéiert huet.

Also wéi weess de Generator datt et e Fortschrëtt mécht, all Kéier wann et probéiert e Bild ze kreéieren dat besser ass wéi säi fréiere Versuch?

De Generator huet e Patron aus der Hell.

D'Ganzlos Opazitéit vum Diskriminator

D'Aarbecht vun der Diskriminator ass dem Generator ze soen datt et net gutt genuch gemaach huet fir e Bild ze kreéieren dat authentesch ass fir déi originell Donnéeën, an Maacht et nach eng Kéier. Den Diskriminator seet dem Generator net waat war falsch mam leschte Versuch vum Generator; et hëlt just e private Bléck op et, vergläicht der generéiert Bild op d'Quell Biller (erëm, privat), an zougewisen d'Bild engem Score.

De Score ass ni gutt genuch. Den Diskriminator wäert net ophalen ze soen 'Maacht et nach eng Kéier' bis d'Fuerschungswëssenschaftler et ausschalten (wann se beurteelen datt déi zousätzlech Ausbildung d'Ausgab net weider verbessert).

Op dës Manéier, fehlt all konstruktiv Kritik, a bewaffnet nëmme mat engem Score deem seng Metrik e Geheimnis ass, muss de Generator zoufälleg roden wéi eng Deeler oder Aspekter vum Bild e méi héije Score verursaacht hunn wéi virdrun. Dëst féiert et vill weider onzefridden Strecken erof ier et eppes positiv genuch ännert fir e méi héije Score ze kréien.

Den Diskriminator als Tuteur a Mentor

D'Innovatioun zur Verfügung gestallt vun der neier Fuerschung ass am Wesentlechen datt den Diskriminator elo dem Generator weist déi Deeler vum Bild waren onzefridden, sou datt de Generator sech op dës Beräicher a senger nächster Iteratioun konzentréiere kann, an d'Sektiounen net ewechgeheien, déi méi héich bewäert goufen. D'Natur vun der Bezéiung huet sech vu kämpfen op kollaborativ verwandelt.

Fir d'Differenz vum Asiicht tëscht dem Diskriminator an dem Generator ze léisen, hunn d'Fuerscher benotzt GradCAM als Mechanismus kapabel der Diskriminator Abléck an eng visuell Feedback Hëllef fir de Generator nächste Versuch ze formuléieren.

Déi nei 'Gläichgewiicht' Trainingsmethod gëtt EqGAN genannt. Fir maximal Reproduzibilitéit hunn d'Fuerscher existéierend Techniken a Methoden op Standardastellungen integréiert, dorënner d'Benotzung vun der StyleGan 2 Architektur.

D'Architektur vun EqGAN. D'raimlech Kodéierung vum Generator ass op d'raimlech Bewosstsinn vum Diskriminator ausgeriicht, mat zoufällegem Proben vu raimleche Hëtztkaarten (kuckt virdrun Bild) kodéiert zréck an de Generator iwwer d'raimlech Kodéierungsschicht (SEL). GradCAM ass de Mechanismus duerch deen d'Opmierksamkeetskaarten vum Diskriminator dem Generator zur Verfügung gestallt ginn.

GradCAM produzéiert Hëtztkaarten (kuckt uewe Biller) déi d'Kritik vum Diskriminator vun der leschter Iteratioun reflektéieren, an dëst dem Generator zur Verfügung stellen.

Wann de Modell trainéiert ass, bleift d'Mapping als Artefakt vun dësem Kooperative Prozess, awer kann och benotzt ginn fir de finalen latente Code op déi interaktiv Manéier ze entdecken, déi am Video vum Fuerscherprojet demonstréiert gëtt (kuckt hei ënnen).

EqGAN

De Projet huet eng Rei vu populäre Datesätz benotzt, dorënner d'LSUN Cat and Churches Datesets, souwéi d' FFHQ dataset. De Video hei drënner weist och Beispiller vu Gesiichts- a Katzemanipulatioun mat EqGAN.

All Biller goufen op 256 × 256 geännert virum Training EqGAN op der offizieller Ëmsetzung vu StyleGAN2. De Modell gouf bei enger Batchgréisst vun 64 iwwer 8 GPUs trainéiert bis den Diskriminator op iwwer 25 Millioune Biller ausgesat war.

Testen d'Resultater vum System iwwer ausgewielte Proben mat Frechet Inception Distance (FID), hunn d'Auteuren eng Metrik genannt Disequilibrium Indicator (DI) etabléiert - de Grad op deem den Diskriminator säi Wëssensvirdeel iwwer de Generator behält, mam Zil dës Lück ze verklengeren.

Iwwer déi dräi trainéiert Datensätz huet déi nei Metrik e nëtzlechen Réckgang gewisen nodeems de raimleche Bewosstsinn an de Generator kodéiert gouf, mat verbesserte Gläichgewiicht demonstréiert vu béide FID an DI.

D'Fuerscher schléissen:

"Mir hoffen, datt dës Aarbecht méi Wierker inspiréiere kann fir de GAN Gläichgewiicht ze besichen a méi nei Methoden z'entwéckelen fir d'Bildsynthesequalitéit ze verbesseren duerch d'Manöver vum GAN Gläichgewiicht. Mir wäerten och an der zukünfteg Aarbecht méi theoretesch Enquête zu dësem Thema maachen.'

A weider:

"Qualitativ Resultater weisen datt eis Method erfollegräich [zwéngt de Generator] op spezifesch Regiounen ze konzentréieren. Experimenter op verschidden Datesätz validéieren datt eis Method den Desquilibrium am GAN Training reduzéiert an d'Gesamtbildsynthesequalitéit wesentlech verbessert. De resultéierende Modell mat raimlecher Bewosstsinn erméiglecht och déi interaktiv Manipulatioun vum Ausgangsbild.'

Kuckt de Video hei ënnen fir méi Detailer iwwer de Projet, a weider Beispiller vun dynamescher an interaktiver Exploratioun vum latente Raum an engem GAN.

GAN Gläichgewiicht verbesseren andeems d'Ratial Sensibiliséierung erhéicht gëtt

Improving GAN Equilibrium by Raising Spatial Awareness

Watch this video on YouTube

11:12 Auer 4. Dezember 2021 - Korrigéiert URL fir GradCAM an ëmgerechent Referenz.

No weider

Nei Maschinn Léieren Approche kéint Drogen Design beschleunegen

Hu keng Miss

Änneren Emotiounen a Videomaterial mat AI

Martin Anderson

Schrëftsteller iwwer Maschinnléieren, kënschtlech Intelligenz a Big Data.
Perséinlech Säit: martinanderson.ai
Contact: [Email geschützt]
Twitter: @manders_ai