Mākslīgais intelekts

Neparedzētais ieguvums no GAN latentās telpas kartēšanas

Atjaunināts on Decembris 9, 2022

Mēģinot uzlabot mākslīgā intelekta ģenerēto attēlu kvalitāti un precizitāti, pētnieku grupa no Ķīnas un Austrālijas nejauši atklāja metodi, kā interaktīvi kontrolēt slēpto telpu. Ģeneratīvs pretrunīgs tīkls (GAN) — noslēpumaina aprēķinu matrica, kas slēpjas aiz jaunā attēlu sintēzes metožu viļņa, kura mērķis ir revolucionizēt filmas, spēles un sociālos medijus, kā arī daudzas citas izklaides un pētniecības nozares.

Viņu atklājums, kas ir projekta galvenā mērķa blakusprodukts, ļauj lietotājam patvaļīgi un interaktīvi izpētīt GAN latento telpu ar peli, it kā skrubējot video vai lapojot grāmatu.

Izvilkums no pētnieku pievienotā video (skatiet iegulšanu raksta beigās). Ņemiet vērā, ka lietotājs manipulē ar transformācijām, izmantojot “greifera” kursoru (augšējā kreisajā pusē). Avots: https://www.youtube.com/watch?v=k7sG4XY5rIc

Izvilkums no pētnieku pievienotā video (vairākus piemērus skatiet iegulšanas sadaļā raksta beigās). Ņemiet vērā, ka lietotājs manipulē ar transformācijām, izmantojot “greifera” kursoru (augšējā kreisajā pusē). Avots: https://www.youtube.com/watch?v=k7sG4XY5rIc

Metode izmanto “siltuma kartes”, lai norādītu, kuri attēla apgabali ir jāuzlabo, jo GAN tiek cauri vienai un tai pašai datu kopai tūkstošiem (vai simtiem tūkstošu) reižu. Siltuma kartes ir paredzētas, lai uzlabotu attēla kvalitāti, norādot GAN, kur tas notiek nepareizi, lai tā nākamais mēģinājums būtu labāks; bet nejauši tas nodrošina arī visas latentās telpas "karti", kuru var pārlūkot, pārvietojot peli.

Telpiskā vizuālā uzmanība tiek uzsvērta, izmantojot GradCAM, kas norāda vietas, kurām jāpievērš uzmanība, uzspiežot spilgtas krāsas. Šie paraugi tiek ģenerēti pētnieku projektā ar noklusējuma StyleGan2 ieviešanu. Avots: https://arxiv.org/pdf/2112.00718.pdf

Telpiskā vizuālā uzmanība tiek uzsvērta, izmantojot GradCAM, kas norāda vietas, kurām jāpievērš uzmanība, uzspiežot spilgtas krāsas. Avots: https://arxiv.org/pdf/2112.00718.pdf

Jūsu darbs IR Klientu apkalpošana papīrs tiek saukts GAN līdzsvara uzlabošana, paaugstinot telpisko izpratni, un nāk no Honkongas Ķīnas universitātes un Austrālijas Nacionālās universitātes pētniekiem. Papildus papīram, video un citi materiāli ir atrodami projekta lapā.

Darbs ir topošs un pašlaik aprobežojas ar zemas izšķirtspējas attēliem (256 × 256), taču tas ir koncepcijas pierādījums, kas sola atvērt latentās telpas “melno kasti”, un tas tiek veikts laikā, kad notiek vairāki pētniecības projekti. pie šīm durvīm, lai iegūtu lielāku kontroli pār attēla sintēzi.

Lai gan šādi attēli ir saistoši (un jūs varat redzēt vairāk no tiem labākā izšķirtspējā šī raksta beigās iegultajā videoklipā), iespējams, vēl svarīgāk ir tas, ka projekts ir atradis veidu, kā uzlabot attēla kvalitāti un, iespējams, lai to izdarītu ātrāk, apmācības laikā norādot GAN, kur tas notiek nepareizi.

Bet, kā Adversarial norāda, ka GAN nav viena vienība, bet gan nevienlīdzīgs konflikts starp autoritāti un slogu. Lai saprastu, kādus uzlabojumus šajā ziņā ir veikuši pētnieki, apskatīsim, kā šis karš tika raksturots līdz šim.

Ģeneratora nožēlojamā situācija

Ja jūs kādreiz ir vajājusi doma, ka kāds lielisks jauns apģērba priekšmets, ko iegādājāties, ir ražots sviedru darbnīcā ekspluatētā valstī, vai ja jums ir priekšnieks vai klients, kurš nepārtraukti liek jums darīt to vēlreiz! nekad nepasakot, kas bija nepareizi ar jūsu pēdējo mēģinājumu, aiztaupiet žēlumu par Ģenerators daļa no ģeneratīvā pretrunīgā tīkla.

Ģenerators ir darba zirgs, kas jūs priecē pēdējos piecus vai vairāk gadus, palīdzot GAN izveidot fotoreālistiski cilvēki, kas neeksistē, augstas klases vecās videospēles līdz 4k izšķirtspējai, un pagrieziet gadsimtu vecus kadrus pilnkrāsu HD izvadē ar ātrumu 60 kadri sekundē, starp citiem brīnišķīgiem AI jaunumiem.

No nereālu cilvēku fotoreālu seju radīšanas līdz senu kadru atjaunošanai un arhīvu videospēļu atdzīvināšanai, GAN pēdējos gados ir bijis aizņemts.

Ģenerators atkal un atkal pārbauda visus apmācības datus (piemēram, seju attēlus, lai izveidotu GAN, kas var izveidot nejaušu, neeksistējošu cilvēku fotoattēlus), pa vienam fotoattēlam dienām vai pat nedēļām, līdz tas spēj radīt attēlus, kas ir tikpat pārliecinoši kā patiesās fotogrāfijas, kuras tā pētīja.

Tātad, kā ģenerators zina, ka tas gūst panākumus, ikreiz, kad tas mēģina izveidot attēlu, kas ir labāks par iepriekšējo mēģinājumu?

Ģeneratoram ir priekšnieks no elles.

Diskriminētāja nežēlīgā necaurredzamība

Darbs Diskriminētājs ir pateikt ģeneratoram, ka tas nav veicies pietiekami labi, izveidojot attēlu, kas ir autentisks sākotnējiem datiem, un Izdari to vēlreiz. Diskriminators nestāsta ģeneratoram ko kļūdījās Ģeneratora pēdējā mēģinājumā; tas vienkārši to aplūko privāti, salīdzina ģenerēto attēlu ar avota attēliem (atkal privāti) un piešķir attēlam punktu skaitu.

Rezultāts ir nekad pietiekami labs. Diskriminētājs nepārstās teikt 'Izdari to vēlreiz' līdz brīdim, kad pētnieki to izslēdz (kad viņi uzskata, ka papildu apmācība vairs neuzlabos rezultātu).

Tādā veidā, bez jebkādas konstruktīvas kritikas un tikai ar rezultātu, kura metrika ir noslēpumaina, ģeneratoram nejauši jāuzmin, kuras attēla daļas vai aspekti izraisīja augstāku punktu skaitu nekā iepriekš. Tas novedīs pie daudziem citiem neapmierinošiem maršrutiem, pirms tas kaut ko mainīs pietiekami pozitīvi, lai iegūtu augstāku punktu skaitu.

Diskriminators kā skolotājs un mentors

Jaunā pētījuma sniegtā inovācija būtībā ir tāda, ko Diskriminators tagad norāda ģeneratoram kuras attēla daļas bija neapmierinošas, lai ģenerators nākamajā iterācijā varētu koncentrēties uz šīm jomām un neizmest sadaļas, kurām tika piešķirts augstāks vērtējums. Attiecību būtība ir kļuvusi no kaujinieciskām uz sadarbību vērstām.

Lai labotu atšķirību ieskatā starp diskriminatoru un ģeneratoru, pētnieki izmantoja GradCAM kā mehānisms, kas spēj formulēt Diskriminatora ieskatu vizuālās atgriezeniskās saites palīglīdzeklī Ģeneratora nākamajam mēģinājumam.

Jaunā "līdzsvara" apmācības metode tiek saukta par EqGAN. Lai nodrošinātu maksimālu reproducējamību, pētnieki iekļāva esošās metodes un metodes noklusējuma iestatījumos, tostarp izmantoja StilsGan2 arhitektūra.

EqGAN arhitektūra. Ģeneratora telpiskais kodējums ir saskaņots ar Diskriminatora telpisko apziņu, ar nejaušiem telpisko siltuma karšu paraugiem (skatiet iepriekšējo attēlu), kas tiek kodēti atpakaļ ģeneratorā, izmantojot telpiskās kodēšanas slāni (SEL). GradCAM ir mehānisms, ar kura palīdzību Discriminator uzmanības kartes tiek darītas pieejamas ģeneratoram.

GradCAM izveido siltuma kartes (skatiet attēlus iepriekš), kas atspoguļo Discriminator kritiku par jaunāko iterāciju, un padara to pieejamu ģeneratoram.

Kad modelis ir apmācīts, kartēšana paliek kā šī sadarbības procesa artefakts, bet to var arī izmantot, lai izpētītu galīgo latento kodu interaktīvā veidā, kas parādīts pētnieku projekta videoklipā (skatīt zemāk).

EqGAN

Projektā tika izmantotas vairākas populāras datu kopas, tostarp LSUN Cat un Churches datu kopas, kā arī FFHQ datu kopa. Tālāk esošajā videoklipā ir arī piemēri sejas un kaķu manipulācijām, izmantojot EqGAN.

Visu attēlu izmērs tika mainīts uz 256 × 256 pirms EqGAN apmācības par StyleGAN2 oficiālo ieviešanu. Modelis tika apmācīts 64 par 8 GPU, līdz Discrinator tika pakļauts vairāk nekā 25 miljoniem attēlu.

Sistēmas rezultātu pārbaude atlasītajos paraugos ar Frechet sākuma attālumu (FID), autori izveidoja metriku, ko sauc par nelīdzsvarotības indikatoru (DI) — pakāpi, kādā diskriminators saglabā zināšanu priekšrocības salīdzinājumā ar ģeneratoru, lai samazinātu šo plaisu.

Trīs apmācīto datu kopu laikā jaunā metrika uzrādīja noderīgu kritumu pēc telpiskās izpratnes kodēšanas ģeneratorā, uzlabojot līdzsvaru, ko demonstrē gan FID, gan DI.

Pētnieki secina:

"Mēs ceram, ka šis darbs var iedvesmot vairāk darbu, lai pārskatītu GAN līdzsvaru un izstrādātu jaunas metodes, lai uzlabotu attēla sintēzes kvalitāti, manevrējot GAN līdzsvaru. Mēs veiksim arī plašāku teorētisko izpēti par šo jautājumu turpmākajā darbā.

Un turpiniet:

"Kvalitatīvie rezultāti liecina, ka mūsu metode veiksmīgi [piespiež ģeneratoru] koncentrēties uz konkrētiem reģioniem. Eksperimenti ar dažādām datu kopām apstiprina, ka mūsu metode mazina nelīdzsvarotību GAN apmācībā un būtiski uzlabo kopējo attēla sintēzes kvalitāti. Iegūtais modelis ar telpisko apzināšanos arī ļauj interaktīvi manipulēt ar izvades attēlu.

Apskatiet tālāk redzamo videoklipu, lai iegūtu plašāku informāciju par projektu un citus piemērus par dinamisku un interaktīvu latentās telpas izpēti GAN.

GAN līdzsvara uzlabošana, paaugstinot telpisko izpratni

Improving GAN Equilibrium by Raising Spatial Awareness

Watch this video on YouTube

11:12, 4. gada 2021. decembris — GradCAM izlabots URL un sakārtota apkārtējā atsauce.

Nākošais

Jauna mašīnmācīšanās pieeja varētu paātrināt zāļu izstrādi

Nepalaidiet garām

Emociju maiņa video materiālos, izmantojot AI

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai