škrbina Sistem umetne inteligence, ki lahko podobe ljudi naredi "lepše" - Unite.AI
Povežite se z nami

Umetna inteligenca

Sistem umetne inteligence, ki lahko naredi slike ljudi bolj "lepe"

mm
Posodobljeno on
Slika v ozadju: DALL-E 2 'Nagrajena fotografija 8K najlepše kavkaške manekenke na modni pisti na svetu' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA
Slika v ozadju: DALL-E 2 'Nagrajena fotografija 8K najlepše kavkaške manekenke na modni pisti na svetu' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Raziskovalci s Kitajske so razvili nov sistem za izboljšanje slike, ki temelji na umetni inteligenci in je sposoben narediti slike osebe bolj "lepe", ki temelji na novem pristopu k učenju s krepitvijo.

Novi pristop uporablja 'omrežje za napovedovanje lepote obraza' za ponavljanje variacij slike na podlagi številnih dejavnikov, med katerimi sta lahko 'osvetlitev' in položaj oči kritična dejavnika. Tukaj izvirni viri (na levi strani vsakega stolpca) so iz sistema EigenGAN, z novimi rezultati na desni strani teh. Vir: https://arxiv.org/pdf/2208.04517.pdf

Novi pristop uporablja 'omrežje za napovedovanje lepote obraza' za ponavljanje variacij slike na podlagi številnih dejavnikov, med katerimi sta lahko 'osvetlitev' in položaj oči kritična dejavnika. Tukaj izvirni viri (na levi strani vsakega stolpca) so iz sistema EigenGAN, z novimi rezultati na desni strani teh. Vir: https://arxiv.org/pdf/2208.04517.pdf

Tehnika temelji na inovacijah, odkritih za Generator EigenGAN, še en kitajski projekt iz leta 2021, ki je naredil opazne korake pri prepoznavanju in pridobivanju nadzora nad različnimi pomenske lastnosti znotraj latentnega prostora generativnih kontradiktornih omrežij (GAN).

Generator EigenGAN 2021 je lahko individualiziral koncepte na visoki ravni, kot je 'barva las', znotraj latentnega prostora generativne kontradiktorne mreže. Novo delo temelji na tem inovativnem orodju za zagotavljanje sistema, ki lahko 'polepša' izvorne slike, vendar brez spreminjanja prepoznavne identitete – težava v prejšnjih pristopih. Vir: https://arxiv.org/pdf/2104.12476.pdf

Generator EigenGAN 2021 je lahko individualiziral koncepte na visoki ravni, kot je 'barva las', znotraj latentnega prostora generativne kontradiktorne mreže. Novo delo temelji na tem inovativnem orodju za zagotavljanje sistema, ki lahko 'polepša' izvorne slike, vendar brez spreminjanja prepoznavne identitete – težava v prejšnjih pristopih. Vir: https://arxiv.org/pdf/2104.12476.pdf

Sistem uporablja "mrežo estetskih točk", ki izhaja iz SCUT-FBP5500 (SCUT), nabor primerjalnih podatkov za leto 2018 za napovedovanje lepote obraza, s tehnološke univerze Južne Kitajske v Guangzhouju.

Iz dokumenta iz leta 2018 'SCUT-FBP5500: Raznolik primerjalni nabor podatkov za večparadigmalno napovedovanje lepote obraza', ki je ponudil omrežje 'Facial beauty prediction' (FBP), ki je sposobno razvrstiti obraze glede na zaznano privlačnost, vendar ga dejansko ni moglo spremeniti. ali 'nadgraditi' obraze. Vir: https://arxiv.org/pdf/1801.06345.pdf

Iz dokumenta iz leta 2018 'SCUT-FBP5500: Raznolik primerjalni nabor podatkov za večparadigmalno napovedovanje lepote obraza', ki je ponudil omrežje 'Facial beauty prediction' (FBP), ki je sposobno razvrstiti obraze glede na zaznano privlačnost, vendar ga dejansko ni moglo spremeniti. ali 'nadgraditi' obraze.  Vir: https://arxiv.org/pdf/1801.06345.pdf

Za razliko od novega dela projekt iz leta 2018 dejansko ne more izvajati transformacij, ampak vsebuje algoritemske vrednostne sodbe za 5,500 obrazov, ki jih zagotovi 60 označevalcev mešanega spola (razdelitev 50/50). Te so bile vključene v nov sistem kot učinkovite diskriminator, za obveščanje o transformacijah, ki bodo verjetno povečale 'privlačnost' slike.

Zanimivo je, da nov papir je naslovljen Ustvarjanje lepih kavkaških obrazov, ki jih je mogoče nadzorovati, z estetsko usmerjenim učenjem krepitve. Razlog, da so vse rase razen belcev izključene iz sistema (upoštevajte tudi, da so sami raziskovalci Kitajci), je v tem, da se izvorni podatki za SCUT nagibajo predvsem k azijskim virom (4000 enakomerno razdeljenih azijskih žensk/moških, 1500 enakomerno razdeljenih kavkaških žensk /moški), zaradi česar je 'povprečna oseba' v tem naboru podatkov rjavolasa in rjavooka.

Zato je bilo treba, da bi prilagodili variacije obarvanja vsaj znotraj ene rase, iz prvotnih podatkov izključiti azijsko komponento ali pa vzeti znatne stroške rekonstitucije podatkov za razvoj metode, ki morda ne bi uspela. Poleg tega razlike v kulturnem dojemanju lepote neizogibno pomeni, da bodo takšni sistemi potrebovali določeno stopnjo geografske nastavljivosti glede na to, kaj pomeni "privlačnost".

Ustrezni atributi

Za določitev primarnih dejavnikov, ki prispevajo k "privlačni" fotografiji osebe, so raziskovalci preizkusili tudi učinek različnih sprememb slik v smislu, kako dobro so takšne povečave povečale algoritemsko zaznavanje "lepote". Ugotovili so, da je vsaj eden od vidikov bolj osrednji za dobro fotografijo kot dobra genetika:

Poleg osvetlitve so vidiki, ki so najbolj vplivali na oceno lepote, bili šiška (ki je v primeru moških pogosto enakovreden temu, da bi sploh imeli polno lase), drža telesa in razporeditev oči (kjer je stik z pogled kamere je dodatek k privlačnosti).

(Kar zadeva 'barvo šminke', novi sistem, ki lahko učinkovito deluje na moških in ženskih predstavitvah spola, ne individualizira videza spola, temveč se v tem pogledu opira na nov diskriminatorski sistem kot 'filter')

Metoda

Funkcijo nagrajevanja v mehanizmu za krepitev učenja v novem sistemu poganja preprosta regresija nad podatki SCUT, ki dajejo napovedi lepote obraza.

Sistem za usposabljanje ponavlja slike vnosa podatkov (spodaj levo v spodnji shemi). Sprva predhodno usposobljen ResNet18 model (treniran na ImageNet) izloči značilnosti iz petih enakih ('y') slik. Nato je potencialno transformativno dejanje izpeljano iz skritega stanja a popolnoma povezan sloj (GRUCell, na sliki spodaj), in uporabljene transformacije, ki vodijo do petih spremenjenih slik, ki se vnesejo v mrežo estetskih rezultatov, katerih razvrstitev v Darwinovem slogu bo določila, katere različice bodo razvite in katere zavržene.

Široka ilustracija poteka dela za novi sistem.

Ilustracija poteka dela za nov sistem.

Mreža estetskih rezultatov uporablja učinkovit kanal pozornosti (ACE), medtem ko je prilagoditev vnaprej usposobljenega primerka EfficientNet-B4 ima nalogo, da iz vsake slike izlušči 1,792 značilnosti.

Po normalizaciji skozi a Funkcija aktiviranja ReLUse 4-dimenzionalni vektor pridobi nazaj iz modula ECA, ki se nato po aktivaciji in splošči v enodimenzionalni vektor. prilagodljivo povprečno združevanje. Končno se rezultati vnesejo v regresijsko mrežo, ki pridobi oceno estetike.

Kvalitativna primerjava izhoda iz sistema. V spodnji vrstici vidimo skupno vsoto vseh posameznih faset, ki so bile identificirane z metodo EigenGAN in nato izboljšane. Povprečni rezultati FID za slike so levo od vrstic s slikami (višje je boljše).

Kvalitativna primerjava izhoda iz sistema. V spodnji vrstici vidimo skupno vsoto vseh posameznih faset, ki so bile identificirane z metodo EigenGAN in nato izboljšane. Povprečni rezultati FID za slike so levo od vrstic s slikami (višje je boljše).

Testi in uporabniške študije

Algoritemsko je bilo ovrednotenih pet različic predlagane metode (glej zgornjo sliko) z Fréchetovo začetno razdaljo (FID, v nekaterih krogih sporen) ocene, dodeljene skupno 1000 slikam, poslanim skozi sistem.

Raziskovalci ugotavljajo, da je izboljšanje osvetlitve doseglo boljšo oceno privlačnosti subjektov na fotografijah kot več drugih bolj "očitnih" možnih sprememb (tj. dejanskega videza upodobljene osebe).

Do določene mere je preizkušanje sistema na ta način omejeno z ekscentričnostjo podatkov SCUT, ki nimajo veliko "bleščečih nasmehov", in avtorji trdijo, da bi to lahko pretirano precenilo bolj tipičen "enigmatičen" videz v podatke v primerjavi z verjetnimi preferencami potencialnih ciljnih končnih uporabnikov (verjetno v tem primeru zahodni trg).

Ker pa celoten sistem temelji na povprečnih mnenjih samo 60 ljudi (v dokumentu EigenGAN) in ker kakovost, ki se preučuje, še zdaleč ni empirična, bi lahko trdili, da je postopek bolj zanesljiv kot nabor podatkov.

Čeprav je v prispevku obravnavano zelo na kratko, so bile slike iz EigenGAN in lastnih pet različic sistema prikazane tudi v omejeni uporabniški študiji (osem udeležencev), ki so morali izbrati 'najboljšo sliko' (beseda 'privlačna' je bila izogniti).

Zgoraj GUI predstavljen majhni študijski skupini; spodaj rezultati.

Zgoraj GUI predstavljen majhni študijski skupini; spodaj rezultati.

Rezultati kažejo, da je rezultat novega sistema dosegel najvišjo stopnjo izbire med udeleženci ('MAES' na zgornji sliki).

(Brezciljno?) Iskanje lepote

Uporabnost takega sistema je težko ugotoviti, kljub temu, kar se zdi a opazen loci of prizadevanje in Kitajska k tem ciljem. Nobena ni navedena v novi publikaciji.

Prejšnji dokument EigenGAN nakazuje*, da bi lahko sistem za prepoznavanje lepote uporabili pri negi obraza sistemi priporočil za sintezo ličenja, estetska kirurgija, polepšanje obrazaali iskanje slik na podlagi vsebine.

Verjetno bi lahko končni uporabniki takšen pristop uporabili tudi na spletnih mestih za zmenke, da bi svoje fotografije profila 'izboljšali' v zajamčen 'srečen posnetek', kot alternativo uporabi zastarelih fotografij ali fotografij drugih ljudi.

Podobno bi lahko tudi sama spletna mesta za zmenke 'ocenila' svoje stranke za ustvarjanje ocen in celo ravni z omejenim dostopom, čeprav bi to predvidoma delovalo samo prek zajemanja avtentikacije živosti, namesto predloženih fotografij (ki bi jih lahko stranke prav tako 'izboljšale', če bi pristop postal priljubljen).

V oglaševanju algoritemska metoda za ocenjevanje lepote (tehnologija, ki jo je napovedal pokojni avtor znanstvene fantastike Michael Crichton v svojem kinematografskem izletu leta 1982 Looker) bi lahko uporabili za izbiro neizboljšanega ustvarjalnega rezultata, ki bi najverjetneje pritegnil ciljno občinstvo, medtem ko bi zmožnost dejanskega povečanja estetskega učinka slik obraza, ne da bi jih dejansko prepisali v slogu globokih ponaredkov, lahko okrepila že učinkovite slike, ki so namenjene pridobiti zanimanje javnosti.

Novo delo med drugim podpirajo Kitajska nacionalna naravoslovna fundacija, projekt odprtega sklada državnega ključnega laboratorija za upravljanje in nadzor kompleksnih sistemov ter projekt filozofskih in družboslovnih raziskav kitajskega ministrstva za izobraževanje.

 

* Številna priporočila v dokumentu EigenGAN kažejo na komercialno dostopno knjigo iz leta 2016 z naslovom "Računalniški modeli za analizo lepote obraza" in ne na akademske vire.

Prvič objavljeno 11. avgusta 2022.