Connect with us

Systém AI, který může udělat obrázky lidí více ‘krásnými’

Umělá inteligence

Systém AI, který může udělat obrázky lidí více ‘krásnými’

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Výzkumníci z Číny vyvinuli nový systém založený na umělé inteligenci pro vylepšení obrazu, který je schopen udělat obrázky člověka více ‘krásnými’, na základě nového přístupu k učení s posilováním.

Nový přístup používá 'síť pro predikci krásy obličeje' k procházení různých verzí obrázku na základě řady faktorů, mezi nimiž 'osvětlení' a poloha očí mohou být kritickými faktory. Zde jsou původní zdroje (vlevo každé sloupce) z systému EigenGAN, s novými výsledky vpravo od nich. Source: https://arxiv.org/pdf/2208.04517.pdf

Nový přístup používá ‘síť pro predikci krásy obličeje’ k procházení různých verzí obrázku na základě řady faktorů, mezi nimiž ‘osvětlení’ a poloha očí mohou být kritickými faktory. Zde jsou původní zdroje (vlevo každé sloupce) z systému EigenGAN, s novými výsledky vpravo od nich. Source: https://arxiv.org/pdf/2208.04517.pdf

Tato technika vychází z inovací objevených pro EigenGAN generátor, jiný čínský projekt, z roku 2021, který učinil pozoruhodné kroky v identifikaci a získání jisté kontroly nad různými sémantickými atributy v latentním prostoru Generative Adversarial Networks (GANs).

Generátor EigenGAN z roku 2021 byl schopen identifikovat vysoké koncepty, jako je 'barva vlasů' v latentním prostoru generativního adversariálního sítě. Nová práce staví na této inovativní instrumentality, aby dodala systém, který může 'zkrásnit' zdrojové obrázky, ale bez změny rozpoznatelné identity – problém v předchozích přístupech. Source: https://arxiv.org/pdf/2104.12476.pdf

Generátor EigenGAN z roku 2021 byl schopen identifikovat vysoké koncepty, jako je ‘barva vlasů’ v latentním prostoru generativního adversariálního sítě. Nová práce staví na této inovativní instrumentality, aby dodala systém, který může ‘zkrásnit’ zdrojové obrázky, ale bez změny rozpoznatelné identity – problém v předchozích přístupech. Source: https://arxiv.org/pdf/2104.12476.pdf

Systém využívá ‘síť pro hodnocení estetiky’ odvozenou z SCUT-FBP5500 (SCUT), benchmark dataset pro predikci krásy obličeje z roku 2018, z Jihočínské univerzity technologie v Kantonu.

Z článku z roku 2018 'SCUT-FBP5500: Různorodý benchmark dataset pro multi-paradigmatickou predikci krásy obličeje', který nabídl 'síť pro predikci krásy obličeje' (FBP) schopnou řadit tváře podle vnímané atraktivity, ale která nemohla skutečně transformovat nebo 'vylepšit' tváře. Source: https://arxiv.org/pdf/1801.06345.pdf

Z článku z roku 2018 ‘SCUT-FBP5500: Různorodý benchmark dataset pro multi-paradigmatickou predikci krásy obličeje’, který nabídl ‘síť pro predikci krásy obličeje’ (FBP) schopnou řadit tváře podle vnímané atraktivity, ale která nemohla skutečně transformovat nebo ‘vylepšit’ tváře. Source: https://arxiv.org/pdf/1801.06345.pdf

Na rozdíl od nové práce, projekt z roku 2018 nemůže skutečně provádět transformace, ale obsahuje algoritmické hodnotící soudy pro 5 500 tváří, dodané 60 směsí pohlaví označovatelů (50/50 rozdělení). Tyto byly začleněny do nového systému jako efektivní diskriminátor, aby informovaly transformace, které jsou pravděpodobně zvýší ‘atraktivitu’ obrázku.

Zajímavě, nová práce je nazvána Attribute Controllable Beautiful Caucasian Face Generation by Aesthetics Driven Reinforcement Learning. Důvod, proč jsou všechny rasy kromě kavkazské vyloučeny ze systému (zvažte také, že výzkumníci sami jsou Číňané), je ten, že zdrojová data pro SCUT se znatelně naklonila k asijským zdrojům (4000 rovnoměrně rozdělených asijských žen/mužů, 1500 rovnoměrně rozdělených kavkazských žen/mužů), což dělá ‘průměrnou osobu’ v tomto datasetu hnědovlasou a hnědookou.

Proto, aby se přizpůsobily barevné variace alespoň v jedné rase, bylo nutné vyloučit asijskou složku z původních dat, nebo jít na značné náklady rekonstituovat data, aby se vyvinula metoda, která by nemusela vyjít.

Kromě toho variace v kulturních vnímaních krásy nutně znamenají, že takové systémy budou potřebovat jistou míru geografické konfigurace ve vztahu k tomu, co tvoří ‘atraktivitu’.

Příslušné atributy

Pro určení primárních přispívajících faktorů k ‘atraktivnímu’ fotografiím osoby, výzkumníci také testovali efekt různých změn obrázků, ve vztahu k tomu, jak dobře takové augmentace zvýšily algoritmické vnímání ‘krásy’. Zjistili, že alespoň jeden z aspektů je více centrální pro dobrou fotografii než dobrou genetiku:

Kromě osvětlení, aspekty, které měly největší dopad na hodnocení krásy, byly čelní vlasy (které, v případě mužů, mohou často být ekvivalentní k tomu, mít plnou hlavu vlasů), poloha těla a dispozice očí (kde zapojení s výhledem kamery je přínosem k atraktivitě).

(Pokud jde o ‘barvu rtěnky’, nový systém, který může účinně pracovat na obou mužských a ženských prezentacích pohlaví, neindividuuje vzhled pohlaví, ale spíše spoléhá na novou diskriminační síť jako ‘filtr’ v tomto ohledu)

Metoda

Odměňovací funkce v mechanismu učení s posilováním v novém systému je poháněna přímou regresí přes data SCUT, která vrací predikce krásy obličeje.

Trénovací systém iteruje přes vstupní obrázky (dole vlevo ve schématu níže). Zpočátku předtrénovaný ResNet18 model (trénovaný na ImageNet) extrahuje funkce z pěti identických (‘y’) obrázků. Dále je potenciální transformační akce odvozena ze skrytého stavu plně propojené vrstvy (GRUCell, na obrázku níže), a transformace aplikovány, vedoucí k pěti změněným obrázkům, které jsou krmeny do sítě pro hodnocení estetiky, jejichž žebříčky, darwinovsky, určí, které variace budou rozvinuty a které odstraněny.

Široká ilustrace pracovního postupu pro nový systém.

Ilustrace pracovního postupu pro nový systém.

Síť pro hodnocení estetiky používá modul Efficient Channel Attention (ECA), zatímco adaptace předtrénovaného instance EfficientNet-B4 je úkolem extrahovat 1 792 funkcí z každého obrázku.

Po normalizaci prostřednictvím relu aktivační funkce je získán čtyřrozměrný vektor zpět z modulu ECA, který je poté zploštěn do jednorozměrného vektoru po aktivaci a adaptivním průměrném poolingu. Nakonec jsou výsledky krmeny do regresní sítě, která získá hodnocení estetiky.

Kvalitativní srovnání výstupu ze systému. V dolní řadě vidíme agregovanou sumu všech identifikovaných aspektů, které byly identifikovány metodou EigenGAN a následně vylepšeny. Průměrné FID skóre pro obrázky je vlevo od řad obrázků (vyšší je lepší).

Kvalitativní srovnání výstupu ze systému. V dolní řadě vidíme agregovanou sumu všech identifikovaných aspektů, které byly identifikovány metodou EigenGAN a následně vylepšeny. Průměrné FID skóre pro obrázky je vlevo od řad obrázků (vyšší je lepší).

Testy a uživatelská studie

Pět variant navrhované metody bylo hodnoceno algoritmicky (viz obrázek výše), s Fréchet inception distance (FID, sporné v některých čtvrtích) skóre přiřazeno k celkem 1000 obrázkům procházejícím systém.

Výzkumníci poznamenávají, že zlepšení osvětlení dosáhlo lepšího skóre atraktivity pro subjekty na fotografiích než několik dalších možných změn (tj. k samotnému vzhledu osoby zobrazené).

Testování systému tímto způsobem je omezeno excentricitou dat SCUT, která nemá mnoho ‘jasných úsměvů’, a autoři argumentují, že to by mohlo nadměrně překlasifikovat více ‘zamračený’ vzhled v datech, ve srovnání s pravděpodobnými preferencemi potenciálních cílových uživatelů (předpokladem, v tomto případě, západní trh).

Nicméně, protože celý systém závisí na průměrném názoru pouze 60 lidí (v článku EigenGAN), a protože kvalita, která je studována, je daleko od empirické, mohlo by se argumentovat, že postup je více znějící než dataset.

Ačkoli je to zpracováno velmi stručně v článku, obrázky z EigenGAN a pět variant systému byly také ukázány v omezené uživatelské studii (osm účastníků), kteří byli požádáni, aby vybrali ‘nejlepší obrázek’ (slovo ‘atraktivní’ bylo vynecháno).

Nahoře, GUI prezentované malé studijní skupině; dole, výsledky.

Nahoře, GUI prezentované malé studijní skupině; dole, výsledky.

Výsledky ukazují, že výstup nového systému dosáhl nejvyššího výběru mezi účastníky (‘MAES’ na obrázku výše).

(Bezúčelné?) Pronásledování krásy

Užitečnost takového systému je obtížné stanovit, navzdory tomu, co vypadá jako pozoruhodné místo úsilí v Číně směrem k těmto cílům. Žádný z nich není uveden v nové publikaci.

Předchozí článek EigenGAN naznačuje*, že systém pro rozpoznání krásy by mohl být použit v systémech pro doporučení make-up syntézy, estetické chirurgii, zkrášlení obličeje, nebo content-based image retrieval.

Předmětný přístup by mohl být také použit na datovacích webech, uživateli, aby ‘vylepšili’ své vlastní profilové fotografie do zaručeného ‘šťastného snímku’, jako alternativa k použití zastaralých fotografií, nebo fotografií jiných lidí.

Podobně, datovací weby samy o sobě by také mohly ‘skórovat’ své klienty, aby vytvořily hodnocení a dokonce omezené přístupové úrovně, i když by to pravděpodobně fungovalo pouze prostřednictvím liveness autentizační zachycení, spíše než odeslané fotografie (které by mohly být také ‘vylepšeny’ klienty, pokud by se tento přístup stal populárním).

V reklamě, algoritmická metoda pro hodnocení krásy (technologie předpovězená zesnulým sci-fi autorem Michaelem Crichtonem ve svém filmovém debutu Looker) by mohla být použita k výběru neupraveného kreativního výstupu, který je nejpravděpodobněji zapojen do cílové skupiny, zatímco kapacita pro skutečné maximalizování estetického dopadu obličejových obrázků, bez skutečného přepisu v stylu deepfakes, by mohla zvýšit již efektivní obrázky určené k získání veřejného zájmu.

Nová práce je podporována Národním přírodním vědeckým fondem Číny, otevřeným fondovým projektem Státního klíčového laboratoře pro komplexní systémový management a kontrolu a projektem filozofie a sociálních věd z ministerstva školství Číny, mezi ostatními podporovateli.

 

* Mnoho doporučení článku EigenGAN směřuje k komerčně dostupné knize z roku 2016 nazvané ‘Počítačové modely pro analýzu krásy obličeje’, spíše než akademickým zdrojům.

Poprvé publikováno 11. srpna 2022.

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai