csonk Egy mesterséges intelligencia rendszer, amely „szebbé” teheti az emberek képét – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Egy mesterséges intelligencia rendszer, amely "szebbé" teheti az emberek képeit

mm
korszerűsített on
Háttérkép: DALL-E 2 „Díjnyertes 8K fotó a világ legszebb kaukázusi kifutómodelljéről” - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA
Háttérkép: DALL-E 2 „Díjnyertes 8K fotó a világ legszebb kaukázusi kifutómodelljéről” - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Kínai kutatók új mesterséges intelligencia-alapú képjavító rendszert fejlesztettek ki, amely a megerősítő tanulás újszerű megközelítésén alapszik, hogy „szebbé” tegye a személyről készült képeket.

Az új megközelítés egy „arcszépség-előrejelző hálózatot” használ a kép variációinak iterálására számos tényező alapján, amelyek közül a „világítás” és a szempózok kritikus tényezők lehetnek. Itt az eredeti források (az oszlopok bal oldalán) az EigenGAN rendszerből származnak, ezektől jobbra az új eredmények. Forrás: https://arxiv.org/pdf/2208.04517.pdf

Az új megközelítés egy „arcszépség-előrejelző hálózatot” használ a kép variációinak iterálására számos tényező alapján, amelyek közül a „világítás” és a szempózok kritikus tényezők lehetnek. Itt az eredeti források (az oszlopok bal oldalán) az EigenGAN rendszerből származnak, ezektől jobbra az új eredmények. Forrás: https://arxiv.org/pdf/2208.04517.pdf

A technika a felfedezett innovációkra támaszkodik a EigenGAN generátor, egy másik kínai projekt, 2021-től, amely jelentős előrelépéseket tett a sokféleség azonosításában és bizonyos irányítás megszerzésében. szemantikai attribútumok a Generatív Adversarial Networks (GAN) látens terében.

A 2021-es EigenGAN generátor olyan magas szintű fogalmakat tudott egyedivé tenni, mint a „hajszín” egy generatív ellenséges hálózat látens terében. Az új munka erre az innovatív eszközre épít, hogy olyan rendszert hozzon létre, amely képes „szépíteni” a forrásképeket, de anélkül, hogy megváltoztatná a felismerhető identitást – ez a korábbi megközelítések problémája. Forrás: https://arxiv.org/pdf/2104.12476.pdf

A 2021-es EigenGAN generátor olyan magas szintű fogalmakat tudott egyedivé tenni, mint a „hajszín” egy generatív ellenséges hálózat látens terében. Az új munka erre az innovatív eszközre épít, és olyan rendszert hoz létre, amely képes „szépíteni” a forrásképeket, de anélkül, hogy megváltoztatná a felismerhető identitást – ez a korábbi megközelítések problémája. Forrás: https://arxiv.org/pdf/2104.12476.pdf

A rendszer egy ebből származó „esztétikai pontszámhálózatot” használ SCUT-FBP5500 (SCUT), egy 2018-as benchmark adatkészlet az arc szépségének előrejelzéséhez, a guangzhoui Dél-kínai Műszaki Egyetemtől.

A 2018-as „SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction” című dokumentumból, amely egy „Arcszépség-előrejelzés” (FBP) hálózatot kínált, amely képes rangsorolni az arcokat az észlelt vonzerő alapján, de valójában nem tudta átalakítani. vagy "frissítse" az arcokat. Forrás: https://arxiv.org/pdf/1801.06345.pdf

A 2018-as „SCUT-FBP5500: A Diverse Benchmark Dataset for Multi-Paradigm Facial Beauty Prediction” című dokumentumból, amely egy „Arcszépség-előrejelzés” (FBP) hálózatot kínált, amely képes rangsorolni az arcokat az észlelt vonzerő alapján, de valójában nem tudta átalakítani. vagy "frissítse" az arcokat.  Forrás: https://arxiv.org/pdf/1801.06345.pdf

Az új munkától eltérően a 2018-as projekt valójában nem tud transzformációt végrehajtani, hanem algoritmikus értékítéletet tartalmaz 5,500 arcra, amelyeket 60 vegyes nemű címkéző szolgáltat (50/50-es felosztás). Ezeket hatékonyan beépítették az új rendszerbe diszkriminátor, hogy tájékoztassák azokat az átalakulásokat, amelyek valószínűleg fokozzák egy kép „vonzerejét”.

Érdekes módon a új lap címet viseli Szabályozható, gyönyörű kaukázusi arcgenerálás az esztétika által vezérelt megerősítés tanulással. Az ok, amiért a kaukázusi kivételével minden rassz ki van zárva a rendszerből (vegye figyelembe azt is, hogy maguk a kutatók is kínaiak), az az oka, hogy a SCUT forrásadatai különösen az ázsiai forrásokhoz ferdítenek (4000 egyenlő elosztású ázsiai nőstény/hím, 1500 egyenlő megoszlású kaukázusi nőstény) /males), így az „átlagember” az adatkészletben barna hajú és barna szemű.

Ezért annak érdekében, hogy legalább egy versenyen belüli színváltozásokat alkalmazhassunk, ki kellett zárni az ázsiai komponenst az eredeti adatokból, különben az adatok újraalkotásának jelentős költségét kellett kidolgozni egy olyan módszer kidolgozásához, amely esetleg nem sikerült volna. Ezenkívül a szépség kulturális felfogásának változása elkerülhetetlenül azt jelenti, hogy az ilyen rendszereknek bizonyos fokú földrajzi konfigurálhatóságra lesz szükségük a „vonzó” fogalma tekintetében.

Megfelelő tulajdonságok

Egy személy „vonzó” fotójához elsődlegesen hozzájáruló tényezők meghatározásához a kutatók a képek különböző változásainak hatását is tesztelték, abból a szempontból, hogy az ilyen kiegészítések mennyire javítják a „szépség” algoritmikus észlelését. Azt találták, hogy legalább az egyik aspektus központibb a jó fotózásban, mint a jó genetika:

A világításon kívül a szépségpontszámra a legnagyobb hatással a frufru (ami a férfiak esetében gyakran egyenértékű lehet azzal, hogy teljesen haja van), a testtartás és a szemtartás (ahol a a kamera nézőpontja a vonzerejét növeli).

(A „rúzsszínt” illetően az új rendszer, amely mind a férfi, mind a női nemi megnyilvánuláson hatékonyan működik, nem egyedivé teszi a nemi megjelenést, hanem az újszerű megkülönböztető rendszerre támaszkodik, mint „szűrőre” ebben a vonatkozásban)

Módszer

Az új rendszer megerősítő tanulási mechanizmusának jutalmazási funkcióját a SCUT adatokra vonatkozó egyenes regresszió hajtja, amely az arc szépségének előrejelzéseit adja meg.

A képzési rendszer az adatbeviteli képeken ismétlődik (az alábbi vázlaton balra lent). Kezdetben előképzett ResNet18 modell (edzett a ImageNet) vonja ki a jellemzőket az öt azonos („y”) képből. Ezután egy potenciális transzformációs műveletet vezetünk le a rejtett állapotából teljesen összekapcsolt réteg (GRUCell, az alábbi képen), és az alkalmazott átalakítások, amelyek öt módosított képhez vezetnek, amelyeket betáplálnak az esztétikai pontszámok hálózatába, amelyek Darwin-stílusú rangsorolása határozza meg, hogy mely variációkat fejlesztjük ki, és melyeket dobunk el.

Az új rendszer munkafolyamatának átfogó illusztrációja.

Az új rendszer munkafolyamatának illusztrációja.

Az esztétikai pontszámok hálózata hatékony csatornafigyelmet használ (ACE) modul, míg egy előre betanított példány adaptációja EfficientNet-B4 feladata, hogy minden képből 1,792 jellemzőt vonjon ki.

Normalizálás után a ReLU aktiválási funkció, egy 4-dimenziós vektort kapunk vissza az ECA-modulból, amelyet az aktiválást követően egydimenziós vektorrá lapítunk. adaptív átlagos összevonás. Végül az eredményeket a regressziós hálózat, amely esztétikai pontszámot kér le.

A rendszer kimenetének minőségi összehasonlítása. Az alsó sorban az EigenGAN módszerrel azonosított és ezt követően továbbfejlesztett egyedi szempontok összesített összege látható. A képek átlagos FID-pontszámai a képsorok bal oldalán találhatók (a magasabb, annál jobb).

A rendszer kimenetének minőségi összehasonlítása. Az alsó sorban az EigenGAN módszerrel azonosított és ezt követően továbbfejlesztett egyedi szempontok összesített összege látható. A képek átlagos FID-pontszámai a képsorok bal oldalán találhatók (a magasabb, annál jobb).

Tesztek és felhasználói tanulmány

A javasolt módszer öt változatát algoritmikusan értékelték ki (lásd a fenti képet), Fréchet kezdeti távolsággal (FID, bizonyos körökben ellentmondásos) összesen 1000, a rendszeren keresztül átvitt képhez rendelt pontszámok.

A kutatók megjegyzik, hogy a világítás javítása jobb vonzerőt ért el a fotókon szereplő alanyok számára, mint számos más „nyilvánvalóbb” lehetséges változás (azaz az ábrázolt személy tényleges megjelenésében).

A rendszer ilyen módon történő tesztelését bizonyos mértékig korlátozzák a SCUT adatok különcségei, amelyek nem sok „ragyogó mosolyt” mutatnak, és a szerzők szerint ez túlságosan felülmúlhatja a tipikusabb „rejtélyes” megjelenést. az adatok a potenciális célvégfelhasználók (jelen esetben feltehetően nyugati piac) valószínű preferenciáihoz képest.

Mivel azonban az egész rendszer mindössze 60 ember átlagos véleményén múlik (az EigenGAN-cikkben), és mivel a vizsgált minőség messze nem empirikus, vitatható, hogy az eljárás megbízhatóbb, mint az adathalmaz.

Bár a cikk nagyon röviden foglalkozik vele, az EigenGAN képei és a rendszer saját öt változata is megjelent egy korlátozott felhasználói vizsgálatban (nyolc résztvevő), akiket arra kértek, hogy válasszák ki a „legjobb képet” (a „vonzó” szót elkerülve).

Fent a GUI bemutatása a kis tanulmányi csoportnak; alább az eredményeket.

Fent a GUI bemutatása a kis tanulmányi csoportnak; alább az eredményeket.

Az eredmények azt mutatják, hogy az új rendszer kimenete érte el a legmagasabb kiválasztási arányt a résztvevők között (a fenti képen „MAES”).

A szépség (céltalan?) törekvése

Egy ilyen rendszer hasznosságát nehéz megállapítani, annak ellenére, hogy a jelek szerint a figyelemre méltó loci of erőfeszítés in Kína e célok felé. Egyik sem szerepel az új kiadványban.

Az előző EigenGAN tanulmány szerint* egy szépségfelismerő rendszert lehetne használni az arcápolásban sminkszintézis ajánlórendszerek, esztétikai sebészet, arcszépítés, vagy tartalom alapú képlehívás.

Feltehetően a végfelhasználók társkereső oldalakon is alkalmazhatnák ezt a megközelítést, hogy saját profilfotójukat garantáltan „szerencsés lövéssé” tegyék, alternatívaként az elavult fotók vagy fotók használatához. más embereké.

Hasonlóképpen, maguk a társkereső oldalak is „pontozhatják” ügyfeleiket, hogy értékeléseket készítsenek, sőt korlátozott hozzáférésű szintek, bár ez feltehetően csak egy élethűség-hitelesítéssel működne, nem pedig a beküldött fényképekkel (amit az ügyfelek szintén „fejleszthetnének”, ha a megközelítés népszerűvé válna).

A reklámban egy algoritmikus módszer a szépség értékelésére (a technológia, amelyet a néhai tudományos-fantasztikus szerző, Michael Crichton jósolt meg 1982-es filmes kirándulásában Igen jóképű személy) használható a nem továbbfejlesztett kreatív kimenet kiválasztására, amely a legvalószínűbb, hogy bevonja a célközönséget, míg az arcképek esztétikai hatásának tényleges maximalizálására való képesség anélkül, hogy ténylegesen felülírná őket mélyhamisítások stílusában, fellendítheti a már hatékonyan tervezett képeket. hogy felkeltse a közérdeklődést.

Az új munkát többek között a Kínai Nemzeti Természettudományi Alapítvány, a Komplex Rendszermenedzsment és -szabályozás Állami Kulcslaboratóriumának Nyílt Alap projektje, valamint a Kínai Oktatási Minisztérium Filozófiai és Társadalomtudományi Kutatási Projektje támogatja.

 

* Az EigenGAN lap számos ajánlása egy kereskedelmi forgalomban kapható 2016-os, „Számítógépes modellek az arcszépség-elemzéshez” című könyvre mutat rá, nem pedig tudományos forrásokra.

Első megjelenés: 11. augusztus 2022.