Inteligență artificială

Un sistem AI care poate face imagini ale oamenilor mai ‘frumoase’

Published August 11, 2022

Updated April 28, 2026

Martin Anderson

Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Cercetători din China au dezvoltat un nou sistem de îmbunătățire a imaginilor bazat pe inteligență artificială, care este capabil să facă imagini ale unei persoane mai ‘frumoase’, pe baza unei abordări noi de învățare prin întărire.

Noua abordare utilizează o rețea de predicție a frumuseții faciale pentru a itera prin variații ale unei imagini pe baza mai multor factori, printre care ‘iluminarea’ și poziția ochilor pot fi factori critici. Aici sursele originale (în partea stângă a fiecărei coloane) sunt din sistemul EigenGAN, cu noile rezultate în partea dreaptă a acestora. Sursă: https://arxiv.org/pdf/2208.04517.pdf

Tehnica se bazează pe inovațiile descoperite pentru generatorul EigenGAN, un alt proiect chinez, din 2021, care a făcut progrese notabile în identificarea și obținerea unui anumit control asupra atributelor semantice diverse din spațiul latent al Rețelelor Adversative Generative (GAN).

Generatorul EigenGAN din 2021 a putut identifica concepte de nivel înalt, cum ar fi ‘culoarea părului’, în spațiul latent al unei rețele generative adversative. Noua lucrare se bazează pe acest instrument inovator pentru a livra un sistem care poate ‘îmbunătăți’ imaginile sursă, dar fără a schimba identitatea recunoscută – o problemă în abordările anterioare. Sursă: https://arxiv.org/pdf/2104.12476.pdf

Sistemul utilizează o rețea de scor estetic derivată din SCUT-FBP5500 (SCUT), un set de date de referință pentru predicția frumuseții faciale din 2018, de la Universitatea de Tehnologie din Guangzhou, China.

Din lucrarea din 2018 ‘SCUT-FBP5500: Un set de date divers pentru predicția multi-paradigmă a frumuseții faciale’, care a oferit o rețea de predicție a frumuseții faciale (FBP) capabilă să clasifice fețele în funcție de atractivitatea percepută, dar care nu a putut transforma sau ‘îmbunătăți’ fețele. Sursă: https://arxiv.org/pdf/1801.06345.pdf

În contrast cu noua lucrare, proiectul din 2018 nu poate executa transformări, dar conține judecăți de valoare algoritmice pentru 5.500 de fețe, furnizate de 60 de etichetatori de gen mixt (împărțiți în mod egal). Acestea au fost incorporate în noul sistem ca un discriminator eficient, pentru a informa transformări care sunt probabil să îmbunătățească ‘atractivitatea’ unei imagini.

În mod interesant, noua lucrare se intitulează Generarea feței caucaziene frumoase controlate de atribute prin învățare de întărire condusă de estetică. Motivul pentru care toate rasele, cu excepția celei caucaziene, sunt excluse din sistem (luați în considerare și faptul că cercetătorii înșiși sunt chinezi) este că datele sursă pentru SCUT se îndreaptă în mod semnificativ către surse asiatice (4.000 de femei și bărbați asiatici împărțiți în mod egal, 1.500 de femei și bărbați caucazieni împărțiți în mod egal), făcând ‘persoana medie’ din acel set de date să aibă părul și ochii căprui.

Prin urmare, pentru a se adapta la variațiile de culoare, cel puțin în cadrul unei rase, a fost necesar să se excludă componenta asiatică din datele originale sau să se reconstituie datele pentru a dezvolta o metodă care nu ar fi putut funcționa. În plus, variațiile percepțiilor culturale ale frumuseții înseamnă în mod inevitabil că astfel de sisteme vor necesita un anumit grad de configurabilitate geografică în ceea ce privește ceea ce constituie ‘atractivitate’.

Atribute pertinente

Pentru a determina factorii principali care contribuie la o ‘fotografie atractivă’ a unei persoane, cercetătorii au testat și efectul diferitelor modificări ale imaginilor, în ceea ce privește modul în care astfel de îmbunătățiri au îmbunătățit percepția algoritmică a ‘frumuseții’. Ei au constatat că cel puțin unul dintre aspecte este mai central pentru o fotografie bună decât pentru o genetică bună:

Pe lângă iluminare, aspectele care au avut cel mai mare impact asupra scorului de frumusețe au fost bretonul (care, în cazul bărbaților, poate fi adesea echivalent cu a avea o căciulă de păr completă), poza corpului și dispoziția ochilor (unde implicarea cu punctul de vedere al camerei este un stimulent pentru atractivitate).

(În ceea ce privește ‘culoarea rujului’, noul sistem, care poate funcționa eficient atât pe prezentări masculine, cât și feminine de gen, nu individualizează apariția de gen, ci se bazează pe noul sistem discriminator ca un ‘filter’ în acest sens)

Metodă

Funcția de recompensă în mecanismul de învățare prin întărire din noul sistem este alimentată de o regresie simplă peste datele SCUT, care oferă predicții ale frumuseții faciale.

Sistemul de antrenare iterează peste imaginile de intrare (în partea stângă inferioară a schemei de mai jos). Inițial, un model preantrenat ResNet18 (antrenat pe ImageNet) extrage caracteristici din cele cinci imagini identice (‘y’). Apoi, o acțiune transformativă potențială este derivată din starea ascunsă a unui strat complet conectat (GRUCell, în imaginea de mai jos), și transformările sunt aplicate, ducând la cinci imagini modificate care sunt introduse în rețeaua de scor estetic, ale cărei clasificări, în stilul lui Darwin, vor determina care variații vor fi dezvoltate și care vor fi eliminate.

O ilustrare amplă a fluxului de lucru pentru noul sistem.

O ilustrare a fluxului de lucru pentru noul sistem.

Rețeaua de scor estetic utilizează un modul de atenție eficientă a canalului (ECA), în timp ce o adaptare a unei instanțe preantrenate a EfficientNet-B4 este însărcinată cu extragerea a 1.792 de caracteristici din fiecare imagine.

După normalizarea prin funcția de activare ReLU, un vector cu patru dimensiuni este obținut înapoi din modulul ECA, care este apoi aplatizat într-un vector unidimensional după activare și pooling mediu adaptiv. În final, rezultatele sunt introduse în rețeaua de regresie, care recuperează un scor estetic.

O comparație calitativă a ieșirii din sistem. În rândul inferior, vedem suma agregată a tuturor facetelor individuate care au fost identificate de metoda EigenGAN și ulterior îmbunătățite. Scorurile medii FID pentru imaginile sunt în partea stângă a rândurilor de imagini (mai mare este mai bun).

Teste și studiu de utilizator

Cinci variante ale metodei propuse au fost evaluate algoritmic (vezi imaginea de mai sus), cu scoruri Fréchet inception distance (FID, controversat în unele cercuri) atribuite unui total de 1.000 de imagini trecute prin sistem.

Cercetătorii notează că îmbunătățirea iluminării a obținut un scor de atractivitate mai bun pentru subiecții din fotografii decât alte modificări ‘evidente’ posibile (de exemplu, la aspectul real al persoanei reprezentate).

Pentru a testa sistemul în acest fel este limitat de excentricitățile datelor SCUT, care nu conțin multe ‘zâmbete strălucitoare’, și autorii argumentează că acest lucru ar putea supraevalua aspectul mai ‘enigmatic’ în date, în comparație cu preferințele probabile ale utilizatorilor finali (presupus, în acest caz, o piață occidentală).

Cu toate acestea, deoarece întregul sistem se bazează pe opiniile medii ale numai 60 de persoane (în lucrarea EigenGAN), și deoarece calitatea studiată este departe de a fi empirică, se poate argumenta că procedura este mai solidă decât setul de date.

Deși este abordat foarte pe scurt în lucrare, imaginile din EigenGAN și cele cinci variante ale sistemului au fost, de asemenea, prezentate într-un studiu de utilizator limitat (opt participanți), care au fost rugați să selecteze ‘cea mai bună imagine’ (cuvântul ‘atractiv’ a fost evitat).

Mai sus, interfața prezentată grupului de studiu mic; mai jos, rezultatele.

Rezultatele indică faptul că ieșirea noului sistem a obținut cea mai mare rată de selecție printre participanți (‘MAES’ în imaginea de mai sus).

Pursuing Beauty (fără scop?)

Utilitatea unui astfel de sistem este dificil de stabilit, în ciuda faptului că pare a fi un efort notabil într-un locus de efort în China către aceste obiective. Niciunul nu este prezentat în publicația nouă.

Lucrarea anterioară EigenGAN sugerează* că un sistem de recunoaștere a frumuseții ar putea fi utilizat în sisteme de recomandare de sinteză de machiaj facial, chirurgie estetică, îmbunătățirea feței, sau recuperarea imaginilor bazată pe conținut.

Presupunând că o astfel de abordare ar putea fi utilizată și în site-urile de dating, de către utilizatori, pentru a-și ‘îmbunătăți’ propriile fotografii de profil într-un ‘noroc’ garantat, ca o alternativă la utilizarea fotografiilor învechite sau a fotografiilor ale altor persoane.

De asemenea, site-urile de dating însele ar putea ‘evalua’ clienții pentru a crea ratinguri și chiar niveluri de acces restricționate, deși acest lucru ar funcționa probabil numai prin intermediul unei capturi de autentificare live, și nu prin fotografii prezentate (care ar putea fi, de asemenea, ‘îmbunătățite’ de clienți, dacă abordarea ar deveni populară).

În publicitate, o metodă algoritmică de evaluare a frumuseții (o tehnologie prezisă de autorul de science-fiction decedat Michael Crichton în filmul său din 1982 Looker) ar putea fi utilizată pentru a selecta outputul creativ neîmbunătățit cel mai probabil să angajeze o audiență țintă, în timp ce capacitatea de a maximiza în mod real impactul estetic al imaginilor cu fețe, fără a le suprascrie în stilul deepfake, ar putea îmbunătăți imaginile deja eficiente destinate să atragă interesul public.

Noua lucrare este sprijinită de Fundația Națională de Știință Naturală a Chinei, Proiectul de cercetare deschis al Laboratorului de stat pentru managementul și controlul sistemelor complexe, și Proiectul de cercetare a filosofiei și științelor sociale din cadrul ministerului educației din China, printre alți susținători.

* Multe dintre recomandările lucrării EigenGAN se îndreaptă către o carte comercială disponibilă din 2016, intitulată ‘Modele de calculator pentru analiza frumuseții faciale’, mai degrabă decât resurse academice.

Publicat pentru prima dată pe 11 august 2022.

Martin Anderson

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.

Unite.AI

Un sistem AI care poate face imagini ale oamenilor mai ‘frumoase’

Atribute pertinente

Metodă

Teste și studiu de utilizator

Pursuing Beauty (fără scop?)

You may like