Conectează-te cu noi

Inteligența artificială

Cum să știți când sistemele de sinteză a imaginii produc material cu adevărat „original”.

mm
„Ursiți de pluș lucrează la noi cercetări subacvatice AI cu tehnologia anilor 1990” – Sursa: https://www.creativeboom.com/features/meet-dall-e/
„Ursiți de pluș lucrează la noi cercetări subacvatice AI cu tehnologia anilor 1990” – Sursa: https://www.creativeboom.com/features/meet-dall-e/

Un nou studiu din Coreea de Sud a propus o metodă pentru a determina dacă sistemele de sinteză a imaginilor produc imagini cu adevărat noi sau variante „minore” ale datelor de antrenament, potențial înfrângând obiectivul unor astfel de arhitecturi (cum ar fi producerea de imagini noi și originale) .

Foarte des, sugerează lucrarea, aceasta din urmă este adevărată, deoarece metricile existente pe care astfel de sisteme le folosesc pentru a-și îmbunătăți capacitățile generative pe parcursul antrenamentului sunt forțate să favorizeze imaginile care sunt relativ apropiate de imaginile sursă (nu false) din setul de date. .

La urma urmei, dacă o imagine generată este „aproape vizual” de datele sursă, este inevitabil probabil să obțină un scor mai bun pentru „autenticitate” decât „originalitate”, deoarece este „fidelă” – dacă nu este inspirată.

Într-un sector prea înființat și neîncercat pentru ca ramificațiile sale juridice să fie încă cunoscute, acest lucru ar putea se dovedesc a fi o problemă juridică importantă, dacă reiese că conținutul de imagine sintetică comercializat nu diferă suficient de materialul sursă (deseori) protejat prin drepturi de autor care este în prezent lăsat să se perfuzeze sectorul cercetării sub formă de seturi de date populare răzuite pe web (potenţialul pentru viitoare cereri de încălcare a dreptului comunitar de acest tip a ajuns la proeminență destul de recent în ceea ce privește Microsoft GitHub Co-Pilot AI).

În ceea ce privește rezultatele din ce în ce mai coerente și robuste din punct de vedere semantic din sisteme precum OpenAI DALL-E2, Google Imagine, și a Chinei CogView versiuni (precum și cele cu specificații inferioare dall-e mini), sunt foarte puține post fapt modalități de a testa în mod fiabil originalitatea unei imagini generate.

Într-adevăr, căutarea unora dintre cele mai populare dintre noile imagini DALL-E 2 va duce adesea doar la alte exemple ale acelorași imagini, în funcție de motorul de căutare.

Încărcarea unui grup complet de ieșiri DALL-E 9 cu 2 imagini duce doar la mai multe grupuri de ieșiri DALL-E 2. Separarea și încărcarea primei imagini (din această postare de pe Twitter din 8 iunie 2022, din contul „Weird Dall-E Generations”) determină Google să se fixeze asupra mingii de baschet din imagine, ducând căutarea bazată pe imagini pe o alee semantică. Pentru aceeași căutare bazată pe imagini, Yandex pare să facă cel puțin o deconstrucție reală bazată pe pixeli și potrivire a caracteristicilor.

Încărcarea unui grup complet de ieșiri DALL-E 9 cu 2 imagini duce doar la mai multe grupuri de ieșiri DALL-E 2, deoarece structura grilei este cea mai puternică caracteristică. Separarea și încărcarea primei imagini (din această postare pe Twitter din 8 iunie 2022, din contul „Weird Dall-E Generations”) determină Google să se concentreze asupra mingii de baschet din imagine, ducând căutarea bazată pe imagini pe o alee oarbă semantică. Pentru aceeași căutare bazată pe imagini, Yandex pare să facă cel puțin o deconstrucție reală bazată pe pixeli și potrivire a caracteristicilor.

Deși Yandex este mai probabil decât Căutarea Google să folosească cea reală caracteristici (adică o imagine este derivată/calculată caracteristici, nu neapărat trăsături faciale ale oamenilor) și vizual (mai degrabă decât semantice) ale unei imagini trimise pentru a găsi imagini similare, toate motoarele de căutare bazate pe imagini fie au un fel de agendă sau practică care poate face dificilă identificarea cazurilor de sursă>generată plagiat prin căutări pe internet.

În plus, este posibil ca datele de antrenament pentru un model generativ să nu fie disponibile public în întregime, ceea ce împiedică în continuare examinarea criminalistică a originalității imaginilor generate.

Interesant este că efectuarea unei căutări pe web bazată pe imagini pe una dintre imaginile sintetice prezentate de Google site-ul dedicat Imagen nu găsește absolut nimic comparabil cu subiectul imaginii, în ceea ce privește privirea efectivă a imaginii și căutarea imparțială a imaginilor similare. Mai degrabă, fixate semantic ca întotdeauna, rezultatele căutării Google Image pentru această imagine Imagen nu vor permite o căutare pură pe web a imaginii fără a adăuga termenii de căutare „imagen google” ca parametru suplimentar (și limitativ):

Yandex, dimpotrivă, găsește o multitudine de imagini similare (sau cel puțin legate vizual) din lumea reală din comunitatea artistică de amatori:

În general, ar fi mai bine dacă noutatea sau originalitatea rezultatelor sistemelor de sinteză a imaginilor ar putea fi măsurată într-un fel, fără a fi nevoie să extragem caracteristici din fiecare imagine posibilă orientată către web de pe internet la momentul în care modelul a fost antrenat sau în seturi de date non-publice care pot folosi materiale protejate prin drepturi de autor.

În legătură cu această problemă, cercetătorii de la Kim Jaechul Graduate School of AI din cadrul Korea Advanced Institute of Science and Technology (KAIST AI) au colaborat cu compania globală de TIC și căutare NAVER Corp pentru a dezvolta un Scorul de raritate care pot ajuta la identificarea creațiilor mai originale ale sistemelor de sinteză a imaginilor.

Imaginile de aici sunt generate prin StyleGAN-FFHQ. De la stânga la dreapta, coloanele indică cele mai bune rezultate. Putem vedea că metrica „Truncare” (vezi mai jos) și metrica Realism au propriile lor agende, în timp ce noul scor „Raritate” (rândul de sus) caută imagini coezive, dar originale (mai degrabă decât imagini coezive). Sursa: https://arxiv.org/pdf/2206.08549.pdf

Imaginile de aici sunt generate prin StyleGAN-FFHQ. De la stânga la dreapta, coloanele indică cele mai bune rezultate. Putem vedea că metrica „Truncare” (vezi mai jos) și metrica Realism au propriile lor agende, în timp ce noul scor „Raritate” (rândul de sus) caută imagini coezive, dar originale (mai degrabă decât imagini coezive). Deoarece în acest articol există limite de dimensiune a imaginii, vă rugăm să consultați lucrarea sursă pentru detalii și rezoluții mai bune. Sursă: https://arxiv.org/pdf/2206.08549.pdf

Noul hârtie se intitulează Scor de raritate: o nouă măsurătoare pentru a evalua caracterul neobișnuit al imaginilor sintetizate, și provine de la trei cercetători de la KAIST și trei de la NAVER Corp.

Dincolo de „Trucul ieftin”

Printre valorile anterioare pe care noua lucrare încearcă să le îmbunătățească se numără „Trunchierea” sugerat în 2019 într-o colaborare între Universitatea Heriot-Watt din Marea Britanie și DeepMind de la Google.

Truncation Trick utilizează în esență o distribuție latentă diferită pentru eșantionare decât a fost folosită pentru antrenamentul modelului generativ.

Cercetătorii care au dezvoltat această metodă au fost surprinși că a funcționat, dar admit în lucrarea originală că reduce varietatea rezultatelor generate. Cu toate acestea, Truncation Trick a devenit eficient și popular, în contextul a ceea ce ar putea fi rescris drept un „truc ieftin” pentru obținerea de rezultate cu aspect autentic care nu asimilează cu adevărat toate posibilitățile inerente datelor și poate seamănă cu datele sursă mai mult decât se dorește.

În ceea ce privește Truncation Trick, autorii noii lucrări observă:

„[Nu] are scopul de a genera mostre rare în seturile de date de antrenament, ci mai degrabă de a sintetiza imagini tipice mai stabil. Emitem ipoteza că modelele generative existente vor fi capabile să producă eșantioane mai bogate în distribuția reală a datelor dacă generatorul poate fi indus să producă efectiv mostre rare.

Din tendința generală de a se baza pe valori tradiționale, cum ar fi Frechet Inception Distance (FID, care a fost supus unor critici intense în decembrie 2021), scorul de început (IS) și Kernel Inception Distance (KID) ca „indicatori de progres” în timpul formării unui model generativ, comentează în continuare autorii*:

„Această schemă de învățare îl determină pe generator să nu sintetizeze prea multe mostre rare, care sunt unice și au caracteristici puternice care nu reprezintă o mare parte din distribuția reală a imaginii. Exemple de mostre rare din seturi de date publice includ persoane cu diverse accesorii FFHQ, animale albe în AFHQ și statui neobișnuite în Metfaces.

„Abilitatea de a genera mostre rare este importantă nu numai pentru că este legată de capacitatea de vârf a modelelor generative, ci și pentru că unicitatea joacă un rol important în aplicațiile creative, cum ar fi oamenii virtuali.

„Cu toate acestea, rezultatele calitative ale mai multor studii recente conțin rareori aceste exemple rare. Presupunem că natura forțelor schemei de învățare adversară a generat o distribuție a imaginii similară cu cea a unui set de date de antrenament. Astfel, imaginile cu individualitate sau raritate clară iau doar o mică parte în imaginile sintetizate de modele.'

Metoda de măsurare

Noul Scor de raritate al cercetătorilor adaptează o idee prezentată în mai devreme fabrică - utilizarea K-Cei mai apropiati vecini (KNN) pentru a reprezenta matricele de date autentice (de antrenament) și sintetice (de ieșire) într-un sistem de sinteză a imaginilor.

În ceea ce privește această nouă metodă de analiză, autorii afirmă:

„Presumăm ipoteza că eșantioanele obișnuite ar fi mai aproape unele de altele, în timp ce mostrele unice și rare ar fi localizate puțin în spațiul caracteristic”.

Imaginea cu rezultate de mai sus arată cele mai mici distanțe de vecinătate (NND) la cea mai mare, într-o arhitectură StyleGAN antrenată pe FFHQ.

„Pentru toate seturile de date, eșantioanele cu cele mai mici NND-uri arată imagini reprezentative și tipice. Dimpotrivă, eșantioanele cu cele mai mari NND-uri au o individualitate puternică și sunt semnificativ diferite de imaginile tipice cu cele mai mici NND.

În teorie, folosind această nouă metrică ca discriminator, sau cel puțin incluzând-o într-o arhitectură discriminatoare mai complexă, un sistem generativ ar putea fi îndreptat de la imitație pură către un algoritm mai inventiv, păstrând în același timp coeziunea esențială a conceptelor care pot fi critice. pentru producția de imagini autentice (de ex 'om', 'femeie', 'mașină', 'biserică', Etc).

Comparații și experimente

În teste, cercetătorii au efectuat o comparație a performanței Scorului de raritate față de Truncation Trick și NVIDIA 2019. Scor de realismși a constatat că într-o varietate de cadre și seturi de date, abordarea este capabilă să identifice rezultate „unice”.

Deși rezultatele prezentate în lucrare sunt prea extinse pentru a fi incluse aici, cercetătorii par să fi demonstrat capacitatea noii metode de a identifica raritatea atât în ​​imaginile sursă (reale) cât și în cele generate (false) într-o procedură generativă:

Selectați exemple din rezultatele vizuale extinse reproduse în lucrare (consultați URL-ul sursei de mai sus pentru mai multe detalii). În stânga, exemple autentice de la FFHQ care au foarte puțini vecini apropiati (adică sunt noi și neobișnuite) în setul de date original; în dreapta, imagini false generate de StyleGAN, pe care noua măsurătoare le-a identificat ca fiind cu adevărat inedite.

Selectați exemple din rezultatele vizuale extinse reproduse în lucrare (consultați URL-ul sursei de mai sus pentru mai multe detalii). În stânga, exemple autentice de la FFHQ care au foarte puțini vecini apropiati (adică sunt noi și neobișnuite) în setul de date original; în dreapta, imagini false generate de StyleGAN, pe care noua măsurătoare le-a identificat ca fiind cu adevărat inedite. Deoarece în acest articol există limite de dimensiune a imaginii, vă rugăm să consultați lucrarea sursă pentru detalii și rezoluții mai bune.

Noua măsurătoare Rarity Score nu numai că permite identificarea ieșirii generative „noi” într-o singură arhitectură, dar, de asemenea, susțin cercetătorii, permite comparații între modele generative de arhitecturi diverse și variate (adică autoencoder, VAE, GAN etc. ).

Lucrarea notează că Rarity Score diferă de valorile anterioare prin concentrarea asupra capacității unui cadru generativ de a crea imagini unice și rare, în opoziție cu metricile „tradiționale”, care examinează (mai degrabă mai miope) diversitatea dintre generații în timpul formării modelului.

Dincolo de sarcini limitate

Deși cercetătorii noii lucrări au efectuat teste pe cadre cu domenii limitate (cum ar fi combinații generator/set de date concepute pentru a produce în mod specific imagini ale oamenilor sau ale pisicilor, de exemplu), Scorul de raritate poate fi aplicat oricărei proceduri arbitrare de sinteză a imaginilor în care se dorește identificarea exemplelor generate care utilizează distribuțiile derivate din datele antrenate, în loc să crească autenticitatea (și să reducă diversitatea) prin interpunerea distribuțiilor latente străine sau să se bazeze pe alte „comenzi rapide” care compromit noutatea în favoarea autenticității.

De fapt, o astfel de măsurătoare ar putea să distingă instanțe de ieșire cu adevărat noi în sisteme precum seria DALL-E, prin utilizarea distanței identificate între un rezultat aparent „avariat”, datele de antrenament și rezultatele de la solicitări sau intrări similare (de exemplu, imagine prompturi bazate pe -).

În practică, și în absența unei înțelegeri clare a măsurii în care sistemul a asimilat cu adevărat conceptele vizuale și semantice (adesea împiedicate de cunoștințele limitate despre datele de antrenament), aceasta ar putea fi o metodă viabilă pentru a identifica un adevărat „moment de inspirație” într-un sistem generativ – punctul în care un număr adecvat de concepte de intrare și date au dus la ceva cu adevărat inventiv, în loc de ceva prea derivat sau apropiat de datele sursă.

 

* Conversiile mele ale citărilor inline ale autorilor în hyperlinkuri.

Prima dată publicată pe 20 iunie 2022.

Scriitor pe machine learning, specialist în domeniul sintezei imaginilor umane. Fost șef de conținut de cercetare la Metaphysic.ai.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai