Conectează-te cu noi

Un sistem de detectare pentru cadre de sinteză a imaginilor pure, cum ar fi DALL-E 2

Inteligența artificială

Un sistem de detectare pentru cadre de sinteză a imaginilor pure, cum ar fi DALL-E 2

mm

Nou cercetare de la Universitatea din California din Berkeley oferă o metodă pentru a determina dacă rezultatul din noua generație de cadre de sinteză a imaginilor - cum ar fi Open AI DALL-E2, și Google Imagine și petrecere – poate fi detectat ca „non-real”, prin studierea geometriei, umbrelor și reflexiilor care apar în imaginile sintetizate.

Studiind imaginile generate de mesajele text din DALL-E 2, cercetătorii au descoperit că, în ciuda realismului impresionant de care este capabilă arhitectura, apar unele inconsecvențe persistente legate de redarea perspectivei globale, crearea și dispunerea umbrelor și mai ales în ceea ce priveşte redarea obiectelor reflectate.

Lucrarea afirmă:

„Structurile [geometrice], umbrele proiectate și reflexiile în suprafețele în oglindă nu sunt pe deplin în concordanță cu geometria de perspectivă așteptată a scenelor naturale. Structurile geometrice și umbrele sunt, în general, consistente la nivel local, dar inconsistente la nivel global.

„Reflecțiile, pe de altă parte, sunt adesea redate în mod neplauzibil, probabil pentru că sunt mai puțin frecvente în setul de date de imagine de antrenament”.

Lipsa intersecțiilor consistente între obiectul redat și redarea reflexiei acestuia este în prezent o modalitate fiabilă de a detecta o imagine DALL-E 2, potrivit noului studiu. Sursa: https://arxiv.org/pdf/2206.14617.pdf

Lipsa intersecțiilor consistente între obiectul redat și redarea reflexiei acestuia este în prezent o modalitate fiabilă de a detecta o imagine DALL-E 2, potrivit noului studiu. Sursă: https://arxiv.org/pdf/2206.14617.pdf

Lucrarea reprezintă o incursiune timpurie în ceea ce ar putea deveni în cele din urmă o componentă demnă de remarcat în comunitatea de cercetare a vederii computerizate - Detectarea prin sinteză a imaginilor.

De la apariția deepfake-urilor în 2017, detectarea deepfake (în primul rând de codificare automată ieșire din pachete precum DeepFaceLab și schimb de fețe) a devenit un active si competitive componentă academică, cu diverse lucrări și metodologii care vizează „poveste” în evoluție ale fețelor sintetizate în imagini video reale.

Cu toate acestea, până la apariția foarte recentă a sistemelor de generare de imagini antrenate la hiperscale, rezultatul din sistemele de promptare a textului, cum ar fi CLIP nu a reprezentat nicio amenințare pentru status quo-ul „fotorealității”. Autorii noii lucrări cred că acest lucru este pe cale să se schimbe și că chiar și inconsecvențele pe care le-au descoperit în ieșirea DALL-E 2 ar putea să nu facă o mare diferență în ceea ce privește potențialul imaginilor de ieșire de a înșela spectatorii.

Autorii declară*:

„[Astfel de] eșecuri ar putea să nu conteze prea mult pentru sistemul vizual uman, care s-a dovedit a fi surprinzător de ineficient la anumite judecăți geometrice, inclusiv inconsecvențe în iluminat, umbre, reflecţii, pozitia de vizualizare și distorsiuni de perspectiva.'

Credibilitatea dispărută

Prima examinare criminalistică a autorilor a rezultatelor DALL-E 2 se referă la proiecția în perspectivă - modul în care poziționarea marginilor drepte în obiectele și texturile din apropiere ar trebui să se rezolve uniform într-un „punct de dispariție”.

Stânga, liniile paralele de pe același plan se rezolvă într-un punct de fugă comun; dreapta, mai multe puncte de fugă pe același plan și paralel definesc o linie de fugă (ilustrată cu roșu).

Stânga, liniile paralele de pe același plan se rezolvă într-un punct de fugă comun; dreapta, mai multe puncte de fugă pe același plan și paralel definesc o linie de fugă (ilustrată cu roșu).

Pentru a testa consistența DALL-E 2 în acest sens, autorii au folosit DALL-E 2 pentru a genera 25 de imagini sintetizate ale bucătăriilor – un spațiu familiar care, chiar și în locuințe bine amenajate, este de obicei suficient de restrâns pentru a oferi mai multe puncte de fuga posibile pentru un gamă de obiecte și texturi.

Examinând rezultatul din prompt „o fotografie a unei bucătărie cu podea cu gresie”, cercetătorii au descoperit că, în ciuda unei reprezentări în general convingătoare în fiecare caz (cu excepția unor artefacte ciudate, mai mici, fără legătură cu perspectiva), obiectele descrise nu par să convergă niciodată corect.

Autorii notează că, în timp ce fiecare set de linii paralele din modelul plăcilor sunt consistente și se intersectează într-un singur punct de fuga (albastru în imaginea de mai jos), punctul de fuga pentru blat (cian) nu este de acord cu ambele linii de dispariție (roșu). ) și punctul de fuga derivat din plăci.

Autorii observă că, chiar dacă blatul nu era paralel cu plăcile, punctul de fugă cyan ar trebui să se rezolve la linia de fugă (roșie) definită de punctele de fugă ale plăcilor.

Lucrarea afirmă:

„Deși perspectiva din aceste imagini este – impresionant – consecventă la nivel local, nu este consecventă la nivel global. Același model a fost găsit în fiecare dintre cele 25 de imagini sintetizate de bucătărie.

Criminalistica din umbră

După cum știe oricine care s-a ocupat vreodată de ray-tracing, umbrele au, de asemenea, potențiale puncte de dispariție, indicând iluminarea cu o singură sursă sau cu mai multe surse. Pentru umbrele exterioare în lumina puternică a soarelui, ne-am aștepta ca umbrele de pe toate fațetele unei imagini să se rezolve în mod constant la o singură sursă de lumină (soarele).

Ca și în cazul experimentului anterior, cercetătorii au creat 25 de imagini DALL-E 2 cu promptul 'trei cuburi pe un trotuar fotografiat într-o zi însorită', precum și alte 25 cu promptul '„trei cuburi pe un trotuar fotografiat într-o zi înnorată”.

În rândul de sus, imagini create de la solicitarea cercetătorilor „trei cuburi pe un trotuar fotografiate într-o zi înnorată”; în rândul de jos, imagini create din promptul „trei cuburi pe un trotuar fotografiat într-o zi însorită”.

În rândul de sus, imagini create de la solicitarea cercetătorilor „trei cuburi pe un trotuar fotografiate într-o zi înnorată”; în rândul de jos, imagini create din promptul „trei cuburi pe un trotuar fotografiat într-o zi însorită”.

Cercetătorii observă că atunci când reprezintă condiții înnorate, DALL-E 2 este capabil să redă umbrele asociate mai difuze într-o manieră convingătoare și plauzibilă, poate nu în ultimul rând pentru că acest tip de umbră este probabil să fie mai răspândit în imaginile setului de date pe care cadrul a fost instruit.

Cu toate acestea, unele dintre fotografiile „însorite”, au descoperit autorii, nu erau în concordanță cu o scenă iluminată dintr-o singură sursă de lumină.

Pentru imaginea de mai sus, generațiile au fost convertite în tonuri de gri pentru claritate și arată fiecare obiect cu propriul „soare” dedicat.

Deși spectatorul obișnuit poate să nu detecteze astfel de anomalii, unele dintre imaginile generate au avut exemple mai evidente de „eșec în umbră”:

În timp ce unele dintre umbre sunt pur și simplu în locul greșit, multe dintre ele, în mod interesant, corespund tipului de discrepanță vizuală produsă în modelarea CGI atunci când rata de eșantionare pentru o lumină virtuală este prea mică.

Reflecții în DALL-E 2

Cele mai blestemate rezultate în ceea ce privește analiza criminalistică au venit atunci când autorii au testat capacitatea DALL-E 2 de a crea suprafețe foarte reflectorizante, care este un calcul împovărător și în ray-tracing CGI și alți algoritmi tradiționali de randare.

Pentru acest experiment, autorii au produs 25 de imagini DALL-E 2 cu promptul „o fotografie a unui dinozaur de jucărie și reflectarea acestuia într-o oglindă de cosmetică”.

În toate cazurile, raportează autorii, imaginea în oglindă a jucăriei redate a fost într-un fel deconectată de aspectul și dispoziția dinozaurului „adevărat” jucărie. Autorii afirmă că problema a fost rezistentă la variațiile în promptul text și pare a fi o slăbiciune fundamentală a sistemului.

Se pare că există o logică în unele dintre erori – primul și al treilea exemple din rândul de sus par să arate un dinozaur care este duplicat foarte bine, dar nu oglindit.

Autorii comentează:

„Spre deosebire de umbrele proiectate și structurile geometrice din secțiunile anterioare, DALL·E-2 se luptă să sintetizeze reflexii plauzibile, probabil pentru că astfel de reflexii sunt mai puțin frecvente în setul său de date de imagine de antrenament”.

Probleme ca acestea pot fi rezolvate în viitoarele modele text-to-image care sunt capabile să revizuiască mai eficient logica semantică generală a rezultatelor lor și care vor fi capabile să impună reguli fizice abstracte pe scenele care au fost, într-o anumită măsură, asamblate din caracteristici relevante pentru cuvânt în spațiul latent al sistemului.

În lumina tendinței în creștere către arhitecturi de sinteză din ce în ce mai mari, autorii concluzionează:

„[Este posibil] să fie doar o chestiune de timp până când motoarele de sinteză pictura cu text să învețe să redea imagini cu o consistență de perspectivă completă. Până atunci, însă, analizele geometrice criminalistice se pot dovedi utile în analiza acestor imagini.

 

* Conversia mea a citărilor inline ale autorilor în hyperlinkuri.

Prima dată publicată pe 30 iunie 2022.

Scriitor pe machine learning, specialist în domeniul sintezei imaginilor umane. Fost șef de conținut de cercetare la Metaphysic.ai.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai