Følg os

Kunstig intelligens

Et detektionssystem til rene billedsyntese rammer som DALL-E 2

mm

Ny forskning fra University of California i Berkeley tilbyder en metode til at bestemme, om output fra den nye generation af billedsyntese-frameworks – såsom Open AI'er DALL-E2, og Googles Billede og Dele – kan detekteres som 'ikke-virkelig' ved at studere geometri, skygger og refleksioner, der optræder i de syntetiserede billeder.

Ved at studere billeder genereret af tekstprompter i DALL-E 2 har forskerne fundet ud af, at på trods af den imponerende realisme, som arkitekturen er i stand til, forekommer der nogle vedvarende uoverensstemmelser relateret til gengivelsen af ​​globalt perspektiv, skabelsen og disponeringen af ​​skygger, og især hvad angår gengivelsen af ​​reflekterede objekter.

Papiret siger:

"[Geometriske] strukturer, kasteskygger og refleksioner i spejlede overflader er ikke helt i overensstemmelse med den forventede perspektivgeometri for naturlige scener. Geometriske strukturer og skygger er generelt lokalt konsistente, men globalt inkonsistente.

'Refleksioner bliver på den anden side ofte gengivet usandsynligt, formentlig fordi de er mindre almindelige i træningsbilleddatasættet.'

Mangel på konsistente skæringspunkter mellem det gengivne objekt og gengivelsen af ​​dets refleksion er i øjeblikket en pålidelig måde at detektere et DALL-E 2-billede ifølge den nye undersøgelse. Kilde: https://arxiv.org/pdf/2206.14617.pdf

Mangel på konsistente skæringspunkter mellem det gengivne objekt og gengivelsen af ​​dets refleksion er i øjeblikket en pålidelig måde at detektere et DALL-E 2-billede ifølge den nye undersøgelse. Kilde: https://arxiv.org/pdf/2206.14617.pdf

Artiklen repræsenterer et tidligt indtog i, hvad der i sidste ende kan blive en bemærkelsesværdig tråd i computervisionsforskningssamfundet - Image Synthesis detection.

Siden fremkomsten af ​​deepfakes i 2017, deepfake detektion (primært af autoindkodning output fra pakker som f.eks DeepFaceLab og ansigtsbytte) er blevet en aktive og konkurrencedygtige akademisk del, med forskellige artikler og metoder rettet mod de udviklende 'fortæller' om syntetiserede ansigter i ægte videooptagelser.

Indtil den helt nylige fremkomst af hyperskala-trænede billedgenereringssystemer var outputtet fra tekstpromptsystemer som f.eks. CLIP udgjorde ingen trussel mod status quo for 'fotovirkelighed'. Forfatterne til det nye papir mener, at dette er ved at ændre sig, og at selv de uoverensstemmelser, som de har opdaget i DALL-E 2-output, måske ikke gør den store forskel for outputbilledernes potentiale til at bedrage seerne.

Forfatterne oplyser*:

"[Sådanne] fejl betyder måske ikke meget for det menneskelige visuelle system, som har vist sig at være overraskende uduelig til visse geometriske vurderinger, herunder uoverensstemmelser i belysning, skygger, refleksioner, visningspositionog perspektivforvrængning.'

Forsvindende troværdighed

Forfatternes første retsmedicinske undersøgelse af DALL-E 2-output relaterer sig til perspektivprojektion - den måde, hvorpå placeringen af ​​lige kanter i nærliggende objekter og teksturer bør løses ensartet til et 'forsvindingspunkt'.

Venstre, parallelle linjer på samme plan opløses til et fælles forsvindingspunkt; højre, flere forsvindingspunkter på samme og parallelle planer definerer en forsvindingslinje (afbildet med rødt).

Venstre, parallelle linjer på samme plan opløses til et fælles forsvindingspunkt; højre, flere forsvindingspunkter på samme og parallelle planer definerer en forsvindingslinje (afbildet med rødt).

For at teste DALL-E 2's konsistens i denne henseende brugte forfatterne DALL-E 2 til at generere 25 syntetiserede billeder af køkkener – et velkendt rum, der, selv i velindrettede boliger, normalt er begrænset nok til at give flere mulige forsvindingspunkter for en række af objekter og teksturer.

Undersøgelse af output fra prompten 'et billede af et køkken med klinkegulv', fandt forskerne ud af, at på trods af en generelt overbevisende repræsentation i hvert enkelt tilfælde (bortset fra nogle mærkelige, mindre artefakter, der ikke er relateret til perspektiv), ser de afbildede genstande aldrig ud til at konvergere korrekt.

Forfatterne bemærker, at mens hvert sæt parallelle linjer fra flisemønsteret er konsistente og skærer hinanden ved et eneste forsvindingspunkt (blåt på billedet nedenfor), er forsvindingspunktet for bordpladen (cyan) uenig med begge forsvindingslinjerne (rødt). ) og forsvindingspunktet afledt af fliserne.

Forfatterne observerer, at selvom bordpladen ikke var parallel med fliserne, skulle det cyanfarvede forsvindingspunkt opløses til den (røde) forsvindingslinje defineret af gulvflisernes forsvindingspunkter.

Papiret siger:

”Selvom perspektivet i disse billeder – på imponerende vis – er lokalt konsistent, er det ikke globalt konsistent. Det samme mønster blev fundet i hvert af 25 syntetiserede køkkenbilleder.'

Shadow Forensics

Som enhver, der nogensinde har beskæftiget sig med ray-tracing, ved, har skygger også potentielle forsvindingspunkter, hvilket indikerer en enkelt eller multi-kilde belysning. For udvendige skygger i hårdt sollys, ville man forvente, at skygger på tværs af alle facetter af et billede opløses konsekvent til den enkelte lyskilde (solen).

Som med det forrige eksperiment oprettede forskerne 25 DALL-E 2-billeder med prompten 'tre kuber pĂĄ et fortov fotograferet pĂĄ en solskinsdag', samt yderligere 25 med prompten ''tre terninger pĂĄ et fortov fotograferet pĂĄ en overskyet dag'.

I øverste række er billeder skabt ud fra forskernes prompt 'tre kuber på et fortov fotograferet på en overskyet dag'; i den nederste række billeder skabt ud fra prompten 'tre kuber på et fortov fotograferet på en solskinsdag'.

I øverste række er billeder skabt ud fra forskernes prompt 'tre kuber på et fortov fotograferet på en overskyet dag'; i den nederste række billeder skabt ud fra prompten 'tre kuber på et fortov fotograferet på en solskinsdag'.

Forskerne bemærker, at når den repræsenterer overskyede forhold, er DALL-E 2 i stand til at gengive de mere diffuse tilknyttede skygger på en overbevisende og plausibel måde, måske ikke mindst fordi denne type skygge sandsynligvis vil være mere udbredt i de datasætbilleder, hvorpå rammer blev trænet.

Men nogle af de 'solrige' billeder, som forfatterne fandt, var inkonsistente med en scene oplyst fra en enkelt lyskilde.

For ovenstĂĄende billede er generationerne blevet konverteret til grĂĄtoner for klarhedens skyld, og viser hvert objekt med sin egen dedikerede 'sol'.

Selvom den gennemsnitlige seer måske ikke opdager sådanne uregelmæssigheder, havde nogle af de genererede billeder mere tydelige eksempler på 'skyggefejl':

Mens nogle af skyggerne simpelthen er pĂĄ det forkerte sted, svarer mange af dem interessant nok til den slags visuel uoverensstemmelse, der produceres i CGI-modellering, nĂĄr samplingshastigheden for et virtuelt lys er for lav.

Refleksioner i DALL-E 2

De mest fordømmende resultater med hensyn til retsmedicinske analyser kom, da forfatterne testede DALL-E 2's evne til at skabe stærkt reflekterende overflader, hvilket er en byrdefuld beregning også i CGI ray-tracing og andre traditionelle gengivelsesalgoritmer.

Til dette eksperiment producerede forfatterne 25 DALL-E 2-billeder med prompten 'et foto af en legetøjsdinosaur og dens refleksion i et forfængelighedsspejl'.

I alle tilfælde, rapporterer forfatterne, var spejlbilledet af det gengivne legetøj på en eller anden måde adskilt fra den 'rigtige' legetøjsdinosaurs aspekt og disposition. Forfatterne oplyser, at problemet var modstandsdygtigt over for variationer i tekstprompten, og det ser ud til at være en grundlæggende svaghed i systemet.

Der synes at være en logik i nogle af fejlene - det første og tredje eksempel i øverste række ser ud til at vise en dinosaur, der er duplikeres meget godt, men ikke spejlvendt.

Forfatterne kommenterer:

'I modsætning til de kastede skygger og geometriske strukturer i de foregående afsnit, kæmper DALL·E-2 med at syntetisere plausible refleksioner, formentlig fordi sådanne refleksioner er mindre almindelige i dets træningsbilleddatasæt.'

Fejl som disse kan blive udbedret i fremtidige tekst-til-billede-modeller, der er i stand til mere effektivt at gennemgå den overordnede semantiske logik i deres output, og som vil være i stand til at pålægge abstrakte fysiske regler for scener, der i et vist omfang har været samlet ud fra ord-relevante træk i systemets latente rum.

I lyset af en voksende tendens til stadig større syntesearkitekturer konkluderer forfatterne:

"[Det] kan bare være et spørgsmål om tid, før male-for-tekst syntesemotorer lærer at gengive billeder med fuld perspektivkonsistens. Indtil da kan geometriske retsmedicinske analyser dog vise sig nyttige til at analysere disse billeder.'

 

* Min konvertering af forfatternes inline-citater til hyperlinks.

Først udgivet 30. juni 2022.

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai