Kontakt med oss

Kunstig intelligens

Å utnytte menneskelig oppmerksomhet kan forbedre AI-genererte bilder

mm
Et AI-generert bilde av ChatGPT. Spørring: ' et panoramabilde som representerer fremtredende objektdeteksjon, med en person. Det fremtredende varmekartet skal være klart og tydelig, og denne illustrasjonen bør være i stil med resultater fra vitenskapelige artikler om fremtredende kart.

Ny forskning fra Kina har foreslått en metode for å forbedre kvaliteten på bilder generert av Latente diffusjonsmodeller (LDMs) modeller som Stable Diffusion.

Metoden fokuserer på å optimalisere fremtredende regioner av et bilde – områder som mest sannsynlig tiltrekker menneskelig oppmerksomhet.

Den nye forskningen har funnet ut at fremtredende kart (fjerde kolonne fra venstre) kan brukes som et filter, eller 'maske', for å styre oppmerksomhetspunktet i denoising-prosesser mot områder av bildet som mennesker mest sannsynlig vil ta hensyn til. Kilde: https://arxiv.org/pdf/2410.10257

Den nye forskningen har funnet ut at fremtredende kart (fjerde kolonne fra venstre) kan brukes som et filter, eller 'maske', for å styre oppmerksomhetspunktet i denoising-prosesser mot områder av bildet som mennesker mest sannsynlig vil ta hensyn til. Kilde: https://arxiv.org/pdf/2410.10257

Tradisjonelle metoder, optimalisere hele bildet enhetlig, mens den nye tilnærmingen utnytter en fremtredende detektor for å identifisere og prioritere mer "viktige" regioner, slik mennesker gjør.

I kvantitative og kvalitative tester var forskernes metode i stand til å utkonkurrere tidligere diffusjonsbaserte modeller, både når det gjelder bildekvalitet og troskap til tekstoppfordringer.

Den nye tilnærmingen skåret også best i en menneskelig persepsjonsforsøk med 100 deltakere.

Naturlig utvalg

Saliency, evnen til å prioritere informasjon i den virkelige verden og i bilder, er en Viktig del av menneskesyn.

Et enkelt eksempel på dette er den økte oppmerksomheten på detaljer som klassisk kunst tildeler viktige områder av et maleri, som ansiktet, i et portrett, eller mastene på et skip, i et havbasert motiv; i slike eksempler konvergerer kunstnerens oppmerksomhet mot det sentrale emnet, noe som betyr at brede detaljer som en portrettbakgrunn eller de fjerne bølgene til en storm er skissere og mer representativt enn detaljerte.

Informert av menneskelige studier har det oppstått maskinlæringsmetoder i løpet av det siste tiåret som kan replikere eller i det minste tilnærme dette menneskelige interessestedet i ethvert bilde.

Objektsegmentering (semantisk segmentering) kan være en hjelp til å individualisere fasetter av et bilde, og utvikle tilsvarende fremtredende kart. Kilde: https://arxiv.org/pdf/1312.6034

Objektsegmentering (semantisk segmentering) kan være en hjelp til å individualisere fasetter av et bilde, og utvikle tilsvarende fremtredende kart. Kilde: https://arxiv.org/pdf/1312.6034

I løpet av forskningslitteraturen har den mest populære kartdetektoren de siste fem årene vært 2016 Gradientvektet klasseaktiveringskartlegging (Grad-CAM) initiativ, som senere utviklet seg til det forbedrede Grad-CAM++ system, blant andre varianter og forbedringer.

Grad-CAM bruker gradientaktivering av en semantisk token (som "hund" eller "katt") for å produsere et visuelt kart over hvor konseptet eller merknaden ser ut til å være representert i bildet.

Eksempler fra den originale Grad-CAM-oppgaven. I den andre kolonnen individualiserer guidet tilbakepropagasjon alle medvirkende funksjoner. I den tredje kolonnen er de semantiske kartene tegnet for de to begrepene 'hund' og 'katt'. Den fjerde kolonnen representerer sammenkoblingen av de to foregående slutningene. Det femte, okklusjonskartet (maskering) som tilsvarer slutningen; og til slutt, i den sjette kolonnen, visualiserer Grad-CAM et ResNet-18-lag. Kilde: https://arxiv.org/pdf/1610.02391

Eksempler fra den originale Grad-CAM-oppgaven. I den andre kolonnen individualiserer guidet tilbakepropagasjon alle medvirkende funksjoner. I den tredje kolonnen er de semantiske kartene tegnet for de to begrepene 'hund' og 'katt'. Den fjerde kolonnen representerer sammenkoblingen av de to foregående slutningene. Det femte, okklusjonskartet (maskering) som tilsvarer slutningen; og til slutt, i den sjette kolonnen, visualiserer Grad-CAM et ResNet-18-lag. Kilde: https://arxiv.org/pdf/1610.02391

Menneskelige undersøkelser av resultatene oppnådd med disse metodene har avslørt en samsvar mellom disse matematiske individuasjonene av sentrale interessepunkter i et bilde, og menneskelig oppmerksomhet (når bildet skannes).

SGOOL

Ocuco nytt papir vurderer hva fremtredende karakter kan bringe til tekst-til-bilde (og potensielt tekst-til-video) systemer som stabil diffusjon og fluks.

Når du tolker en brukers tekstmelding, utforsker Latent Diffusion Models sine trente latent rom for lærte visuelle konsepter som samsvarer med ordene eller uttrykkene som brukes. De analyserer deretter disse funnet datapunktene gjennom en fornektende prosess, der tilfeldig støy gradvis utvikles til en kreativ tolkning av brukerens tekstmelding.

På dette tidspunktet gir imidlertid modellen lik oppmerksomhet til hver enkelt del av bildet. Siden populariseringen av diffusjonsmodeller i 2022, med lanseringen av OpenAI's tilgjengelig Plate bildegeneratorer, og den påfølgende åpne kilden til Stability.ai sitt stabile diffusjonsrammeverk, har brukere funnet ut at "essensielle" deler av et bilde ofte er underservert.

Tatt i betraktning at i en typisk skildring av et menneske, personens ansikt (som er av maksimal betydning til betrakteren) sannsynligvis ikke vil oppta mer enn 10-35% av det totale bildet, motvirker denne demokratiske metoden for oppmerksomhetsspredning både naturen til menneskelig oppfatning og kunsthistorien og fotografiet.

Når knappene på en persons jeans får samme datakraft som øynene, kan allokeringen av ressurser sies å være ikke-optimal.

Derfor er den nye metoden foreslått av forfatterne, med tittelen Saliency guidet optimalisering av diffusjonslatenter (SGOOL), bruker en fremtredende kartlegger for å øke oppmerksomheten på forsømte områder av et bilde, og bruker færre ressurser til deler som sannsynligvis vil forbli i periferien av seerens oppmerksomhet.

Metode

SGOOL-pipelinen inkluderer bildegenerering, kartlegging av fremtredende resultater og optimalisering, med det overordnede bildet og det fremtredende raffinerte bildet behandlet i fellesskap.

Konseptuellt skjema for SGOOL.

Konseptuellt skjema for SGOOL.

Diffusjonsmodellens latente innbygginger optimaliseres direkte med finjustering, fjerner behovet for å trene en spesifikk modell. Stanford University Denoising diffusjon implisitt modell (DDIM) prøvetakingsmetoden, kjent for brukere av Stable Diffusion, er tilpasset for å inkludere sekundærinformasjonen fra fremtredende kart.

Papiret sier:

«Vi bruker først en fremtredende detektor for å etterligne det menneskelige visuelle oppmerksomhetssystemet og markere de fremtredende områdene. For å unngå omskolering av en ekstra modell, optimaliserer metoden vår direkte diffusjons latentene.

I tillegg bruker SGOOL en inverterbar diffusjonsprosess og gir den fordelene ved konstant minneimplementering. Derfor blir metoden vår en parametereffektiv og plug-and-play finjusteringsmetode. Det er gjort omfattende eksperimenter med flere beregninger og menneskelig evaluering.'

Siden denne metoden krever flere iterasjoner av denoising-prosessen, adopterte forfatterne Direkte optimalisering av diffusjonslatenter (DOODL) rammeverk, som gir en inverterbar diffusjon prosess – selv om den fortsatt legger oppmerksomhet på hele bildet.

For å definere områder av menneskelig interesse, brukte forskerne University of Dundee's 2022 TransalNet-rammeverket.

Eksempler på fremtredende deteksjon fra TransalNet-prosjektet i 2022. Kilde: https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

Eksempler på fremtredende deteksjon fra TransalNet-prosjektet i 2022. Kilde: https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

De fremtredende områdene som ble behandlet av TransalNet ble deretter beskåret for å generere konklusive fremtredende seksjoner som sannsynligvis vil være av størst interesse for faktiske mennesker.

Forskjellen mellom brukerteksten og bildet må vurderes når det gjelder å definere en tap funksjon som kan avgjøre om prosessen fungerer. For dette, en versjon av OpenAI's Kontrastivt språk–bilde-foropplæring (CLIP) – nå en bærebjelke i forskningssektoren for bildesyntese – ble brukt, sammen med hensyn til estimert semantisk avstand mellom tekstmeldingen og den globale (ikke-saliency) bildeutgangen.

Forfatterne hevder:

«[Det] endelige tapet [funksjonen] angår forholdet mellom fremtredende deler og det globale bildet samtidig, noe som bidrar til å balansere lokale detaljer og global konsistens i generasjonsprosessen.

«Dette tapet som er bevisst på fremtredende egenskaper, utnyttes for å optimalisere latent bilde. Gradientene beregnes på det støyede [latente] og utnyttes for å forbedre kondisjoneringseffekten til inndatameldingen på både fremtredende og globale aspekter av det originale genererte bildet.'

Data og tester

For å teste SGOOL brukte forfatterne en 'vanilje'-fordeling av stabil diffusjon V1.4 (betegnet som 'SD' i testresultater) og stabil diffusjon med CLIP-veiledning (betegnet som 'baseline' i resultatene).

Systemet ble evaluert mot tre offentlige datasett: Vanlige syntaktiske prosesser (CPS), DrawBench, og DailyDallE*.

Sistnevnte inneholder 99 forseggjorte forespørsler fra en artist omtalt i et av OpenAIs blogginnlegg, mens DrawBench tilbyr 200 forespørsler fordelt på 11 kategorier. CSP er sammensatt av 52 ledetekster basert på åtte forskjellige grammatiske tilfeller.

For SD, baseline og SGOOL, i testene, ble CLIP-modellen brukt over ViT/B-32 for å generere bilde- og tekstinnbygginger. Den samme oppfordringen og tilfeldig frø ble brukt. Utdatastørrelsen var 256×256, og standardvektene og innstillingene til TransalNet ble brukt.

I tillegg til CLIP-poengsummen, et estimert Human Preference Score (HPS) ble brukt, i tillegg til en virkelighetsstudie med 100 deltakere.

Kvantitative resultater som sammenligner SGOOL med tidligere konfigurasjoner.

Kvantitative resultater som sammenligner SGOOL med tidligere konfigurasjoner.

Når det gjelder de kvantitative resultatene avbildet i tabellen ovenfor, heter det i papiret:

"[Vår] modell overgår SD og Baseline betydelig på alle datasett under både CLIP-score og HPS-beregninger. Gjennomsnittsresultatene for modellen vår på CLIP-score og HPS er henholdsvis 3.05 og 0.0029 høyere enn andreplassen.'

Forfatterne estimerte videre boksplottene til HPS- og CLIP-skårene i forhold til de tidligere tilnærmingene:

Boksplott for HPS- og CLIP-skårene oppnådd i testene.

Boksplott for HPS- og CLIP-skårene oppnådd i testene.

De kommenterer:

"Det kan sees at modellen vår overgår de andre modellene, noe som indikerer at modellen vår er mer i stand til å generere bilder som er i samsvar med ledetekstene.

'I boksplotten er det imidlertid ikke lett å visualisere sammenligningen fra boksplotten på grunn av størrelsen på denne evalueringsmetrikken ved [0, 1]. Derfor fortsetter vi med å plotte de tilsvarende søyleplottene.

'Det kan sees at SGOOL overgår SD og Baseline på alle datasett under både CLIP-score og HPS-beregninger. De kvantitative resultatene viser at modellen vår kan generere mer semantisk konsistente og menneskeforetrukket bilder.'

Forskerne bemerker at selv om grunnlinjemodellen er i stand til å forbedre kvaliteten på bildeutdata, tar den ikke hensyn til de fremtredende områdene av bildet. De hevder at SGOOL, ved å komme frem til et kompromiss mellom global og fremtredende bildeevaluering, oppnår bedre bilder.

I kvalitative (automatiserte) sammenligninger ble antallet optimaliseringer satt til 50 for SGOOL og DOODL.

Kvalitative resultater for testene. Vennligst se kildeartikkelen for bedre definisjon.

Kvalitative resultater for testene. Vennligst se kildeartikkelen for bedre definisjon.

Kvalitative resultater for testene. Vennligst se kildeartikkelen for bedre definisjon.

Her observerer forfatterne:

«På [første rad] er emnene for oppfordringen «en katt som synger» og «en barbershop-kvartett». Det er fire katter i bildet generert av SD, og ​​innholdet i bildet er dårlig justert med ledeteksten.

«Katten blir ignorert i bildet generert av Baseline, og det er mangel på detaljer i fremstillingen av ansiktet og detaljene i bildet. DOODL prøver å generere et bilde som er i samsvar med ledeteksten.

"Men siden DOODL optimerer det globale bildet direkte, er personene på bildet optimalisert mot katten."

De bemerker videre at SGOOL, derimot, genererer bilder som er mer konsistente med den opprinnelige ledeteksten.

I den menneskelige persepsjonstesten evaluerte 100 frivillige testbilder for kvalitet og semantisk konsistens (dvs. hvor tett de fulgte kildeteksten deres). Deltakerne hadde ubegrenset tid til å gjøre sine valg.

Resultater for menneskelig persepsjonstesten.

Resultater for menneskelig persepsjonstesten.

Som papiret påpeker, er forfatternes metode spesielt foretrukket fremfor tidligere tilnærminger.

Konklusjon

Ikke lenge etter at manglene som ble adressert i denne artikkelen ble tydelige i lokale installasjoner av Stable Diffusion, forskjellige skreddersydde metoder (som f.eks. Etter Detailer) dukket opp for å tvinge systemet til å bruke ekstra oppmerksomhet på områder som var av større menneskelig interesse.

Denne typen tilnærming krever imidlertid at diffusjonssystemet til å begynne med går gjennom sin normale prosess med å bruke lik oppmerksomhet på alle deler av bildet, med det økte arbeidet som gjøres som et ekstra trinn.

Bevisene fra SGOOL antyder at bruk av grunnleggende menneskelig psykologi til prioritering av bildeseksjoner kan i stor grad forbedre den første slutningen, uten etterbehandlingstrinn.

 

* Papiret gir samme lenke for dette som for CommonSyntacticProcesses.

Først publisert onsdag 16. oktober 2024

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai