Kunstig intelligens

Stability AI lanserer tekst-til-bilde-modell DeepFloyd IF

Published May 5, 2023

Updated April 28, 2026

Alex McFarland

Stability AI og deres multimodale AI-forskningslaboratorium, DeepFloyd, har annonsert forskningsutgivelsen av DeepFloyd IF, en banebrytende tekst-til-bilde-kaskadisk pikseldiffusjonsmodell. Modellen er initialt utgitt under en ikke-kommersiell, forsknings-tillatt lisens, men en åpen kildekode-utgivelse er planlagt for fremtiden.

DeepFloyd IF har flere bemerkelsesverdige funksjoner, inkludert:

Dyp tekstprompt-forståelse: Modellen bruker T5-XXL-1.1 som tekst-encoder, med tallrike tekst-bilde-kryss-oppmerksomhetslag, som sikrer bedre sammenstilling mellom promter og bilder.
Kohesive og klare tekst sammen med genererte bilder: DeepFloyd IF kan generere bilder som inneholder objekter med varierende egenskaper og romlige relasjoner.
Høy grad av fotorealisme: Modellen har oppnådd en imponerende null-skudd FID-poengsum på 6,66 på COCO-datasettet.
Aspektforholdsskift: Modellen kan generere bilder med ikke-standard aspektforhold, inkludert vertikale, horisontale og standard kvadratisk aspektforhold.
Null-skudd bilde-til-bilde-oversettelser: Modellen kan modifisere en bildes stil, mønster og detaljer samtidig som den beholder sin grunnleggende form.

Under er noen av eksempelkonseptene som er laget av DeepFloyd IF:

DeepFloyd IFs modulære, kaskadiske, pikseldiffusjonsdesign består av flere neurale moduler som samarbeider synergetisk. Modellen fungerer i pikselrom, og prosesserer høyoppløselige data på en kaskadisk måte ved hjelp av individuelt trente modeller i forskjellige oppløsninger. Dette inkluderer en basismodell som genererer lavoppløselige prøver og påfølgende superoppløselige modeller som produserer høyoppløselige bilder.

Modellen ble trent på et eget høykvalitets LAION-A-datasett som inneholder 1 milliard (bilde, tekst)-par, en undergruppe av den engelske delen av LAION-5B-datasettet. DeepFloyds egne filtre ble brukt til å fjerne vannmerkede, NSFW og andre upassende innhold.

DeepFloyd IFs prosess

Initialt er DeepFloyd IF utgitt under en forskningslisens. Forskerne har som mål å oppmuntre til utvikling av nye anvendelser på tvers av domener som kunst, design, fortelling, virtuell virkelighet og tilgjengelighet. For å inspirere potensiell forskning, har de foreslått flere tekniske, akademiske og etiske forskningsspørsmål.

Tekniske forskningsspørsmål inkluderer:

Optimere IF-modellen for å forbedre ytelse, skalerbarhet og effisiens.
Forbedre utgangskvalitet ved å finjustere prøving, guidning eller finjustering av modellen.
Bruke teknikkene som brukes til å modifisere Stable Diffusion-utgang til DeepFloyd IF.

Akademiske forskningsspørsmål inkluderer:

Utforske rollen til pre-trening for overføringslæring.
Forbedre modellens kontroll over bilde-generering.
Utvide modellens evner utover tekst-til-bilde-syntese ved å integrere flere modaliteter.
Vurdere modellens tolkbarhet for å forbedre forståelsen av genererte bilders visuelle egenskaper.

Etiske forskningsspørsmål inkluderer:

Identifisere og minimere fordommer i DeepFloyd IF.
Vurdere modellens innvirkning på sosiale medier og innholdsgenerering.
Utvikle en effektiv feil-bilde-detektor som utnytter modellen.

For å få tilgang til modellens vekter, må brukerne akseptere lisensen på DeepFloyds Hugging Face-rom. For mer informasjon, kan du besøke modellens nettsted, GitHub-repositorium, Gradio-demo, eller delta i offentlige diskusjoner gjennom DeepFloyds Linktree.

Unite.AI

Stability AI lanserer tekst-til-bilde-modell DeepFloyd IF

You may like