Kunstig intelligens
Stability AI lanserer tekst-til-bilde-modell DeepFloyd IF

Stability AI og deres multimodale AI-forskningslaboratorium, DeepFloyd, har annonsert forskningsutgivelsen av DeepFloyd IF, en banebrytende tekst-til-bilde-kaskadisk pikseldiffusjonsmodell. Modellen er initialt utgitt under en ikke-kommersiell, forsknings-tillatt lisens, men en åpen kildekode-utgivelse er planlagt for fremtiden.
DeepFloyd IF har flere bemerkelsesverdige funksjoner, inkludert:
- Dyp tekstprompt-forståelse: Modellen bruker T5-XXL-1.1 som tekst-encoder, med tallrike tekst-bilde-kryss-oppmerksomhetslag, som sikrer bedre sammenstilling mellom promter og bilder.
- Kohesive og klare tekst sammen med genererte bilder: DeepFloyd IF kan generere bilder som inneholder objekter med varierende egenskaper og romlige relasjoner.
- Høy grad av fotorealisme: Modellen har oppnådd en imponerende null-skudd FID-poengsum på 6,66 på COCO-datasettet.
- Aspektforholdsskift: Modellen kan generere bilder med ikke-standard aspektforhold, inkludert vertikale, horisontale og standard kvadratisk aspektforhold.
- Null-skudd bilde-til-bilde-oversettelser: Modellen kan modifisere en bildes stil, mønster og detaljer samtidig som den beholder sin grunnleggende form.
Under er noen av eksempelkonseptene som er laget av DeepFloyd IF:




DeepFloyd IFs modulære, kaskadiske, pikseldiffusjonsdesign består av flere neurale moduler som samarbeider synergetisk. Modellen fungerer i pikselrom, og prosesserer høyoppløselige data på en kaskadisk måte ved hjelp av individuelt trente modeller i forskjellige oppløsninger. Dette inkluderer en basismodell som genererer lavoppløselige prøver og påfølgende superoppløselige modeller som produserer høyoppløselige bilder.
Modellen ble trent på et eget høykvalitets LAION-A-datasett som inneholder 1 milliard (bilde, tekst)-par, en undergruppe av den engelske delen av LAION-5B-datasettet. DeepFloyds egne filtre ble brukt til å fjerne vannmerkede, NSFW og andre upassende innhold.

DeepFloyd IFs prosess
Initialt er DeepFloyd IF utgitt under en forskningslisens. Forskerne har som mål å oppmuntre til utvikling av nye anvendelser på tvers av domener som kunst, design, fortelling, virtuell virkelighet og tilgjengelighet. For å inspirere potensiell forskning, har de foreslått flere tekniske, akademiske og etiske forskningsspørsmål.
Tekniske forskningsspørsmål inkluderer:
- Optimere IF-modellen for å forbedre ytelse, skalerbarhet og effisiens.
- Forbedre utgangskvalitet ved å finjustere prøving, guidning eller finjustering av modellen.
- Bruke teknikkene som brukes til å modifisere Stable Diffusion-utgang til DeepFloyd IF.
Akademiske forskningsspørsmål inkluderer:
- Utforske rollen til pre-trening for overføringslæring.
- Forbedre modellens kontroll over bilde-generering.
- Utvide modellens evner utover tekst-til-bilde-syntese ved å integrere flere modaliteter.
- Vurdere modellens tolkbarhet for å forbedre forståelsen av genererte bilders visuelle egenskaper.
Etiske forskningsspørsmål inkluderer:
- Identifisere og minimere fordommer i DeepFloyd IF.
- Vurdere modellens innvirkning på sosiale medier og innholdsgenerering.
- Utvikle en effektiv feil-bilde-detektor som utnytter modellen.
For å få tilgang til modellens vekter, må brukerne akseptere lisensen på DeepFloyds Hugging Face-rom. For mer informasjon, kan du besøke modellens nettsted, GitHub-repositorium, Gradio-demo, eller delta i offentlige diskusjoner gjennom DeepFloyds Linktree.










