Connect with us

Kunstig intelligens

Stability AI lanserer tekst-til-bilde-modell DeepFloyd IF

mm

Stability AI og deres multimodale AI-forskningslaboratorium, DeepFloyd, har annonsert forskningsutgivelsen av DeepFloyd IF, en banebrytende tekst-til-bilde-kaskadisk pikseldiffusjonsmodell. Modellen er initialt utgitt under en ikke-kommersiell, forsknings-tillatt lisens, men en åpen kildekode-utgivelse er planlagt for fremtiden.

DeepFloyd IF har flere bemerkelsesverdige funksjoner, inkludert:

  1. Dyp tekstprompt-forståelse: Modellen bruker T5-XXL-1.1 som tekst-encoder, med tallrike tekst-bilde-kryss-oppmerksomhetslag, som sikrer bedre sammenstilling mellom promter og bilder.
  2. Kohesive og klare tekst sammen med genererte bilder: DeepFloyd IF kan generere bilder som inneholder objekter med varierende egenskaper og romlige relasjoner.
  3. Høy grad av fotorealisme: Modellen har oppnådd en imponerende null-skudd FID-poengsum på 6,66 på COCO-datasettet.
  4. Aspektforholdsskift: Modellen kan generere bilder med ikke-standard aspektforhold, inkludert vertikale, horisontale og standard kvadratisk aspektforhold.
  5. Null-skudd bilde-til-bilde-oversettelser: Modellen kan modifisere en bildes stil, mønster og detaljer samtidig som den beholder sin grunnleggende form.

Under er noen av eksempelkonseptene som er laget av DeepFloyd IF:

DeepFloyd IFs modulære, kaskadiske, pikseldiffusjonsdesign består av flere neurale moduler som samarbeider synergetisk. Modellen fungerer i pikselrom, og prosesserer høyoppløselige data på en kaskadisk måte ved hjelp av individuelt trente modeller i forskjellige oppløsninger. Dette inkluderer en basismodell som genererer lavoppløselige prøver og påfølgende superoppløselige modeller som produserer høyoppløselige bilder.

Modellen ble trent på et eget høykvalitets LAION-A-datasett som inneholder 1 milliard (bilde, tekst)-par, en undergruppe av den engelske delen av LAION-5B-datasettet. DeepFloyds egne filtre ble brukt til å fjerne vannmerkede, NSFW og andre upassende innhold.

DeepFloyd IFs prosess

Initialt er DeepFloyd IF utgitt under en forskningslisens. Forskerne har som mål å oppmuntre til utvikling av nye anvendelser på tvers av domener som kunst, design, fortelling, virtuell virkelighet og tilgjengelighet. For å inspirere potensiell forskning, har de foreslått flere tekniske, akademiske og etiske forskningsspørsmål.

Tekniske forskningsspørsmål inkluderer:

  • Optimere IF-modellen for å forbedre ytelse, skalerbarhet og effisiens.
  • Forbedre utgangskvalitet ved å finjustere prøving, guidning eller finjustering av modellen.
  • Bruke teknikkene som brukes til å modifisere Stable Diffusion-utgang til DeepFloyd IF.

Akademiske forskningsspørsmål inkluderer:

  • Utforske rollen til pre-trening for overføringslæring.
  • Forbedre modellens kontroll over bilde-generering.
  • Utvide modellens evner utover tekst-til-bilde-syntese ved å integrere flere modaliteter.
  • Vurdere modellens tolkbarhet for å forbedre forståelsen av genererte bilders visuelle egenskaper.

Etiske forskningsspørsmål inkluderer:

  • Identifisere og minimere fordommer i DeepFloyd IF.
  • Vurdere modellens innvirkning på sosiale medier og innholdsgenerering.
  • Utvikle en effektiv feil-bilde-detektor som utnytter modellen.

For å få tilgang til modellens vekter, må brukerne akseptere lisensen på DeepFloyds Hugging Face-rom. For mer informasjon, kan du besøke modellens nettsted, GitHub-repositorium, Gradio-demo, eller delta i offentlige diskusjoner gjennom DeepFloyds Linktree.

Alex McFarland er en AI-journalist og forfatter som utforsker de nyeste utviklingene innen kunstig intelligens. Han har samarbeidet med tallrike AI-startups og publikasjoner verden over.