Kunstig intelligens
Stabilitet AI lanserer tekst-til-bilde-modell DeepFloyd IF

Stability AI og deres multimodale AI-forskningslaboratorium, DeepFloyd, har annonsert forskningslanseringen av DeepFloyd IF, en banebrytende tekst-til-bilde-kaskadisk piksel-diffusjonsmodell. Modellen er initialt lansert under en ikke-kommersiell, forsknings-tillatt lisens, men en åpen kildekode-lansering er planlagt for fremtiden.
DeepFloyd IF har flere bemerkelsesverdige funksjoner, inkludert:
- Dyp tekst-prompt-forståelse: Modellen bruker T5-XXL-1.1 som tekst-encoder, med tallrike tekst-bilde-kryss-oppmerksomhetslag, som sikrer bedre sammenstilling mellom promter og bilder.
- Kohesive og klare tekst sammen med genererte bilder: DeepFloyd IF kan generere bilder som inneholder objekter med varierende egenskaper og romlige relasjoner.
- Høy grad av fotorealistisk: Modellen har oppnådd en imponerende null-skudd FID-poeng på 6,66 på COCO-datasettet.
- Aspektforholdsskift: Modellen kan generere bilder med ikke-standard aspektforhold, inkludert vertikale, horisontale og standard kvadratisk aspektforhold.
- Null-skudd bilde-til-bilde-oversettelser: Modellen kan modifisere en bildes stil, mønster og detaljer mens den beholder sin grunnleggende form.










