Connect with us

Unite.AI

Stability AI Rilascia il Modello Testo-Immagine DeepFloyd IF

Intelligenza artificiale

Stability AI Rilascia il Modello Testo-Immagine DeepFloyd IF

Published May 5, 2023

Updated April 5, 2026

By

Alex McFarland

Stability AI e il suo laboratorio di ricerca AI multimodale, DeepFloyd, hanno annunciato il rilascio di ricerca di DeepFloyd IF, un modello di diffusione di pixel cascati testo-immagine all’avanguardia. Il modello è inizialmente rilasciato sotto una licenza non commerciale, permessa alla ricerca, ma è previsto un rilascio open-source per il futuro.

DeepFloyd IF vanta diverse caratteristiche notevoli, tra cui:

Comprensione profonda dei prompt di testo: Il modello utilizza T5-XXL-1.1 come encodatore di testo, con numerosi strati di cross-attenzione testo-immagine, garantendo una migliore allineamento tra prompt e immagini.
Testo coerente e chiaro accanto alle immagini generate: DeepFloyd IF può generare immagini contenenti oggetti con proprietà e relazioni spaziali variabili.
Alto grado di fotorealismo: Il modello ha raggiunto un impressionante punteggio FID zero-shot di 6.66 sul set di dati COCO.
Modifica del rapporto di aspetto: Il modello può generare immagini con rapporti di aspetto non standard, inclusi verticali, orizzontali e il rapporto di aspetto quadrato standard.
Traduzioni immagine-immagine zero-shot: Il modello può modificare lo stile, i pattern e i dettagli di un’immagine mentre ne mantiene la forma di base.

Related Topics:AI image generators

Alex McFarland

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.