Intelligenza artificiale
Stability AI Rilascia il Modello Testo-Immagine DeepFloyd IF

Stability AI e il suo laboratorio di ricerca AI multimodale, DeepFloyd, hanno annunciato il rilascio di ricerca di DeepFloyd IF, un modello di diffusione di pixel cascati testo-immagine all’avanguardia. Il modello è inizialmente rilasciato sotto una licenza non commerciale, permessa alla ricerca, ma è previsto un rilascio open-source per il futuro.
DeepFloyd IF vanta diverse caratteristiche notevoli, tra cui:
- Comprensione profonda dei prompt di testo: Il modello utilizza T5-XXL-1.1 come encodatore di testo, con numerosi strati di cross-attenzione testo-immagine, garantendo una migliore allineamento tra prompt e immagini.
- Testo coerente e chiaro accanto alle immagini generate: DeepFloyd IF può generare immagini contenenti oggetti con proprietà e relazioni spaziali variabili.
- Alto grado di fotorealismo: Il modello ha raggiunto un impressionante punteggio FID zero-shot di 6.66 sul set di dati COCO.
- Modifica del rapporto di aspetto: Il modello può generare immagini con rapporti di aspetto non standard, inclusi verticali, orizzontali e il rapporto di aspetto quadrato standard.
- Traduzioni immagine-immagine zero-shot: Il modello può modificare lo stile, i pattern e i dettagli di un’immagine mentre ne mantiene la forma di base.










