Connect with us

Intelligenza artificiale

Stability AI Rilascia il Modello Testo-Immagine DeepFloyd IF

mm

Stability AI e il suo laboratorio di ricerca AI multimodale, DeepFloyd, hanno annunciato il rilascio di ricerca di DeepFloyd IF, un modello di diffusione di pixel cascati testo-immagine all’avanguardia. Il modello è inizialmente rilasciato sotto una licenza non commerciale, permessa alla ricerca, ma è previsto un rilascio open-source per il futuro.

DeepFloyd IF vanta diverse caratteristiche notevoli, tra cui:

  1. Comprensione profonda dei prompt di testo: Il modello utilizza T5-XXL-1.1 come encodatore di testo, con numerosi strati di cross-attenzione testo-immagine, garantendo una migliore allineamento tra prompt e immagini.
  2. Testo coerente e chiaro accanto alle immagini generate: DeepFloyd IF può generare immagini contenenti oggetti con proprietà e relazioni spaziali variabili.
  3. Alto grado di fotorealismo: Il modello ha raggiunto un impressionante punteggio FID zero-shot di 6.66 sul set di dati COCO.
  4. Modifica del rapporto di aspetto: Il modello può generare immagini con rapporti di aspetto non standard, inclusi verticali, orizzontali e il rapporto di aspetto quadrato standard.
  5. Traduzioni immagine-immagine zero-shot: Il modello può modificare lo stile, i pattern e i dettagli di un’immagine mentre ne mantiene la forma di base.

Alex McFarland è un giornalista e scrittore di intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup di intelligenza artificiale e pubblicazioni in tutto il mondo.