Seguici sui social

Stability AI rilascia il modello testo-immagine DeepFloyd IF

Intelligenza Artificiale

Stability AI rilascia il modello testo-immagine DeepFloyd IF

mm

Stabilità AI e il suo laboratorio di ricerca sull'intelligenza artificiale multimodale, DeepFloyd, hanno annunciato il rilascio della ricerca di DeepFloyd IF, un modello di diffusione di pixel a cascata testo-immagine all'avanguardia. Il modello viene inizialmente rilasciato con una licenza non commerciale e consentita dalla ricerca, ma per il futuro è prevista una versione open source.

DeepFloyd IF vanta diverse caratteristiche notevoli, tra cui:

  1. Comprensione profonda del prompt del testo: Il modello utilizza T5-XXL-1.1 come codificatore di testo, con numerosi livelli di attenzione incrociata testo-immagine, garantendo un migliore allineamento tra prompt e immagini.
  2. Testo coerente e chiaro accanto alle immagini generate: DeepFloyd IF può generare immagini contenenti oggetti con proprietà e relazioni spaziali diverse.
  3. Alto grado di fotorealismo: Il modello ha ottenuto un impressionante punteggio FID zero-shot di 6.66 sul set di dati COCO.
  4. Cambio proporzioni: Il modello può generare immagini con proporzioni non standard, tra cui verticale, orizzontale e l'aspetto quadrato standard.
  5. Traduzioni da immagine a immagine zero-shot: Il modello può modificare lo stile, i motivi e i dettagli di un'immagine, preservandone la forma di base.

Di seguito sono riportati alcuni dei concetti di esempio creati da DeepFloyd IF:

Il design modulare e a cascata di diffusione dei pixel di DeepFloyd IF è costituito da diversi moduli neurali che interagiscono sinergicamente. Il modello opera nello spazio dei pixel, elaborando dati ad alta risoluzione in cascata utilizzando modelli addestrati individualmente a diverse risoluzioni. Ciò comporta un modello base che genera campioni a bassa risoluzione e successivi modelli a super-risoluzione che producono immagini ad alta risoluzione.

Il modello è stato addestrato su un dataset LAION-A personalizzato di alta qualità contenente 1 miliardo di coppie (immagine, testo), un sottoinsieme della parte inglese del dataset LAION-5B. I filtri personalizzati di DeepFloyd sono stati utilizzati per rimuovere contenuti con filigrana, NSFW e altri contenuti inappropriati.

Il processo di DeepFloyd IF

Inizialmente, DeepFloyd IF viene rilasciato con una licenza di ricerca. I ricercatori mirano a incoraggiare lo sviluppo di nuove applicazioni in domini come l'arte, il design, la narrazione, la realtà virtuale e l'accessibilità. Per ispirare potenziali ricerche, hanno proposto diverse domande di ricerca tecnica, accademica ed etica.

Le domande di ricerca tecnica includono:

  • Ottimizzazione del modello IF per migliorare le prestazioni, la scalabilità e l'efficienza.
  • Migliorare la qualità dell'output perfezionando il campionamento, guidando o perfezionando il modello.
  • Applicazione delle tecniche utilizzate per modificare l'output di Stable Diffusion a DeepFloyd IF.

Le domande di ricerca accademica includono:

  • Esplorare il ruolo della pre-formazione per il trasferimento dell’apprendimento.
  • Miglioramento del controllo del modello sulla generazione delle immagini.
  • Ampliare le capacità del modello oltre la sintesi testo-immagine integrando più modalità.
  • Valutazione dell'interpretabilità del modello per migliorare la comprensione delle caratteristiche visive delle immagini generate.

Le domande di ricerca etica includono:

  • Identificare e mitigare i pregiudizi in DeepFloyd IF.
  • Valutazione dell'impatto del modello sui social media e sulla generazione di contenuti.
  • Sviluppo di un efficace rilevatore di immagini false che utilizzi il modello.

Per accedere ai pesi del modello, gli utenti devono accettare la licenza su DeepFloyd Abbracciare lo spazio del visoPer maggiori informazioni potete visitare il sito web del modello, Repository GitHub, Grado demoo unisciti alle discussioni pubbliche tramite DeepFloyd Linktree.

Alex McFarland è un giornalista e scrittore specializzato in intelligenza artificiale che esplora gli ultimi sviluppi nel campo dell'intelligenza artificiale. Ha collaborato con numerose startup e pubblicazioni di intelligenza artificiale in tutto il mondo.