Intelligence Artificielle
Stability AI lance le modèle de synthèse texte-image DeepFloyd IF

IA de stabilité et son laboratoire de recherche sur l'IA multimodale, DeepFloyd, ont annoncé la sortie de recherche de DeepFloyd IF, un modèle de pointe de diffusion de pixels en cascade texte-image. Le modèle est initialement publié sous une licence non commerciale et autorisée pour la recherche, mais une version open source est prévue pour l'avenir.
DeepFloyd IF possède plusieurs fonctionnalités remarquables, notamment :
- Compréhension approfondie des invites de texte : Le modèle utilise T5-XXL-1.1 comme encodeur de texte, avec de nombreuses couches d'attention croisée texte-image, assurant un meilleur alignement entre les invites et les images.
- Texte cohérent et clair aux côtés des images générées : DeepFloyd IF peut générer des images contenant des objets avec des propriétés et des relations spatiales variables.
- Haut degré de photoréalisme : Le modèle a obtenu un score FID impressionnant de 6.66 sur l'ensemble de données COCO.
- Changement de rapport hauteur/largeur : Le modèle peut générer des images avec des rapports d'aspect non standard, y compris l'aspect vertical, horizontal et carré standard.
- Traductions d'image à image Zero-shot : Le modèle peut modifier le style, les motifs et les détails d'une image tout en préservant sa forme de base.
Voici quelques exemples de concepts créés par DeepFloyd IF :




La conception modulaire en cascade de diffusion de pixels de DeepFloyd IF se compose de plusieurs modules neuronaux interagissant en synergie. Le modèle fonctionne dans l'espace pixel et traite les données haute résolution en cascade à l'aide de modèles entraînés individuellement à différentes résolutions. Il s'agit d'un modèle de base générant des échantillons basse résolution, puis de modèles successifs à super-résolution produisant des images haute résolution.
Le modèle a été entraîné sur un jeu de données LAION-A personnalisé de haute qualité contenant 1 milliard de paires (image, texte), un sous-ensemble de la partie anglaise du jeu de données LAION-5B. Les filtres personnalisés de DeepFloyd ont été utilisés pour supprimer les contenus filigranés, NSFW et autres contenus inappropriés.

Processus de DeepFloyd IF
Initialement, DeepFloyd IF est publié sous une licence de recherche. Les chercheurs visent à encourager le développement de nouvelles applications dans des domaines tels que l'art, le design, la narration, la réalité virtuelle et l'accessibilité. Pour inspirer des recherches potentielles, ils ont proposé plusieurs questions de recherche techniques, académiques et éthiques.
Les questions de recherche technique comprennent :
- Optimisation du modèle IF pour améliorer les performances, l'évolutivité et l'efficacité.
- Améliorer la qualité des résultats en affinant l'échantillonnage, en guidant ou en affinant le modèle.
- Application des techniques utilisées pour modifier la sortie Stable Diffusion vers DeepFloyd IF.
Les questions de recherche académique comprennent:
- Explorer le rôle de la pré-formation pour l’apprentissage par transfert.
- Améliorer le contrôle du modèle sur la génération d'images.
- Élargir les capacités du modèle au-delà de la synthèse texte-image en intégrant plusieurs modalités.
- Évaluer l'interprétabilité du modèle pour améliorer la compréhension des caractéristiques visuelles des images générées.
Les questions de recherche éthique comprennent :
- Identifier et atténuer les biais dans DeepFloyd IF.
- Évaluation de l’impact du modèle sur les médias sociaux et la génération de contenu.
- Développer un détecteur d'image factice efficace qui utilise le modèle.
Pour accéder aux poids du modèle, les utilisateurs doivent accepter la licence sur DeepFloyd Espace visagePour plus d'informations, vous pouvez visiter le site Web du modèle, GitHub référentiel, Démo Gradio, ou rejoignez les discussions publiques via DeepFloyd Linktree.










