Suivez nous sur

Stability AI lance le modèle de synthèse texte-image DeepFloyd IF

Intelligence Artificielle

Stability AI lance le modèle de synthèse texte-image DeepFloyd IF

mm

IA de stabilité et son laboratoire de recherche sur l'IA multimodale, DeepFloyd, ont annoncé la sortie de recherche de DeepFloyd IF, un modèle de pointe de diffusion de pixels en cascade texte-image. Le modèle est initialement publié sous une licence non commerciale et autorisée pour la recherche, mais une version open source est prévue pour l'avenir.

DeepFloyd IF possède plusieurs fonctionnalitĂ©s remarquables, notamment :

  1. ComprĂ©hension approfondie des invites de texte : Le modèle utilise T5-XXL-1.1 comme encodeur de texte, avec de nombreuses couches d'attention croisĂ©e texte-image, assurant un meilleur alignement entre les invites et les images.
  2. Texte cohĂ©rent et clair aux cĂ´tĂ©s des images gĂ©nĂ©rĂ©es : DeepFloyd IF peut gĂ©nĂ©rer des images contenant des objets avec des propriĂ©tĂ©s et des relations spatiales variables.
  3. Haut degré de photoréalisme : Le modèle a obtenu un score FID impressionnant de 6.66 sur l'ensemble de données COCO.
  4. Changement de rapport hauteur/largeur : Le modèle peut gĂ©nĂ©rer des images avec des rapports d'aspect non standard, y compris l'aspect vertical, horizontal et carrĂ© standard.
  5. Traductions d'image Ă  image Zero-shot : Le modèle peut modifier le style, les motifs et les dĂ©tails d'une image tout en prĂ©servant sa forme de base.

Voici quelques exemples de concepts créés par DeepFloyd IF :

La conception modulaire en cascade de diffusion de pixels de DeepFloyd IF se compose de plusieurs modules neuronaux interagissant en synergie. Le modèle fonctionne dans l'espace pixel et traite les données haute résolution en cascade à l'aide de modèles entraînés individuellement à différentes résolutions. Il s'agit d'un modèle de base générant des échantillons basse résolution, puis de modèles successifs à super-résolution produisant des images haute résolution.

Le modèle a été entraîné sur un jeu de données LAION-A personnalisé de haute qualité contenant 1 milliard de paires (image, texte), un sous-ensemble de la partie anglaise du jeu de données LAION-5B. Les filtres personnalisés de DeepFloyd ont été utilisés pour supprimer les contenus filigranés, NSFW et autres contenus inappropriés.

Processus de DeepFloyd IF

Initialement, DeepFloyd IF est publié sous une licence de recherche. Les chercheurs visent à encourager le développement de nouvelles applications dans des domaines tels que l'art, le design, la narration, la réalité virtuelle et l'accessibilité. Pour inspirer des recherches potentielles, ils ont proposé plusieurs questions de recherche techniques, académiques et éthiques.

Les questions de recherche technique comprennent :

  • Optimisation du modèle IF pour amĂ©liorer les performances, l'Ă©volutivitĂ© et l'efficacitĂ©.
  • AmĂ©liorer la qualitĂ© des rĂ©sultats en affinant l'Ă©chantillonnage, en guidant ou en affinant le modèle.
  • Application des techniques utilisĂ©es pour modifier la sortie Stable Diffusion vers DeepFloyd IF.

Les questions de recherche académique comprennent:

  • Explorer le rĂ´le de la prĂ©-formation pour l’apprentissage par transfert.
  • AmĂ©liorer le contrĂ´le du modèle sur la gĂ©nĂ©ration d'images.
  • Élargir les capacitĂ©s du modèle au-delĂ  de la synthèse texte-image en intĂ©grant plusieurs modalitĂ©s.
  • Évaluer l'interprĂ©tabilitĂ© du modèle pour amĂ©liorer la comprĂ©hension des caractĂ©ristiques visuelles des images gĂ©nĂ©rĂ©es.

Les questions de recherche éthique comprennent :

  • Identifier et attĂ©nuer les biais dans DeepFloyd IF.
  • Évaluation de l’impact du modèle sur les mĂ©dias sociaux et la gĂ©nĂ©ration de contenu.
  • DĂ©velopper un dĂ©tecteur d'image factice efficace qui utilise le modèle.

Pour accéder aux poids du modèle, les utilisateurs doivent accepter la licence sur DeepFloyd Espace visagePour plus d'informations, vous pouvez visiter le site Web du modèle, GitHub référentiel, Démo Gradio, ou rejoignez les discussions publiques via DeepFloyd Linktree.

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.