Connect with us

Intelligence artificielle

Stability AI Publie le Modèle Texte-Image DeepFloyd IF

mm

Stability AI et son laboratoire de recherche en intelligence artificielle multimodale, DeepFloyd, ont annoncé la publication de recherche de DeepFloyd IF, un modèle de diffusion de pixels en cascade texte-image de pointe. Le modèle est initialement publié sous une licence non commerciale, autorisant la recherche, mais une publication en open-source est prévue pour l’avenir.

DeepFloyd IF se distingue par plusieurs fonctionnalités remarquables, notamment :

  1. Compréhension approfondie des prompts texte : Le modèle utilise T5-XXL-1.1 comme encodeur de texte, avec de nombreuses couches d’attention croisée texte-image, garantissant une meilleure alignment entre les prompts et les images.
  2. Texte cohérent et clair aux côtés des images générées : DeepFloyd IF peut générer des images contenant des objets avec des propriétés et des relations spatiales variées.
  3. Degré élevé de photoréalisme : Le modèle a obtenu un score FID impressionnant de 6,66 sur le jeu de données COCO.
  4. Changement de ratio d’aspect : Le modèle peut générer des images avec des ratios d’aspect non standard, y compris vertical, horizontal et le ratio carré standard.
  5. Traductions d’image à image sans entraînement préalable : Le modèle peut modifier le style, les motifs et les détails d’une image tout en préservant sa forme de base.

Voici quelques-uns des concepts d’exemple créés par DeepFloyd IF :

La conception modulaire, en cascade, de diffusion de pixels de DeepFloyd IF se compose de plusieurs modules neuronaux interagissant de manière synergique. Le modèle fonctionne dans l’espace des pixels, traitant des données haute résolution de manière en cascade en utilisant des modèles formés individuellement à différentes résolutions. Cela implique un modèle de base qui génère des échantillons à basse résolution et des modèles de sur-résolution successifs qui produisent des images haute résolution.

Le modèle a été formé sur un jeu de données LAION-A personnalisé de haute qualité contenant 1 milliard de paires (image, texte), un sous-ensemble de la partie anglaise du jeu de données LAION-5B. Les filtres personnalisés de DeepFloyd ont été utilisés pour supprimer le contenu marqué d’eau, NSFW et d’autres contenus inappropriés.

Processus de DeepFloyd IF

Initialement, DeepFloyd IF est publié sous une licence de recherche. Les chercheurs visent à encourager le développement de nouvelles applications dans des domaines tels que l’art, la conception, la narration, la réalité virtuelle et l’accessibilité. Pour inspirer les recherches potentielles, ils ont proposé plusieurs questions de recherche techniques, académiques et éthiques.

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.