Inteligência artificial

Stability AI Lança Modelo de Texto-para-Imagem DeepFloyd IF

Published May 5, 2023

Updated April 5, 2026

Alex McFarland

Stability AI e seu laboratório de pesquisa de IA multimodal, DeepFloyd, anunciaram o lançamento de pesquisa do DeepFloyd IF, um modelo de difusão de pixel em cascata de texto-para-imagens de ponta. O modelo é inicialmente lançado sob uma licença não comercial, permissível para pesquisa, mas um lançamento de código aberto está planejado para o futuro.

DeepFloyd IF possui várias características notáveis, incluindo:

Compreensão profunda de prompts de texto: O modelo usa T5-XXL-1.1 como codificador de texto, com numerous camadas de atenção cruzada texto-imagem, garantindo melhor alinhamento entre prompts e imagens.
Texto coerente e claro ao lado de imagens geradas: DeepFloyd IF pode gerar imagens contendo objetos com propriedades e relações espaciais variadas.
Alto grau de fotorealismo: O modelo alcançou um impressionante escore FID zero-shot de 6.66 no conjunto de dados COCO.
Deslocamento de proporção de aspecto: O modelo pode gerar imagens com proporções de aspecto não padrão, incluindo vertical, horizontal e a proporção de aspecto padrão quadrada.
Traduções de imagem-para-imagem zero-shot: O modelo pode modificar o estilo, padrões e detalhes de uma imagem enquanto preserva sua forma básica.

Abaixo estão alguns conceitos de exemplo criados pelo DeepFloyd IF:

O design modular, em cascata, de difusão de pixel do DeepFloyd IF consiste em vários módulos neurais interagindo sinergicamente. O modelo funciona no espaço de pixel, processando dados de alta resolução de forma em cascata, utilizando modelos individualmente treinados em diferentes resoluções. Isso envolve um modelo base que gera amostras de baixa resolução e modelos de super-resolução sucessivos que produzem imagens de alta resolução.

O modelo foi treinado em um conjunto de dados LAION-A personalizado de alta qualidade, contendo 1 bilhão de pares (imagem, texto), um subconjunto da parte em inglês do conjunto de dados LAION-5B. Os filtros personalizados do DeepFloyd foram usados para remover conteúdo com marca d’água, NSFW e outros conteúdos inapropriados.

Processo do DeepFloyd IF

Inicialmente, o DeepFloyd IF é lançado sob uma licença de pesquisa. Os pesquisadores visam encorajar o desenvolvimento de aplicações novas em domínios como arte, design, contação de histórias, realidade virtual e acessibilidade. Para inspirar a pesquisa potencial, eles propuseram várias questões de pesquisa técnicas, acadêmicas e éticas.

Questões de pesquisa técnicas incluem:

Otimizar o modelo IF para melhorar o desempenho, escalabilidade e eficiência.
Melhorar a qualidade de saída refinando a amostragem, orientando ou ajustando o modelo.
Aplicar técnicas usadas para modificar a saída do Stable Diffusion ao DeepFloyd IF.

Questões de pesquisa acadêmicas incluem:

Explorar o papel do pré-treinamento para o aprendizado de transferência.
Melhorar o controle do modelo sobre a geração de imagens.
Expandir as capacidades do modelo além da síntese de texto-para-imagens, integrando múltiplas modalidades.
Avaliar a interpretabilidade do modelo para melhorar a compreensão dos recursos visuais das imagens geradas.

Questões de pesquisa éticas incluem:

Identificar e mitigar vieses no DeepFloyd IF.
Avaliar o impacto do modelo nas mídias sociais e geração de conteúdo.
Desenvolver um detector de imagem falsa eficaz que utilize o modelo.

Para acessar os pesos do modelo, os usuários devem aceitar a licença no espaço do DeepFloyd no Hugging Face. Para obter mais informações, você pode visitar o site do modelo, repositório GitHub, demonstração Gradio ou participar de discussões públicas por meio do Linktree do DeepFloyd.

Unite.AI

Stability AI Lança Modelo de Texto-para-Imagem DeepFloyd IF

You may like