Inteligencia Artificial
Stability AI lanza el modelo de texto a imagen DeepFloyd IF

Estabilidad IA y su laboratorio de investigación de IA multimodal, DeepFloyd, han anunciado el lanzamiento de investigación de DeepFloyd IF, un modelo de difusión de píxeles en cascada de texto a imagen de última generación. El modelo se lanza inicialmente bajo una licencia no comercial permitida para la investigación, pero se planea un lanzamiento de código abierto para el futuro.
DeepFloyd IF cuenta con varias características notables, que incluyen:
- Comprensión profunda de mensajes de texto: El modelo utiliza T5-XXL-1.1 como codificador de texto, con numerosas capas de atención cruzada de texto e imagen, lo que garantiza una mejor alineación entre las indicaciones y las imágenes.
- Texto coherente y claro junto con las imágenes generadas: DeepFloyd IF puede generar imágenes que contienen objetos con diferentes propiedades y relaciones espaciales.
- Alto grado de fotorrealismo: El modelo ha logrado una impresionante puntuación FID de disparo cero de 6.66 en el conjunto de datos COCO.
- Cambio de relación de aspecto: El modelo puede generar imágenes con relaciones de aspecto no estándar, incluido el aspecto vertical, horizontal y cuadrado estándar.
- Traducciones de imagen a imagen de tiro cero: El modelo puede modificar el estilo, los patrones y los detalles de una imagen conservando su forma básica.
A continuación se muestran algunos de los conceptos de ejemplo creados por DeepFloyd IF:




El diseño modular de difusión de píxeles en cascada de DeepFloyd IF consta de varios módulos neuronales que interactúan sinérgicamente. El modelo funciona en el espacio de píxeles, procesando datos de alta resolución en cascada utilizando modelos entrenados individualmente a diferentes resoluciones. Esto implica un modelo base que genera muestras de baja resolución y sucesivos modelos de superresolución que producen imágenes de alta resolución.
El modelo se entrenó con un conjunto de datos LAION-A personalizado de alta calidad que contiene mil millones de pares (imagen, texto), un subconjunto de la parte en inglés del conjunto de datos LAION-1B. Se utilizaron los filtros personalizados de DeepFloyd para eliminar contenido con marcas de agua, contenido no apto para el trabajo (NSFW) y otro contenido inapropiado.

El proceso de DeepFloyd IF
Inicialmente, DeepFloyd IF se publica bajo una licencia de investigación. Los investigadores tienen como objetivo fomentar el desarrollo de aplicaciones novedosas en dominios como el arte, el diseño, la narración de historias, la realidad virtual y la accesibilidad. Para inspirar la investigación potencial, han propuesto varias preguntas de investigación técnicas, académicas y éticas.
Las preguntas de investigación técnica incluyen:
- Optimización del modelo IF para mejorar el rendimiento, la escalabilidad y la eficiencia.
- Mejorar la calidad de salida refinando el muestreo, guiando o ajustando el modelo.
- Aplicación de técnicas utilizadas para modificar la salida de difusión estable a DeepFloyd IF.
Las preguntas de investigación académica incluyen:
- Explorando el papel de la formación previa para el aprendizaje por transferencia.
- Mejorar el control del modelo sobre la generación de imágenes.
- Ampliar las capacidades del modelo más allá de la síntesis de texto a imagen mediante la integración de múltiples modalidades.
- Evaluar la interpretabilidad del modelo para mejorar la comprensión de las características visuales de las imágenes generadas.
Las preguntas de investigación ética incluyen:
- Identificación y mitigación de sesgos en DeepFloyd IF.
- Evaluar el impacto del modelo en las redes sociales y la generación de contenidos.
- Desarrollar un detector de imágenes falsas eficaz que utilice el modelo.
Para acceder a los pesos del modelo, los usuarios deben aceptar la licencia en DeepFloyd Abrazando el espacio de la caraPara más información, puede visitar el sitio web del modelo, Repositorio GitHub, demostración de gradio, o únete a discusiones públicas a través de DeepFloyd Linktree.










