Herramientas de IA 101

Flux de Black Forest Labs: el próximo salto en modelos de texto a imagen. ¿Es mejor que Midjourney?

Publicado 12 de agosto de 2024

Actualizado 15 de noviembre.

Aayush Mittal Mittal

FLUX.1 de código abierto de Black Forest Labs: un transformador de 12 mil millones de parámetros capaz de generar imágenes

Laboratorios de la Selva Negra, el equipo detrás del innovador modelo Stable Diffusion, ha lanzado Flujo Un conjunto de modelos de vanguardia que prometen redefinir las capacidades de las imágenes generadas por IA. Pero ¿representa Flux realmente un avance en el campo? ¿Cómo se compara con líderes de la industria como Midjourney? Profundicemos en el mundo de Flux y exploremos su potencial para transformar el futuro del arte y los medios generados por IA.

El nacimiento de los laboratorios de la Selva Negra

Black Forest Labs no es una simple startup de IA; es una potencia de talento con una trayectoria en el desarrollo de modelos generativos de IA fundamentales. El equipo incluye a los creadores de VQGAN, Latent Diffusion y la familia de modelos Stable Diffusion, que han revolucionado el mundo del arte de la IA.

FLUX.1 de código abierto de Black Forest Labs

Con una exitosa ronda de financiación Series Seed de 31 millones de dólares liderados por Andreessen Horowitz y el apoyo de destacados inversores ángeles, Black Forest Labs se ha posicionado a la vanguardia de la investigación de IA generativa. Su misión es clara: desarrollar y promover modelos de aprendizaje profundo generativo de última generación para medios como imágenes y videos, al tiempo que traspasa los límites de la creatividad, la eficiencia y la diversidad.

Presentamos la familia de modelos Flux

Black Forest Labs ha presentado el conjunto FLUX.1 de modelos de texto a imagen, diseñado para establecer nuevos puntos de referencia en detalle de imagen, adherencia rápida, diversidad de estilos y complejidad de escenas. La familia Flux consta de tres variantes, cada una adaptada a diferentes casos de uso y niveles de accesibilidad:

FLUJO.1 [pro]El modelo insignia ofrece un rendimiento excepcional en generación de imágenes, con un seguimiento de indicaciones superior, calidad visual, detalle de imagen y diversidad de salida. Disponible mediante una API, se posiciona como la opción premium para uso profesional y empresarial.
FLUJO.1 [desarrollador]Un modelo de peso abierto y con guía destilada para aplicaciones no comerciales. Está diseñado para lograr una calidad y una adherencia rápidas similares a las de la versión pro, a la vez que es más eficiente.
FLUJO.1 [schnell]El modelo más rápido de la suite, optimizado para desarrollo local y uso personal. Está disponible abiertamente bajo la licencia Apache 2.0, lo que lo hace accesible para una amplia gama de aplicaciones y experimentos.

Proporcionaré ejemplos de indicaciones únicas y creativas que muestran las capacidades de FLUX.1. Estas indicaciones resaltarán las fortalezas del modelo en el manejo de texto, composiciones complejas y elementos desafiantes como las manos.

Estilo artístico combinado con texto: “Crea un retrato de Vincent van Gogh con su estilo característico, pero reemplaza su barba con pinceladas en espiral que forman las palabras 'Noche estrellada' en cursiva”.

FLUX.1 de código abierto de Black Forest Labs

Escena de acción dinámica con integración de texto: «Un superhéroe irrumpe en una página de cómic. Las líneas de acción y los efectos de sonido deben formar el nombre del héroe, «FLUX FORCE», en tipografía audaz y dinámica».

FLUX.1 de código abierto de Black Forest Labs

Concepto surrealista con ubicación precisa de objetos: “Primer plano de un lindo gato con colores marrón y blanco bajo la luz del sol de la ventana. Enfoque nítido en la textura y el color de los ojos. Iluminación natural para capturar el brillo y la profundidad de los ojos auténticos”.

FLUX.1 de código abierto de Black Forest Labs

Estos mensajes están diseñados para desafiar las capacidades de FLUX.1 en la representación de texto, la composición de escenas complejas y la creación de objetos detallados, al mismo tiempo que muestran su potencial para la generación de imágenes creativas y únicas.

Innovaciones técnicas detrás de Flux

En el corazón de las impresionantes capacidades de Flux se encuentra una serie de innovaciones técnicas que lo distinguen de sus predecesores y contemporáneos:

Modelos de flujo a escala impulsados por transformadores

Todos los modelos públicos FLUX.1 se basan en una arquitectura híbrida que combina bloques de transformadores de difusión multimodal y paralelo, escalados a la impresionante cifra de 12 mil millones de parámetros. Esto representa un salto significativo en el tamaño y la complejidad del modelo en comparación con muchos modelos existentes de conversión de texto a imagen.

Los modelos Flux mejoran los modelos de difusión de última generación anteriores al incorporar la coincidencia de flujo, un método general y conceptualmente simple para entrenar modelos generativos. La coincidencia de flujo proporciona un marco más flexible para el modelado generativo, siendo los modelos de difusión un caso especial dentro de este enfoque más amplio.

Para mejorar el rendimiento del modelo y la eficiencia del hardware, Black Forest Labs ha integrado incrustaciones posicionales rotativas y capas de atención paralelas. Estas técnicas permiten un mejor manejo de las relaciones espaciales en imágenes y un procesamiento más eficiente de datos a gran escala.

Innovaciones arquitectónicas

Analicemos algunos de los elementos arquitectónicos clave que contribuyen al rendimiento de Flux:

Arquitectura Híbrida: Al combinar bloques transformadores de difusión multimodal y paralelo, Flux puede procesar de manera efectiva información tanto textual como visual, lo que lleva a una mejor alineación entre las indicaciones y las imágenes generadas.
Coincidencia de flujo: Este enfoque permite un entrenamiento más flexible y eficiente de modelos generativos. Proporciona un marco unificado que abarca modelos de difusión y otras técnicas generativas, lo que podría conducir a una generación de imágenes más sólida y versátil.
Incrustaciones posicionales rotativas: Estas incrustaciones ayudan al modelo a comprender y mantener mejor las relaciones espaciales dentro de las imágenes, lo cual es crucial para generar contenido visual coherente y detallado.
Capas de atención paralela: Esta técnica permite un procesamiento más eficiente de los mecanismos de atención, que son fundamentales para comprender las relaciones entre diferentes elementos tanto en las indicaciones de texto como en las imágenes generadas.
Escalado a 12B parámetros: El gran tamaño del modelo le permite capturar y sintetizar patrones y relaciones más complejos, lo que potencialmente conduce a resultados de mayor calidad y más diversos.

Flujo de evaluación comparativa: un nuevo estándar en síntesis de imágenes

https://blackforestlabs.ai/announcing-black-forest-labs/

Black Forest Labs afirma que FLUX.1 establece nuevos estándares en síntesis de imágenes, superando modelos populares como a mitad de camino v6.0, DALL·E 3 (HD) y SD3-Ultra en varios aspectos clave:

Calidad visual: Flux tiene como objetivo producir imágenes con mayor fidelidad, detalles más realistas y un mejor atractivo estético general.
Siguiente rápido:El modelo está diseñado para adherirse más estrechamente a las indicaciones de texto dadas, generando imágenes que reflejan con mayor precisión las intenciones del usuario.
Variabilidad de tamaño/aspecto: Flux admite una amplia gama de relaciones de aspecto y resoluciones, desde 0.1 a 2.0 megapíxeles, lo que ofrece flexibilidad para diversos casos de uso.
Tipografía: El modelo muestra capacidades mejoradas para generar y representar texto dentro de imágenes, un desafío común para muchos modelos de conversión de texto a imagen.
Diversidad de resultados: Flux está específicamente ajustado para preservar toda la diversidad de resultados desde el entrenamiento previo, ofreciendo una gama más amplia de posibilidades creativas.

Flujo versus mitad del viaje: un análisis comparativo

https://blackforestlabs.ai/announcing-black-forest-labs/

Ahora, abordemos la pregunta candente: ¿Flux es mejor que... a mitad de camino? Para responder a esto, debemos considerar varios factores:

Calidad de imagen y estética

Tanto Flux como Midjourney son conocidos por producir imágenes visualmente impresionantes y de alta calidad. Midjourney ha sido elogiado por su talento artístico y su capacidad para crear imágenes con un atractivo estético distintivo. Flux, con su arquitectura avanzada y un mayor número de parámetros, pretende igualar o superar este nivel de calidad.

Los primeros ejemplos de Flux muestran detalles impresionantes, texturas realistas y un gran conocimiento de la iluminación y la composición. Sin embargo, la naturaleza subjetiva del arte hace difícil reivindicar definitivamente la superioridad en este ámbito. Los usuarios pueden encontrar que cada modelo tiene sus puntos fuertes en diferentes estilos o tipos de imágenes.

Cumplimiento inmediato

Un área donde Flux potencialmente se destaca a mitad de camino Cumple con las especificaciones. Black Forest Labs se ha centrado en mejorar la capacidad del modelo para interpretar y ejecutar con precisión las indicaciones dadas. Esto podría generar imágenes que se ajusten mejor a las intenciones del usuario, especialmente para solicitudes complejas o con matices.

a mitad de camino A veces se le ha criticado por tomarse libertades creativas con las indicaciones, lo que puede llevar a resultados hermosos pero inesperados. El enfoque de Flux puede ofrecer un control más preciso sobre el resultado generado.

Rapidez y eficiencia

Con la introducción de FLUX.1 [schnell], Black Forest Labs se centra en una de las principales ventajas de Midjourney: la velocidad. Midjourney es conocido por sus rápidos tiempos de generación, lo que lo ha popularizado para procesos creativos iterativos. Si Flux logra igualar o superar esta velocidad manteniendo la calidad, podría convertirse en un importante punto de venta.

Accesibilidad y facilidad de uso

Midjourney ha ganado popularidad en parte debido a su interfaz fácil de usar y su integración con Discord. Flux, al ser más nuevo, puede necesitar tiempo para desarrollar interfaces igualmente accesibles. Sin embargo, la naturaleza de código abierto de los modelos FLUX.1 [schnell] y [dev] podría conducir a una amplia gama de herramientas e integraciones desarrolladas por la comunidad, superando potencialmente a Midjourney en términos de flexibilidad y opciones de personalización.

Habilidades técnicas

La arquitectura avanzada de Flux y el mayor tamaño del modelo sugieren que podría tener mayor capacidad bruta para comprender indicaciones complejas y generar detalles complejos. El enfoque de coincidencia de flujo y la arquitectura híbrida podrían permitir a Flux gestionar una gama más amplia de tareas y generar resultados más diversos.

Consideraciones éticas y mitigación de prejuicios

Tanto Flux como Midjourney se enfrentan al reto de abordar las preocupaciones éticas en las imágenes generadas por IA, como el sesgo, la desinformación y los derechos de autor. El énfasis de Black Forest Labs en la transparencia y su compromiso de hacer que los modelos sean ampliamente accesibles podrían conducir a una supervisión comunitaria más sólida y a mejoras más rápidas en estas áreas.

Implementación e implementación de código

Usar fundente con difusores

Los modelos de flujo se pueden integrar fácilmente en los flujos de trabajo existentes utilizando el Biblioteca de difusores Hugging FaceAquí tienes una guía paso a paso para usar FLUX.1 [dev] o FLUX.1 [schnell] con difusores:

Primero, instale o actualice la biblioteca de Difusores:

!pip install git+https://github.com/huggingface/diffusers.git

Entonces, puede usar el FluxPipeline para ejecutar el modelo:

import torch
from diffusers import FluxPipeline

# Load the model
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype=torch.bfloat16)

# Enable CPU offloading to save VRAM (optional)
pipe.enable_model_cpu_offload()

# Generate an image
prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    height=1024,
    width=1024,
    guidance_scale=3.5,
    output_type="pil",
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]

# Save the generated image
image.save("flux-dev.png")

Este fragmento de código demuestra cómo cargar el modelo FLUX.1 [dev], generar una imagen a partir de un mensaje de texto y guardar el resultado.

Implementación de Flux como API con LitServe

Para quienes buscan implementar Flux como un servicio API escalable, Black Forest Labs ofrece un ejemplo con LitServe, un motor de inferencia de alto rendimiento. A continuación, se detalla el proceso de implementación:

Defina el servidor modelo:

from io import BytesIO
from fastapi import Response
import torch
import time
import litserve as ls
from optimum.quanto import freeze, qfloat8, quantize
from diffusers import FlowMatchEulerDiscreteScheduler, AutoencoderKL
from diffusers.models.transformers.transformer_flux import FluxTransformer2DModel
from diffusers.pipelines.flux.pipeline_flux import FluxPipeline
from transformers import CLIPTextModel, CLIPTokenizer, T5EncoderModel, T5TokenizerFast

class FluxLitAPI(ls.LitAPI):
    def setup(self, device):
        # Load model components
        scheduler = FlowMatchEulerDiscreteScheduler.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="scheduler")
        text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
        tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14", torch_dtype=torch.bfloat16)
        text_encoder_2 = T5EncoderModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="text_encoder_2", torch_dtype=torch.bfloat16)
        tokenizer_2 = T5TokenizerFast.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="tokenizer_2", torch_dtype=torch.bfloat16)
        vae = AutoencoderKL.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="vae", torch_dtype=torch.bfloat16)
        transformer = FluxTransformer2DModel.from_pretrained("black-forest-labs/FLUX.1-schnell", subfolder="transformer", torch_dtype=torch.bfloat16)

        # Quantize to 8-bit to fit on an L4 GPU
        quantize(transformer, weights=qfloat8)
        freeze(transformer)
        quantize(text_encoder_2, weights=qfloat8)
        freeze(text_encoder_2)

        # Initialize the Flux pipeline
        self.pipe = FluxPipeline(
            scheduler=scheduler,
            text_encoder=text_encoder,
            tokenizer=tokenizer,
            text_encoder_2=None,
            tokenizer_2=tokenizer_2,
            vae=vae,
            transformer=None,
        )
        self.pipe.text_encoder_2 = text_encoder_2
        self.pipe.transformer = transformer
        self.pipe.enable_model_cpu_offload()

    def decode_request(self, request):
        return request["prompt"]

    def predict(self, prompt):
        image = self.pipe(
            prompt=prompt, 
            width=1024,
            height=1024,
            num_inference_steps=4, 
            generator=torch.Generator().manual_seed(int(time.time())),
            guidance_scale=3.5,
        ).images[0]
        return image

    def encode_response(self, image):
        buffered = BytesIO()
        image.save(buffered, format="PNG")
        return Response(content=buffered.getvalue(), headers={"Content-Type": "image/png"})

# Start the server
if __name__ == "__main__":
    api = FluxLitAPI()
    server = ls.LitServer(api, timeout=False)
    server.run(port=8000)

Este código configura una API LitServe para Flux, que incluye carga de modelos, manejo de solicitudes, generación de imágenes y codificación de respuestas.

Inicie el servidor:

</pre>
python server.py
<pre>

Utilice la API del modelo:

Puede probar la API utilizando un script de cliente simple:

import requests
import json

url = "http://localhost:8000/predict"
prompt = "a robot sitting in a chair painting a picture on an easel of a futuristic cityscape, pop art"

response = requests.post(url, json={"prompt": prompt})
with open("generated_image.png", "wb") as f:
    f.write(response.content)

print("Image generated and saved as generated_image.png")

Características clave de la implementación

Arquitectura sin servidor: Los LitServe La configuración permite una implementación escalable y sin servidor que puede escalar a cero cuando no está en uso.
API privada: Puedes implementar Flux como una API privada en tu propia infraestructura.
Soporte multi-GPU: La configuración está diseñada para funcionar de manera eficiente en múltiples GPU.
Cuantización: El código demuestra cómo cuantificar el modelo con una precisión de 8 bits, lo que le permite ejecutarse en hardware menos potente como las GPU NVIDIA L4.
Descarga de CPU: Los enable_model_cpu_offload() El método se utiliza para conservar la memoria de la GPU descargando partes del modelo a la CPU cuando no está en uso.

Aplicaciones prácticas del flujo

La versatilidad y el poder de Flux abren una amplia gama de aplicaciones potenciales en diversas industrias:

Industrias creativas: Los diseñadores gráficos, ilustradores y artistas pueden utilizar Flux para generar rápidamente arte conceptual, paneles de estado de ánimo e inspiraciones visuales.
Marketing y publicidad: Los especialistas en marketing pueden crear imágenes personalizadas para campañas, contenido de redes sociales y maquetas de productos con una velocidad y calidad sin precedentes.
Desarrollo de juegos: Los diseñadores de juegos pueden utilizar Flux para crear rápidamente prototipos de entornos, personajes y recursos, agilizando el proceso de preproducción.
Arquitectura y diseño de interiores.: Los arquitectos y diseñadores pueden generar visualizaciones realistas de espacios y estructuras basadas en descripciones textuales.
Educación: Los educadores pueden crear ayudas visuales e ilustraciones personalizadas para mejorar los materiales de aprendizaje y hacer que los conceptos complejos sean más accesibles.
Cine y Animacion: Los artistas y animadores de guiones gráficos pueden utilizar Flux para visualizar rápidamente escenas y personajes, acelerando el proceso de previsualización.

El futuro del flujo y la generación de texto a imagen

Black Forest Labs ha dejado claro que Flux es solo el comienzo de sus ambiciones en el ámbito de la IA generativa. planes anunciados desarrollar sistemas generativos competitivos de texto a video, prometiendo capacidades precisas de creación y edición en alta definición y una velocidad sin precedentes.

Esta hoja de ruta sugiere que Flux no es sólo un producto independiente sino parte de un ecosistema más amplio de herramientas de IA generativa. A medida que la tecnología evoluciona, podemos esperar ver:

Integración mejorada: Flujos de trabajo fluidos entre la generación de texto a imagen y de texto a video, lo que permite una creación de contenido más compleja y dinámica.
Personalización mejorada: Control más detallado sobre el contenido generado, posiblemente a través de técnicas avanzadas de ingeniería o interfaces de usuario intuitivas.
Generación en tiempo real: A medida que modelos como FLUX.1 [schnell] continúen mejorando, es posible que veamos capacidades de generación de imágenes en tiempo real que podrían revolucionar la creación de contenido en vivo y los medios interactivos.
Generación intermodal: La capacidad de generar y manipular contenido en múltiples modalidades (texto, imagen, video, audio) de manera cohesiva e integrada.
Desarrollo ético de IA: Enfoque continuo en el desarrollo de modelos de IA que no solo sean poderosos sino también responsables y éticamente sólidos.

Conclusión: ¿Es Flux mejor que Midjourney?

La pregunta de si Flux es “mejor” que Midjourney no se responde fácilmente con un simple sí o no. Ambos modelos representan la vanguardia de la tecnología de generación de texto a imagen, cada uno con sus propios puntos fuertes y características únicas.

Flux, con su arquitectura avanzada y énfasis en el cumplimiento rápido, puede ofrecer un control más preciso y una calidad potencialmente mayor en ciertos escenarios. Sus variantes de código abierto también brindan oportunidades de personalización e integración que podrían resultar muy valiosas para desarrolladores e investigadores.

a mitad de camino, por otro lado, tiene un historial comprobado, una base de usuarios grande y activa y un estilo artístico distintivo que muchos usuarios han llegado a amar. Su integración con Discord y su interfaz fácil de usar lo han hecho muy accesible para creativos de todos los niveles técnicos.

En última instancia, el modelo "mejor" puede depender del caso de uso específico, las preferencias personales y la evolución de las capacidades de cada plataforma. Lo que está claro es que Flux representa un avance significativo en el campo de la IA generativa, al introducir técnicas innovadoras y ampliar los límites de lo posible en la síntesis de texto a imagen.

Temas relacionados:Creación de arte con IA Generación de imágenes de IA Laboratorios de la Selva Negra Arte digital flujo FLUJO.1 procesamiento natural del lenguaje IA de código abierto Difusión estable Modelo de texto a imagen

Hasta la próxima

Revisión de Deepswap: cree intercambios de caras 4K para videos e imágenes

No Te Lo

Revisión de Claude AI: ¿En qué es mejor la versión 3.7 que la 3.5?

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.