Connect with us

Un vistazo más cercano a DALL-E 3 de OpenAI

Ingeniería de prompts

Un vistazo más cercano a DALL-E 3 de OpenAI

mm
DALL·E 3

En el mundo de la IA generativa, mantenerse al día con lo último es el nombre del juego. Y cuando se trata de generar imágenes, Stable Diffusion y Midjourney eran las plataformas de las que todos hablaban – hasta ahora.

OpenAI, respaldada por el gigante tecnológico Microsoft, presentó DALL·E 3 el 20 de septiembre de 2023.

DALL-E 3 no se trata solo de crear imágenes; se trata de dar vida a tus ideas, exactamente como las imaginaste. Y lo mejor de todo! Es rápido, como realmente rápido. Tienes una idea, se la das a DALL-E 3, y ¡listo!, tu imagen está lista.

Así que, en este artículo, vamos a sumergirnos profundamente en lo que DALL-E 3 es todo sobre. Hablaremos sobre cómo funciona, qué lo distingue del resto y por qué puede ser la herramienta que no sabías que necesitabas. Ya sea que seas un diseñador, un artista o simplemente alguien con muchas ideas geniales, vas a querer quedarte por esto. ¡Vamos a empezar!

Lo nuevo con DALL·E 3 es que entiende el contexto mucho mejor que DALL·E 2. Las versiones anteriores pueden haber perdido algunos detalles o ignorado algunos detalles aquí y allá, pero DALL·E 3 está en el punto. Se da cuenta de los detalles exactos de lo que estás pidiendo, dándote una imagen que está más cerca de lo que imaginaste.

La parte divertida? DALL·E 3 y ChatGPT ahora están integrados juntos. Trabajan juntos para ayudar a refinar tus ideas. Le disparas un concepto, ChatGPT ayuda a afinar la solicitud, y DALL·E 3 lo lleva a la vida. Si no te gusta la imagen, puedes pedirle a ChatGPT que ajuste la solicitud y que DALL·E 3 intente nuevamente. Por una tarifa mensual de 20$, obtienes acceso a GPT-4, DALL·E 3 y muchas otras características geniales.

El Bing Chat de Microsoft obtuvo DALL·E 3 incluso antes de que ChatGPT de OpenAI lo hiciera, y ahora no solo son las grandes empresas las que pueden jugar con él de forma gratuita. La integración en Bing Chat y Bing Image Creator lo hace mucho más fácil de usar para cualquier persona.

El auge de los modelos de difusión

En los últimos 3 años, la IA de visión ha presenciado el auge de los modelos de difusión, dando un gran salto adelante, especialmente en la generación de imágenes. Antes de los modelos de difusión, las Redes Generativas Adversarias (GANs) eran la tecnología para generar imágenes realistas.

GANs

GANs

Sin embargo, tenían sus propios desafíos, incluida la necesidad de grandes cantidades de datos y potencia computacional, lo que a menudo los hacía difíciles de manejar.

Entonces, entran los modelos de difusión. Emergieron como una alternativa más estable y eficiente a las GANs. A diferencia de las GANs, los modelos de difusión operan agregando ruido a los datos, oscureciéndolos hasta que solo queda aleatoriedad. Luego, trabajan hacia atrás para revertir este proceso, reconstruyendo datos significativos a partir del ruido. Este proceso ha demostrado ser efectivo y menos intensivo en recursos, lo que hace que los modelos de difusión sean un tema candente en la comunidad de IA.

El verdadero punto de inflexión llegó alrededor de 2020, con una serie de innovadoras publicaciones y la presentación de la tecnología CLIP de OpenAI, que avanzó significativamente las capacidades de los modelos de difusión. Esto hizo que los modelos de difusión fueran excepcionalmente buenos en la síntesis de texto a imagen, lo que les permitió generar imágenes realistas a partir de descripciones textuales. Estos avances no solo se dieron en la generación de imágenes, sino también en campos como la composición de música y la investigación biomédica.

Hoy en día, los modelos de difusión no son solo un tema de interés académico, sino que se están utilizando en escenarios prácticos y del mundo real.

Modelado generativo y capas de autoatención: DALL-E 3

Una de las mejoras críticas en este campo ha sido la evolución del modelado generativo, con enfoques basados en muestreo como el modelado generativo autoregresivo y los procesos de difusión que lideran el camino. Han transformado los modelos de texto a imagen, lo que ha llevado a mejoras drásticas en el rendimiento. Al descomponer la generación de imágenes en pasos discretos, estos modelos se han vuelto más tratables y fáciles de aprender para las redes neuronales.

En paralelo, el uso de capas de autoatención ha desempeñado un papel crucial. Estas capas, apiladas, han ayudado a generar imágenes sin la necesidad de sesgos espaciales implícitos, un problema común con las convoluciones. Este cambio ha permitido que los modelos de texto a imagen se escalen y mejoren de manera confiable, gracias a las propiedades de escalado bien entendidas de los transformadores.

Desafíos y soluciones en la generación de imágenes

A pesar de estos avances, la controlabilidad en la generación de imágenes sigue siendo un desafío. Problemas como el seguimiento de la solicitud, donde el modelo puede no adherirse estrechamente al texto de entrada, han sido prevalentes. Para abordar esto, se han propuesto nuevos enfoques como la mejora de los subtítulos, destinados a mejorar la calidad de los pares de texto e imagen en los conjuntos de datos de entrenamiento.

Mejora de los subtítulos: un enfoque novedoso

La mejora de los subtítulos implica generar subtítulos de mejor calidad para las imágenes, lo que a su vez ayuda a entrenar modelos de texto a imagen más precisos. Esto se logra mediante un robusto sistema de subtítulos de imágenes que produce descripciones detalladas y precisas de las imágenes. Al entrenar con estos subtítulos mejorados, DALL-E 3 ha logrado resultados notables, que se asemejan estrechamente a fotografías y obras de arte producidas por humanos.

Entrenamiento con datos sintéticos

El concepto de entrenar con datos sintéticos no es nuevo. Sin embargo, la contribución única aquí es la creación de un sistema de subtítulos de imágenes descriptivo y novedoso. El impacto de utilizar subtítulos sintéticos para entrenar modelos generativos ha sido sustancial, lo que ha llevado a mejoras en la capacidad del modelo para seguir las solicitudes con precisión.

Evaluación de DALL-E 3

A través de múltiples evaluaciones y comparaciones con modelos anteriores como DALL-E 2 y Stable Diffusion XL, DALL-E 3 ha demostrado un rendimiento superior, especialmente en tareas relacionadas con el seguimiento de la solicitud.

Comparación de modelos de texto a imagen en varias evaluaciones

Comparación de modelos de texto a imagen en varias evaluaciones

El uso de evaluaciones automatizadas y benchmarks ha proporcionado evidencia clara de sus capacidades, consolidando su posición como un generador de texto a imagen de última generación.

Solicitudes y capacidades de DALL-E 3

DALL-E 3 ofrece un enfoque más lógico y refinado para crear visuales. A medida que desplazas, notarás cómo DALL-E crea cada imagen, con una mezcla de precisión y imaginación que resuena con la solicitud dada.

A diferencia de su predecesor, esta versión mejorada sobresale en la organización de objetos de manera natural dentro de una escena y en la representación precisa de características humanas, hasta el número correcto de dedos en una mano. Las mejoras se extienden a detalles más finos y ahora están disponibles a una resolución más alta, lo que garantiza una salida más realista y profesional.

Las capacidades de renderizado de texto también han mejorado sustancialmente. Donde las versiones anteriores de DALL-E producían texto sin sentido, DALL-E 3 ahora puede generar letra legible y con estilo profesional (a veces), e incluso logotipos limpios en ocasiones.

La comprensión del modelo de solicitudes de imagen complejas y matizadas ha mejorado significativamente. DALL-E 3 ahora puede seguir descripciones detalladas con precisión, incluso en escenarios con múltiples elementos y instrucciones específicas, demostrando su capacidad para producir imágenes coherentes y bien compuestas. Exploraremos algunas solicitudes y la salida correspondiente que obtuvimos:

Diseña el embalaje para una línea de tés orgánicos. Incluye espacio para el nombre del producto y la descripción.

Imágenes de DALL-E 3 basadas en solicitudes de texto

Imágenes de DALL-E 3 basadas en solicitudes de texto (Nota que el póster de la izquierda tiene errores de ortografía)

Crea un banner web que anuncie una venta de verano en muebles de exterior. La imagen debe tener un entorno de playa con diferentes piezas de muebles de exterior, y texto que anuncie 'Grandes ahorros de verano!'

Imágenes de DALL-E 3 basadas en solicitudes de texto

Imágenes de DALL-E 3 basadas en solicitudes de texto

Un póster de viaje vintage de París con texto estilizado y audaz que diga 'Visita París' en la parte inferior.

Imágenes de DALL-E 3 basadas en solicitudes de texto

Imágenes de DALL-E 3 basadas en solicitudes de texto (Nota que ambos pósters tienen errores de ortografía)

Una escena concurrida del festival de Diwali en la India, con familias encendiendo lámparas, fuegos artificiales en el cielo y dulces y decoraciones tradicionales.

Imágenes de DALL-E 3 basadas en solicitudes de texto

Imágenes de DALL-E 3 basadas en solicitudes de texto

Una escena concurrida de un mercado en la antigua Roma, con personas vestidas con ropa de la época, varios productos a la venta y arquitectura de la época.

Imágenes de DALL-E 3 basadas en solicitudes de texto

Imágenes de DALL-E 3 basadas en solicitudes de texto

Genera una imagen de una figura histórica famosa, como Cleopatra o Leonardo da Vinci, colocada en un entorno contemporáneo, utilizando tecnología moderna como teléfonos inteligentes o portátiles.

Imágenes de DALL-E 3 basadas en solicitudes de texto

Imágenes de DALL-E 3 basadas en solicitudes de texto

Limitaciones y riesgos de DALL-E 3

OpenAI ha tomado medidas significativas para filtrar contenido explícito de los datos de entrenamiento de DALL-E 3, con el objetivo de reducir sesgos y mejorar la salida del modelo. Esto incluye la aplicación de filtros específicos para categorías de contenido sensible y una revisión de umbrales para filtros más amplios. La pila de mitigación también incluye varias capas de salvaguardia, como mecanismos de negación en ChatGPT para temas sensibles, clasificadores de entrada de solicitud para prevenir violaciones de políticas, listas de bloqueo para categorías de contenido específicas y transformaciones para garantizar que las solicitudes se alineen con las pautas.

A pesar de sus avances, DALL-E 3 tiene limitaciones en la comprensión de relaciones espaciales, el renderizado de texto largo con precisión y la generación de imágenes específicas. OpenAI reconoce estos desafíos y está trabajando en mejoras para versiones futuras.

La empresa también está trabajando en formas de diferenciar las imágenes generadas por IA de las creadas por humanos, reflejando su compromiso con la transparencia y el uso responsable de la IA.

DALL·E

DALL·E 3

DALL-E 3, la versión más reciente, estará disponible en fases, comenzando con grupos de clientes específicos y expandiéndose más adelante a laboratorios de investigación y servicios de API. Sin embargo, una fecha de lanzamiento pública gratuita no ha sido confirmada aún.

OpenAI está estableciendo un nuevo estándar en el campo de la IA con DALL-E 3, uniendo de manera fluida capacidades técnicas complejas y interfaces de usuario amigables. La integración de DALL-E 3 en plataformas ampliamente utilizadas como Bing refleja un cambio de aplicaciones especializadas a formas más amplias y accesibles de entretenimiento y utilidad.

El verdadero juego cambia en los próximos años probablemente será el equilibrio entre innovación y empoderamiento del usuario. Las empresas que prosperen serán aquellas que no solo empujen los límites de lo que la IA puede lograr, sino que también brinden a los usuarios la autonomía y el control que desean. OpenAI, con su compromiso con la IA ética, está navegando este camino con cuidado. El objetivo es claro: crear herramientas de IA que no solo sean poderosas, sino también confiables e inclusivas, asegurando que los beneficios de la IA sean accesibles para todos.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del Aprendizaje Automático y el Aprendizaje Profundo. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad continua también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.