Ingeniería rápida

Dominar el arte de la IA: una guía concisa para la ingeniería rápida y a mitad de camino

Publicado 27 Julio 2023

Actualizado 23 de Abril de 2024

Aayush Mittal Mittal

LOGOTIPO UNITE AI generado a mitad de camino

Introducción al arte generado por IA de MidJourney

AI está rompiendo rápidamente las barreras de la imposibilidad y recientemente ha invadido el dominio del arte, transformándolo por completo. Ahora, no necesita ser un maestro artista o un experto en Photoshop para dar vida a las creaciones de su imaginación. Un aviso simple y bien articulado es todo lo que necesita, gracias a Midjourney.

Todo comenzó con la introducción de tecnologías innovadoras como DALL-E, Midjourney y StableDiffusion en 2022. Si bien cada una de estas innovaciones aportó su toque distintivo al lienzo de IA generativa, Midjourney, en particular, ha continuado su fascinante viaje, haciendo pasos notables.

Midjourney es actualmente el generador de IA de texto a imagen de alta resolución líder en el mercado y se destaca con su combinación única de generación de texto a imagen, edición y mejora de medios, y acceso a la comunidad artística activa, todo desde $ 10 por mes. Este completo conjunto de características presenta un lienzo emocionante para artistas, entusiastas de la tecnología y profesionales de la IA por igual, creando un entorno para la creatividad y la innovación.

El mundo del arte ciertamente está tomando nota, con la IA generativa en el mercado del arte proyectada para presenciar un crecimiento asombroso de 40.5% CAGR. Midjourney no tiene rival en la creación de las imágenes más realistas y de alta calidad utilizando IA.

La ingeniería rápida eficaz va más allá de la mera creación; abarca las mejores prácticas. Las indicaciones deben ofrecer claridad y ser concisas, pero proporcionar a la IA suficiente orientación sin una prescripción excesiva. Además, el público objetivo debe ser considerado durante el diseño, teniendo en cuenta variables como la edad, el género y el origen cultural, entre otros.

¿Cómo funciona MidJourney?

Mid-Journey aprovecha dos nuevas tecnologías de aprendizaje automático: lenguaje grande y modelos de difusión. El modelo de lenguaje, similar a los chatbots de IA como ChatGPT, ayuda a Mid-Journey a interpretar el significado de sus indicaciones y convertirlas en vectores. Este vector luego guía el proceso de difusión.

El funcionamiento interno de Midjourney es en gran parte desconocido. Sin embargo, es evidente que utiliza la generación de texto a imagen a partir de dos tecnologías de aprendizaje automático relativamente novedosas: modelos de lenguaje extenso y modelos de difusión. El primero quizás sea familiar para los usuarios de plataformas de IA como ChatGPT, y el segundo es una incorporación prometedora al sector de la generación de arte con IA. Todo el sistema se basa en... CLIP conjunto de datos para entrenamiento, que se puede encontrar en la página de investigación de OpenAI.

A pesar de la información limitada, es posible esbozar un panorama general de Midjourney. modelo de difusión, acertadamente llamado "Difusión Estable". En esencia, Difusión Estable es un modelo de código abierto que transforma hábilmente las indicaciones de texto en imágenes de diversos estilos y contenido. Este sofisticado procedimiento se logra mediante un modelo de difusión, un modelo generativo que conecta las dependencias entre las entradas de texto y las salidas de imagen.

Los modelos de difusión se construyen sobre la base del método Denoising Diffusion, un enfoque influenciado por la termodinámica de no equilibrio. Este método desmantela sistemáticamente la estructura de los datos y luego la restaura. Este enfoque fue adaptado para la generación de imágenes por Ho et al. en 2020, lo que lleva al inicio de los modelos de difusión que vemos hoy.

Los modelos de difusión del entrenamiento implican dos etapas principales. Inicialmente, el proceso directo o de difusión implica la adición incremental de ruido aleatorio a la imagen de entrada hasta que se transforma por completo en ruido. Este proceso se rige por una cadena de Markov fija, que agrega constantemente ruido gaussiano en varios pasos sucesivos.

Posteriormente, en la fase inversa o de reconstrucción, el modelo restaura los datos originales a partir del estado dominado por el ruido alcanzado en el proceso de difusión. Este proceso se basa en una cadena de Markov con transiciones gaussianas aprendidas, lo que implica que la predicción de la densidad de probabilidad en un momento dado depende únicamente del estado alcanzado en el paso de tiempo anterior. Dado que las variables latentes «x1, …, xT» comparten la misma dimensionalidad que los datos, los modelos de difusión se clasifican como modelos de variables latentes.

Costo y Suscripción de Mid-Journey

Si bien muchos chatbots como ChatGPT y Bing Chat ofrecen un uso casi ilimitado de forma gratuita, la situación es diferente para generadores de imágenes como Mid-Journey. Debido a la considerable potencia de procesamiento requerida, especialmente de las unidades de procesamiento gráfico (GPU) y el uso de memoria de video para el proceso de eliminación de ruido, el servicio de Mid-Journey incluye... etiqueta de precio.

El plan básico comienza desde $10 por mes, proporcionando alrededor de 3.3 horas de tiempo de GPU, suficiente para aproximadamente 200 generaciones de imágenes. Sin embargo, hay planes de gama alta que ofrecen imágenes ilimitadas en modo Relajado, aunque con un tiempo de espera más largo.

Configuración de su mitad de viaje

A partir de MidJourney implica registrarse en su sitio web oficial, suscribirse a un plan y luego ser redirigido a Discord.
Una vez que localice el canal Mid-Journey en Discord, navegue hasta los Grupos de recién llegados en el lado izquierdo. Desde allí, puede observar a otros usuarios creando avisos, aprender la mecánica de Mid-Journey e interactuar en un entorno bullicioso.
Después de familiarizarse con el entorno, invite al bot a su servidor privado para crear imágenes sin interrupciones. El bot genera cuatro imágenes de vista previa en función de su mensaje, lo que le permite seleccionar la coincidencia más cercana a su idea original y refinar aún más la imagen.

Estructura rápida para Midjourney

El comando /imaginar en un canal de Discord dentro del canal Midjourney genera una imagen única a partir de una breve descripción de texto (Prompt).
Para recrear un estilo específico en varias imágenes, simplemente ingrese la URL de la imagen junto con el mensaje de texto. Sus resultados nuevos y consistentes fusionarán elementos tanto de la imagen como del texto elegidos.
/imagina http://enlace-a-tu-imagen –parámetro1 –parámetro2
Puedes generar un enlace a tu imagen subiéndola al canal de Discord. Una vez subida, haz clic derecho en la imagen y selecciona "Copiar enlace".
Aquí http://link-to-your-image y los parámetros son opcionales.
Después de esto, el Bot se pone a trabajar en su imagen y tarda aproximadamente un minuto en ofrecer cuatro alternativas. Este proceso implica el uso de unidades de procesamiento de gráficos (GPU) sólidas para procesar e interpretar cada solicitud.
Monitorea el uso de tu GPU con el comando /info. Esto te permite consultar tu tiempo de carga rápida restante y supervisar el tiempo de GPU de tu suscripción.

Ampliación de imagen y alteraciones

Para una imagen más refinada, use los botones "U" debajo de las imágenes para ampliar la imagen a su elección. También puede usar los botones "V" para realizar ajustes en imágenes específicas. Para realizar más cambios en una imagen ampliada, use las opciones "Realizar variaciones", "Rehacer ampliación ligera" y "Rehacer ampliación beta". El botón "Web" le permite ver la imagen a mayor tamaño en una ventana independiente.

Midjourney permite escalar imágenes a resoluciones de 2048 × 2048 (cuadrado) y 2720 × 1530 (pantalla panorámica) a través de su función de rehacer de escala beta, con un tamaño de cuadrícula de generación predeterminado de 1024 × 1024 (cuadrado) y 1456 × 816 (pantalla panorámica). Cada imagen se puede mejorar aún más a través de las opciones de escalado "U", que mejoran partes específicas de la imagen.

Eche un vistazo a este mensaje que produce ilustraciones fantásticas con la versión V5.2 de Midjourney.

/imagine La obra de arte retrata un árbol solitario bajo un cielo estrellado, con un niño leyendo debajo, en tonos de azul sereno y naranja cálido, inspirado en las pinceladas del impresionismo francés, las miniaturas persas, la simplicidad de la Bauhaus, evocando las ilustraciones clásicas de los cuentos de hadas infantiles, logrando una armonía asimétrica, expresada en un encantador, folclórico/ingenuo: –ar 15:19 –upbeta –q 2

Creando tu primer arte de IA a mitad de camino

Elaboración del plano básico: Considérate un artista. Comienza con una descripción sencilla y vívida de la imagen que quieres plasmar. Describe el tema principal, la atmósfera o incluso los detalles más sutiles que deseas incorporar. Usa puntuación como comas, corchetes y guiones para estructurar tus ideas. Para obtener mejores resultados, sé explícito sobre el contexto y los detalles de tu diseño. Elementos como el tema (p. ej., dragón, coche clásico, Abraham Lincoln), el medio (p. ej., arte digital, boceto a lápiz), el entorno (p. ej., espacio exterior, submarino, ciudad bulliciosa), la iluminación (p. ej., suave, neón, retroiluminada), el color (p. ej., tonos tierra, vibrante, apagado), el ambiente (p. ej., melancólico, caprichoso, tranquilo) y la composición (p. ej., paisaje, primer plano, gran angular) pueden ser cruciales. Ejemplos:
- Un bosque idílico bañado por la luz del sol, un sendero serpenteando en la distancia
- Una ciudad que nunca duerme, con luces de neón reflejándose en las aceras y una multitud diversa dando vueltas
Infundiendo estilo y palabras clave: La IA de Midjourney es capaz de ilustrar imágenes en una gran variedad de estilos, como abstracto, surrealista o realista. Al integrar un estilo o palabras clave relacionadas, puedes guiar a la IA para crear una imagen que refleje tu visión. Experimenta con varios estilos y palabras clave para encontrar la combinación perfecta. Ejemplos:
- Una pintura de paisaje que representa un desierto al amanecer, que refleja el estilo de Georgia O'Keeffe, con una paleta de colores pastel y formas orgánicas.
- Una representación abstracta de un bosque tranquilo, con patrones geométricos que forman árboles y follaje, inspirada en las composiciones de Piet Mondrian.
Aprovechamiento de la configuración avanzada: Considere Midjourney como su caja de herramientas creativa, repleta de configuraciones avanzadas que le permiten ajustar las imágenes generadas. Es como manejar una varita mágica, permitiéndote conjurar el equilibrio ideal de aleatoriedad, estilización y variación de imagen. Dé rienda suelta a su destreza creativa jugando con estos ajustes hasta que encuentre la combinación perfecta que resuene con su visión. Ejemplos:
- Un sereno jardín japonés con un estanque que refleja los cerezos en flor –seed 22 –s 150 –c 40
- Una ciudad cyberpunk distópica, iluminada por luces de neón –seed 88 –s 600 –c 60
Resaltar elementos con pesos: visualice su imagen como una sinfonía, con cada elemento contribuyendo al gran conjunto. Usando la notación "::", puede dictar el significado de varios elementos en su imagen, lo que le permite controlar el foco. Ejemplos:
- [Un pavo real elegante]::3 posado en un [árbol de glicinia]::1 floreciendo con flores vibrantes
- [Un elefante majestuoso]::2 disfrutando del resplandor de un [sol poniente]::1 en la sabana
Midjourney es el proceso de prueba y error: es necesario experimentar con diferentes elementos y características. Cada iteración lo acercará a la imagen que imaginó dar vida.

Parámetros de medio viaje

El modelo de Midjourney opera usando parámetros ajustables que controlan el resultado del proceso de generación de imágenes. Estos parámetros permiten a los usuarios modificar y adaptar su arte generado, ajustando el modelo para crear resultados que se adapten perfectamente a su objetivo.

A continuación se muestran los parámetros básicos y avanzados, sus funciones y cómo usarlos para aprovechar al máximo las capacidades de Midjourney:

Relaciones de aspecto (–aspect o –ar): este parámetro controla la relación entre el ancho y el alto de la imagen generada. Por ejemplo, una proporción de 16:9 es perfecta para las miniaturas de YouTube, mientras que 1:1 produce una imagen cuadrada ideal para Instagram.
Caos (–chaos): este parámetro ajusta la diversidad de la cuadrícula de imagen inicial y varía de 0 a 100. Los valores de caos más altos le darán resultados impredecibles y únicos, mientras que los valores más bajos garantizarán resultados más consistentes.
No (–no): este parámetro le ayuda a eliminar elementos o características específicas de la imagen generada. Por ejemplo, si desea una imagen sin rojo, puede usar “–sin rojo”.
Calidad (–calidad o –q): Esta configuración ajusta el tiempo requerido para generar una imagen. Una calidad más alta requiere más tiempo de procesamiento pero produce detalles intrincados. Este parámetro puede tomar valores de .25, .5, 1 o 2.
Seed (–seed): Este parámetro determina el ruido visual inicial, actuando como línea de base para la imagen generada. Usar el mismo número de inicialización con el mismo indicador dará resultados similares. Acepta valores enteros entre 0 y 4294967295.
Detener (–stop): Con este parámetro, puede finalizar un trabajo prematuramente, lo que genera resultados menos detallados, pero potencialmente interesantes. El rango es de 10 a 100. Por ejemplo, si especifica «–stop 50», el proceso de generación de imágenes se detendrá al 50% de finalización, lo que resultará en una imagen menos detallada y posiblemente abstracta.
Estilizar (–stylize o –s): Esto controla el nivel de aplicación artística en la imagen generada. Los valores de estilización más bajos producen resultados más cercanos a la indicación inicial, mientras que los valores más altos dan como resultado interpretaciones más abstractas y artísticas. En v5, el valor predeterminado es 100, pero puede establecerlo entre 0 y 1000.
Versión del modelo: puede seleccionar entre varias versiones del modelo Midjourney utilizando el parámetro –version o –v.
Niji: Una modelo especializada en imágenes de estilo anime. Se puede acceder usando el parámetro –niji.
Definición Highmi: para imágenes abstractas y de paisajes, el parámetro –hd activa una versión anterior del modelo que produce imágenes más grandes y menos consistentes.
Modelos de prueba: Midjourney ofrece modelos especiales para casos de uso específicos. –test y –testp activan los modelos de prueba estándar y centrado en fotografía, respectivamente.
Upscaler: el algoritmo Midjourney comienza con una cuadrícula de imagen de baja resolución. Ofrece varios modelos de ampliación para mejorar el tamaño y los detalles de la imagen.
- Uplight: un escalador de luz alternativo (–uplight) proporciona imágenes mejoradas que son menos detalladas pero más suaves.
- Upbeta: el parámetro –upbeta conduce a imágenes con muchos menos detalles adicionales, manteniéndose más cerca de la imagen de cuadrícula original.
- Upanime: el escalador –upanime está diseñado específicamente para funcionar con el modelo –niji Midjourney.
Peso de la imagen: use –iw para ajustar el peso de la imagen en relación con el peso del texto. El valor predeterminado es 0.25.
Sameseed: el parámetro –sameseed asegura que todas las imágenes en la cuadrícula inicial usen el mismo ruido inicial, creando imágenes generadas muy similares.
Video: Midjourney puede guardar un video de progreso del proceso de generación de la cuadrícula de imágenes inicial utilizando el parámetro –video.
Creative: con el parámetro –creative, los modelos test y testp generan imágenes más variadas y creativas.

Midjourney implementa constantemente actualizaciones para mejorar la experiencia del usuario, siendo la última versión 5.2, lanzada en junio de 2023. Al agregar -v 5.2 a su indicador o seleccionarlo mediante el comando /settings, los usuarios pueden acceder a este modelo avanzado. La versión 5.2 ofrece detalles de imagen superiores y comprende las indicaciones de manera más intuitiva, brindando colores más brillantes y composiciones mejoradas.

Comprender los derechos de autor de las ilustraciones generadas por IA

En marzo de 2023, la Oficina de derechos de autor de EE. UU. aclaró su postura sobre los derechos de autor de Trabajos generados por IA. La política establece que, si bien los elementos hechos por humanos en las creaciones de IA (como escritos o diseños únicos) pueden protegerse, las imágenes producidas por IA no califican para los derechos de autor, adhiriéndose a las normas globales de que solo las creaciones humanas son elegibles para la protección de derechos de autor.

En el contexto del arte con IA, los derechos de autor no son tan sencillos. Mientras que el arte digital cuenta con la participación del artista humano, el arte generado por IA se crea sin intervención humana directa, lo que complica la cuestión de la autoría y la propiedad. Según la Oficina de Derechos de Autor de Estados Unidos, la propiedad inicial se otorga al autor de la obra, un creador humano. Sin embargo, como la IA no puede considerarse autor, el arte generado por IA carece de una propiedad clara.

Las directrices más recientes de la Oficina de Derechos de Autor de EE. UU. permiten la protección de derechos de autor de obras de IA solo cuando contienen suficiente autoría humana. El nivel de "suficiente autoría humana" aún no está definido y depende del grado de participación humana en la creación de la obra de IA.

Curiosamente, Midjourney, una plataforma basada en IA para la creación de imágenes, ha establecido sus propias políticas de derechos de uso. Los usuarios de la prueba gratuita pueden usar las imágenes para fines no comerciales bajo la licencia internacional Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0), con el debido crédito a Midjourney. Sin embargo, los suscriptores de pago pueden utilizar las imágenes para cualquier fin, incluido el comercial, de conformidad con las Condiciones Comerciales Generales. Este desarrollo en el espacio de los derechos de autor presenta una dinámica intrigante entre la IA y la creatividad humana.

Uso de Midjourney para diseños de interfaz de usuario dinámicos y generación de logotipos creativos

Desde el diseño de interfaces de usuario intuitivas para sitios web o aplicaciones móviles hasta la creación de logotipos y pancartas únicos, Midjourney empodera a los creadores de contenido al generar una variedad de alternativas de diseño en segundos.

Así funciona. Cada diseño comienza con una indicación, que actúa como un modelo a seguir para la IA. Imagina que estás diseñando la interfaz de usuario de una plataforma de tutoría en línea. Una indicación típica podría ser: "/imagina una interfaz de usuario de plataforma de tutoría en línea, Dribbble, alta resolución, 4K, como la de Khan Academy".

Los resultados iniciales pueden no dar en el blanco a la perfección. Por ejemplo, agregar "Adobe XD" a la mezcla puede ayudar a Midjourney a adaptar sus diseños para que sean más compatibles con Adobe XD. Un aviso optimizado será:

/imagine Plataforma de tutoría en línea, interfaz de usuario, Adobe XD, Dribbble, alta resolución, 4K, diseño minimalista

Logotipo inspirado en texto o pancartas usando Midjourney

Exploremos cómo crear un banner con un logotipo para UNITE AI.

Primero, debe tener una imagen simple del texto que desea mostrar. Puedes crear esto usando cualquier herramienta de diseño gráfico o editor de texto y subirlo a tu canal de Discord.

: Una imagen simple de texto utilizada para crear el logotipo de UNITE

El aviso para crear el banner es:

/imagina Letras: UNITE en un logotipo tipográfico futurista inspirado en la IA con las letras UNITE –v 5 –ar 16:9

Eche un vistazo a estas indicaciones de ejemplo para obtener más ideas:

/Imagínate Un músico solitario interpretando una melodía serena en una ciudad flotante al atardecer, estilo art nouveau

/imagine Una imagen de una futura persona trabajando en un escritorio futurista, rodeada de pantallas holográficas y tecnología avanzada. La persona lleva puesto un elegante mono plateado y gafas de realidad virtual. El ambiente está lleno de luces de neón y hologramas flotantes. El ambiente es futurista y de alta tecnología, con una sensación de entusiasmo e innovación. La cámara es una cámara digital de alta resolución que captura cada detalle con precisión. El estilo artístico es una mezcla de cyberpunk y minimalismo, con un enfoque en líneas limpias y colores llamativos. Los directores, directores de fotografía, fotógrafos, diseñadores de moda, dibujantes y artistas que colaboran en esta yuxtaposición única son Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki y Kaws.

/imagina la década de 1940: estilo Barbie como una enfermera en tiempos de guerra, en un hospital militar antiguo, atendiendo a los soldados heridos, al estilo de las ilustraciones clásicas de Mattel, con la atmósfera de la fotografía de la Segunda Guerra Mundial en tonos sepia 8k –v 5 –ar 16 :9

/imagine Fotograma de una mujer apoyada en un cyberpunk, hoverbike, anime japonés, paisajes urbanos en expansión, 32k, puerto espacial intrincado, fugaz, panoramas de rascacielos, elegante

Reflexiones finales: Navegando por el mundo del arte de la IA con Midjourney

Recuerda: "Una imagen vale más que mil palabras". Una descripción detallada y vibrante puede hacer maravillas. Si bien Midjourney no es gratuito, está revolucionando el mundo del arte y ampliando nuestras posibilidades creativas gracias a su tecnología de IA de texto a imagen de vanguardia. Con la capacidad de convertir un simple texto en una imagen de alta resolución, es una herramienta que promete un sinfín de oportunidades, no solo para artistas, sino también para diseñadores de UI/UX, entusiastas de la tecnología y profesionales de la IA.

Aquí hay algunos puntos esenciales para recordar mientras se embarca en su aventura Midjourney:

Aprenda los fundamentos de la instrucción Midjourney: utilice descripciones claras, concisas y completas que resuman su visión para guiar a la IA eficazmente. Recuerde considerar a su audiencia y no dude en experimentar con diversos estilos, estados de ánimo y contextos.
Utilice parámetros: mejore su experiencia creativa aprovechando la multitud de configuraciones avanzadas que ofrece Midjourney. Desde el control de la relación de aspecto hasta el ajuste del parámetro de caos para obtener resultados únicos, cada detalle se puede adaptar a sus preferencias.
Adopte el proceso iterativo: es posible que su primera obra de arte generada por IA no sea perfecta. Adopte este proceso iterativo y aprenda a refinar y optimizar sus indicaciones para obtener mejores resultados.
Comprenda las implicaciones de los derechos de autor: si bien las obras de arte generadas por IA en sí mismas no son elegibles para los derechos de autor, los componentes hechos por humanos dentro de ellas pueden protegerse.

En esencia, la integración de la IA en el arte ha democratizado la creatividad y ha desdibujado las líneas entre las obras maestras humanas y las creadas por máquinas. A medida que seguimos siendo testigos del notable crecimiento de la IA generativa en el mercado del arte, es innegable que la revolución del arte de la IA, liderada por plataformas como Midjourney, apenas comienza.

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.

Unir.AI