talón IA generativa: la idea detrás de CHATGPT, Dall-E, Midjourney y más - Unite.AI
Contáctanos

Inteligencia artificial

IA generativa: la idea detrás de CHATGPT, Dall-E, Midjourney y más

mm
Actualizado on
IA generativa: aviso a mitad de camino

El mundo del arte, la comunicación y cómo percibimos la realidad se está transformando rápidamente. Si miramos hacia atrás en la historia de la innovación humana, podríamos considerar la invención de la rueda o el descubrimiento de la electricidad como saltos monumentales. Hoy, se está produciendo una nueva revolución: cerrar la brecha entre la creatividad humana y la computación de las máquinas. Eso es IA generativa.

Los modelos generativos han desdibujado la línea entre humanos y máquinas. Con la llegada de modelos como GPT-4, que emplea módulos transformadores, nos hemos acercado más a la generación de lenguaje natural y rico en contexto. Estos avances han impulsado aplicaciones en la creación de documentos, sistemas de diálogo de chatbot e incluso composición musical sintética.

Las decisiones recientes de Big-Tech subrayan su importancia. Microsoft ya está descontinuando su aplicación Cortana este mes para priorizar las innovaciones más recientes de IA generativa, como Bing Chat. Apple también ha dedicado una parte importante de su $ 22.6 mil millones de presupuesto de I + D a la IA generativa, según indica el CEO Tim Cook.

Una nueva era de modelos: generativo vs. Discriminatorio

La historia de la IA generativa no se trata solo de sus aplicaciones, sino fundamentalmente de su funcionamiento interno. En el ecosistema de la inteligencia artificial existen dos modelos: discriminativo y generativo.

Los modelos discriminatorios son lo que la mayoría de la gente encuentra en la vida diaria. Estos algoritmos toman datos de entrada, como un texto o una imagen, y los emparejan con una salida de destino, como una traducción de palabras o un diagnóstico médico. Se trata de mapeo y predicción.

Los modelos generativos, por otro lado, son creadores. No solo interpretan o predicen; generan resultados nuevos y complejos a partir de vectores de números que a menudo ni siquiera están relacionados con los valores del mundo real.

 

Tipos de IA generativa: texto a texto, texto a imagen (GPT, DALL-E, Midjourney)

Las tecnologías detrás de los modelos generativos

Los modelos generativos deben su existencia a redes neuronales profundas, estructuras sofisticadas diseñadas para imitar la funcionalidad del cerebro humano. Al capturar y procesar variaciones multifacéticas en los datos, estas redes sirven como la columna vertebral de numerosos modelos generativos.

¿Cómo cobran vida estos modelos generativos? Por lo general, se construyen con redes neuronales profundas, optimizadas para capturar las variaciones multifacéticas de los datos. Un excelente ejemplo es el Red de Publicidad Generativa (GAN), donde dos redes neuronales, la generadora y la discriminadora, compiten y aprenden una de la otra en una relación única profesor-alumno. Desde las pinturas hasta la transferencia de estilos, desde la composición musical hasta los juegos, estos modelos evolucionan y se expanden de formas que antes eran inimaginables.

Esto no se detiene con las GAN. Autoencoders variacionales (VAEs), son otro jugador fundamental en el campo del modelo generativo. Los VAE destacan por su capacidad para crear imágenes fotorrealistas a partir de números aparentemente aleatorios. ¿Cómo? El procesamiento de estos números a través de un vector latente da nacimiento al arte que refleja las complejidades de la estética humana.

Tipos de IA generativa: texto a texto, texto a imagen

Transformadores y LLM

El papel "La atención es todo lo que necesitas” de Google Brain marcó un cambio en la forma en que pensamos sobre el modelado de texto. En lugar de arquitecturas complejas y secuenciales como las redes neuronales recurrentes (RNN) o las redes neuronales convolucionales (CNN), el modelo Transformer introdujo el concepto de atención, que esencialmente significaba centrarse en diferentes partes del texto de entrada según el contexto. Uno de los principales beneficios de esto fue la facilidad de paralelización. A diferencia de los RNN que procesan texto de forma secuencial, lo que los hace más difíciles de escalar, Transformers puede procesar partes del texto simultáneamente, lo que hace que el entrenamiento sea más rápido y eficiente en grandes conjuntos de datos.

En un texto extenso, no todas las palabras u oraciones que lees tienen la misma importancia. Algunas partes exigen más atención según el contexto. Esta capacidad de cambiar nuestro enfoque en función de la relevancia es lo que imita el mecanismo de atención.

Para entender esto, piense en una oración: "Unite AI Publish AI and Robotics news". Ahora, predecir la siguiente palabra requiere una comprensión de lo que más importa en el contexto anterior. El término 'Robótica' podría sugerir que la siguiente palabra podría estar relacionada con un avance o evento específico en el campo de la robótica, mientras que 'Publicar' podría indicar que el siguiente contexto podría profundizar en una publicación o artículo reciente.

Explicación del mecanismo de autoatención en una oración de demostración
Ilustración de autoatención

Los mecanismos de atención en Transformers están diseñados para lograr este enfoque selectivo. Miden la importancia de las diferentes partes del texto de entrada y deciden dónde "mirar" al generar una respuesta. Esta es una desviación de las arquitecturas más antiguas, como las RNN, que intentaron concentrar la esencia de todo el texto de entrada en un único "estado" o "memoria".

El funcionamiento de la atención se puede comparar con un sistema de recuperación de valores clave. Al tratar de predecir la siguiente palabra en una oración, cada palabra precedente ofrece una "clave" que sugiere su relevancia potencial y, en función de qué tan bien estas claves coincidan con el contexto (o consulta) actual, aportan un "valor" o peso a la predicción.

Estos modelos avanzados de aprendizaje profundo de IA se han integrado a la perfección en varias aplicaciones, desde las mejoras del motor de búsqueda de Google con BERT hasta Copilot de GitHub, que aprovecha la capacidad de los modelos de lenguaje grande (LLM) para convertir fragmentos de código simples en códigos fuente totalmente funcionales.

Los modelos de lenguaje grande (LLM) como GPT-4, Bard y LLaMA son construcciones colosales diseñadas para descifrar y generar lenguaje humano, código y más. Su inmenso tamaño, que va desde miles de millones a billones de parámetros, es una de las características definitorias. Estos LLM se alimentan con grandes cantidades de datos de texto, lo que les permite comprender las complejidades del lenguaje humano. Una característica llamativa de estos modelos es su aptitud para “pocos disparos" aprendiendo. A diferencia de los modelos convencionales que necesitan grandes cantidades de datos de entrenamiento específicos, los LLM pueden generalizar a partir de un número muy limitado de ejemplos (o "tomas").

Estado de los modelos de lenguaje grande (LLM) a partir de mediados de 2023

Nombre de ModeloDeveloperparámetrosDisponibilidad y accesoCaracterísticas y comentarios notables
GPT-4OpenAI1.5 billonesNo de código abierto, solo acceso APIImpresionante rendimiento en una variedad de tareas puede procesar imágenes y texto, longitud máxima de entrada 32,768 tokens
GPT-3OpenAIMás de 175 mil millonesNo de código abierto, solo acceso APICapacidades demostradas de aprendizaje de pocos disparos y cero disparos. Realiza la finalización de texto en lenguaje natural.
BLOOMgran cienciaMás de 176 mil millonesModelo descargable, API alojada disponibleLLM multilingüe desarrollado por la colaboración global. Admite 13 lenguajes de programación.
LAMDAGoogleMás de 173 mil millonesNo de código abierto, sin API o descargaEntrenado en el diálogo podría aprender a hablar de prácticamente cualquier cosa.
MT-NLGNVIDIA/MicrosoftMás de 530 mil millonesAcceso API por aplicaciónUtiliza la arquitectura Megatron basada en transformadores para varias tareas de NLP.
LlamaMeta IA7B a 65B)Descargable por aplicaciónPretende democratizar la IA al ofrecer acceso a aquellos en investigación, gobierno y academia.

¿Cómo se utilizan los LLM?

Los LLM se pueden usar de varias maneras, que incluyen:

  1. Utilización directa: Simplemente usando un LLM pre-entrenado para la generación o el procesamiento de texto. Por ejemplo, usar GPT-4 para escribir una publicación de blog sin ningún ajuste adicional.
  2. Ajuste fino: adaptar un LLM previamente capacitado para una tarea específica, un método conocido como aprendizaje por transferencia. Un ejemplo sería personalizar T5 para generar resúmenes de documentos de una industria específica.
  3. Recuperación de información: uso de LLM, como BERT o GPT, como parte de arquitecturas más grandes para desarrollar sistemas que puedan obtener y categorizar información.
Ajuste fino generativo de AI ChatGPT
Arquitectura de ajuste fino de ChatGPT

Atención de múltiples cabezas: ¿Por qué una cuando puedes tener muchas?

Sin embargo, depender de un solo mecanismo de atención puede ser limitante. Diferentes palabras o secuencias en un texto pueden tener varios tipos de relevancia o asociaciones. Aquí es donde entra en juego la atención de múltiples cabezas. En lugar de un conjunto de pesos de atención, la atención de múltiples cabezas emplea múltiples conjuntos, lo que permite que el modelo capture una variedad más rica de relaciones en el texto de entrada. Cada "cabeza" de atención puede enfocarse en diferentes partes o aspectos de la entrada, y su conocimiento combinado se usa para la predicción final.

ChatGPT: la herramienta de IA generativa más popular

A partir del inicio de GPT en 2018, el modelo se construyó esencialmente sobre la base de 12 capas, 12 cabezas de atención y 120 millones de parámetros, entrenados principalmente en un conjunto de datos llamado BookCorpus. Este fue un comienzo impresionante, que ofreció un vistazo al futuro de los modelos lingüísticos.

GPT-2, presentado en 2019, se cuadruplicó en capas y cabezas de atención. Significativamente, su recuento de parámetros se disparó a 1.5 millones. Esta versión mejorada derivó su entrenamiento de WebText, un conjunto de datos enriquecido con 40 GB de texto de varios enlaces de Reddit.

GPT-3, lanzado en mayo de 2020, tenía 96 capas, 96 cabezas de atención y un recuento de parámetros masivo de 175 mil millones. Lo que diferenció a GPT-3 fueron sus diversos datos de entrenamiento, que abarcan CommonCrawl, WebText, Wikipedia en inglés, corpus de libros y otras fuentes, que se combinan para un total de 570 GB.

Las complejidades del funcionamiento de ChatGPT siguen siendo un secreto muy bien guardado. Sin embargo, se sabe que un proceso denominado "aprendizaje de refuerzo a partir de la retroalimentación humana" (RLHF) es fundamental. Con origen en un proyecto anterior de ChatGPT, esta técnica fue fundamental para perfeccionar el modelo GPT-3.5 para que estuviera más alineado con las instrucciones escritas.

La capacitación de ChatGPT comprende un enfoque de tres niveles:

  1. Ajuste fino supervisado: implica seleccionar entradas y salidas conversacionales escritas por humanos para refinar el modelo GPT-3.5 subyacente.
  2. Modelado de recompensas: los humanos clasifican varios resultados del modelo en función de la calidad, lo que ayuda a entrenar un modelo de recompensa que califica cada resultado teniendo en cuenta el contexto de la conversación.
  3. Aprendizaje por refuerzo: El contexto conversacional sirve como telón de fondo donde el modelo subyacente propone una respuesta. Esta respuesta se evalúa mediante el modelo de recompensa y el proceso se optimiza mediante un algoritmo denominado optimización de política proximal (PPO).

Para aquellos que simplemente se sumergen en ChatGPT, se puede encontrar una guía de inicio completa esta página. Si está buscando profundizar en la ingeniería de avisos con ChatGPT, también tenemos una guía avanzada que ilustra las técnicas de avisos más recientes y de última generación, disponible en 'ChatGPT e ingeniería de avisos avanzada: impulsando la evolución de la IA'.

Modelos de difusión y multimodales

Mientras que modelos como VAE y GAN generan sus salidas a través de un solo paso, por lo tanto, bloqueados en lo que sea que produzcan, los modelos de difusión han introducido el concepto de 'refinamiento iterativo'. A través de este método, regresan, refinan los errores de los pasos anteriores y producen gradualmente un resultado más pulido.

Central a los modelos de difusión es el arte de “corrupción” y “refinamiento”. En su fase de entrenamiento, una imagen típica se corrompe progresivamente al agregar niveles variables de ruido. Esta versión ruidosa luego se alimenta al modelo, que intenta 'eliminar el ruido' o 'descorromperlo'. A través de múltiples rondas de esto, el modelo se vuelve experto en restauración, entendiendo las aberraciones sutiles y significativas.

IA generativa: aviso a mitad de camino
Imagen generada a partir de Midjourney

El proceso de generar nuevas imágenes después del entrenamiento es intrigante. Comenzando con una entrada completamente aleatoria, se refina continuamente usando las predicciones del modelo. La intención es lograr una imagen prístina con el mínimo número de pasos. El control del nivel de corrupción se realiza a través de un “programa de ruido”, un mecanismo que rige cuánto ruido se aplica en las diferentes etapas. Un programador, como se ve en bibliotecas como “difusores“, dicta la naturaleza de estas ruidosas interpretaciones basadas en algoritmos establecidos.

Una columna vertebral arquitectónica esencial para muchos modelos de difusión es el Unet—una red neuronal convolucional diseñada para tareas que requieren resultados que reflejen la dimensión espacial de las entradas. Es una combinación de capas de reducción y aumento de resolución, estrechamente conectadas para retener datos de alta resolución, fundamental para los resultados relacionados con imágenes.

Profundizando en el ámbito de los modelos generativos, OpenAI's DALL-E2 surge como un brillante ejemplo de la fusión de capacidades de IA textuales y visuales. Emplea una estructura de tres niveles:

DALL-E 2 presenta una arquitectura triple:

  1. Codificador de texto: transforma el mensaje de texto en una incrustación conceptual dentro de un espacio latente. Este modelo no parte de cero. Se apoya en el Pre-entrenamiento de imagen-lenguaje contrastivo de OpenAI (CLIP) conjunto de datos como base. CLIP sirve como puente entre los datos visuales y textuales mediante el aprendizaje de conceptos visuales utilizando lenguaje natural. A través de un mecanismo conocido como aprendizaje contrastivo, identifica y relaciona imágenes con sus correspondientes descripciones textuales.
  2. El anterior: la incrustación de texto derivada del codificador se convierte luego en una incrustación de imagen. DALL-E 2 probó métodos autorregresivos y de difusión para esta tarea, y este último mostró resultados superiores. Los modelos autorregresivos, como se ve en Transformers y PixelCNN, generan salidas en secuencias. Por otro lado, los modelos de difusión, como el que se usa en DALL-E 2, transforman el ruido aleatorio en incrustaciones de imágenes predichas con la ayuda de incrustaciones de texto.
  3. El decodificador: el clímax del proceso, esta parte genera el resultado visual final basado en el mensaje de texto y la imagen incrustada de la fase anterior. El decodificador de DALL.E 2 debe su arquitectura a otro modelo, PLANEO, que también puede producir imágenes realistas a partir de señales textuales.
Arquitectura del modelo DALL-E (modelo múltiple de difusión)
Arquitectura simplificada del modelo DALL-E

Usuarios de Python interesados ​​en cadena larga debe consultar nuestro tutorial detallado que cubre todo, desde los fundamentos hasta las técnicas avanzadas.

Aplicaciones de la IA Generativa

Dominios textuales

Comenzando con el texto, la IA generativa ha sido alterada fundamentalmente por chatbots como ChatGPT. Estas entidades, que dependen en gran medida del procesamiento del lenguaje natural (NLP) y de los grandes modelos de lenguaje (LLM), están facultadas para realizar tareas que van desde la generación de código y la traducción de idiomas hasta el resumen y el análisis de sentimientos. ChatGPT, por ejemplo, ha experimentado una adopción generalizada y se ha convertido en un elemento básico para millones. Esto se ve reforzado aún más por plataformas de IA conversacionales, basadas en LLM como GPT-4, Palmeray BLOOM, que producen texto sin esfuerzo, ayudan en la programación e incluso ofrecen razonamiento matemático.

Desde una perspectiva comercial, estos modelos se están volviendo invaluables. Las empresas los emplean para una gran variedad de operaciones, incluida la gestión de riesgos, la optimización del inventario y las demandas de previsión. Algunos ejemplos notables incluyen Bing AI, BARD de Google y la API de ChatGPT.

Arte

El mundo de las imágenes ha experimentado transformaciones dramáticas con la IA generativa, particularmente desde la introducción de DALL-E 2 en 2022. Esta tecnología, que puede generar imágenes a partir de indicaciones textuales, tiene implicaciones tanto artísticas como profesionales. Por ejemplo, midjourney ha aprovechado esta tecnología para producir imágenes impresionantemente realistas. Esta publicación reciente desmitifica Midjourney en una guía detallada, aclarando tanto la plataforma como sus oportunas complejidades de ingeniería. Además, plataformas como Alpaca AI y Photoroom AI utilizan IA generativa para funcionalidades avanzadas de edición de imágenes, como eliminación de fondo, eliminación de objetos e incluso restauración de rostros.

Video Producción

La producción de video, aunque aún se encuentra en su etapa inicial en el ámbito de la IA generativa, muestra avances prometedores. Plataformas como Imagen Video, Meta Make A Video y Runway Gen-2 están empujando los límites de lo que es posible, incluso si todavía hay resultados verdaderamente realistas en el horizonte. Estos modelos ofrecen una utilidad sustancial para crear videos humanos digitales, con aplicaciones como Synthesia y SuperCreator a la cabeza. En particular, Tavus AI ofrece una propuesta de venta única al personalizar videos para miembros individuales de la audiencia, una bendición para las empresas.

Creación de código

La codificación, un aspecto indispensable de nuestro mundo digital, no ha permanecido al margen de la IA generativa. Aunque ChatGPT es una herramienta favorita, se han desarrollado varias otras aplicaciones de IA con fines de codificación. Estas plataformas, como GitHub Copilot, Alphacode y CodeComplete, sirven como asistentes de codificación e incluso pueden producir código a partir de indicaciones de texto. Lo intrigante es la adaptabilidad de estas herramientas. Codex, la fuerza impulsora detrás de GitHub Copilot, se puede adaptar al estilo de codificación de un individuo, lo que subraya el potencial de personalización de la IA generativa.

Conclusión

Al combinar la creatividad humana con el cómputo de las máquinas, se ha convertido en una herramienta invaluable, con plataformas como ChatGPT y DALL-E 2 que superan los límites de lo concebible. Desde la elaboración de contenido textual hasta la escultura de obras maestras visuales, sus aplicaciones son amplias y variadas.

Como con cualquier tecnología, las implicaciones éticas son primordiales. Si bien la IA generativa promete una creatividad ilimitada, es crucial emplearla de manera responsable, siendo consciente de los posibles sesgos y el poder de la manipulación de datos.

Con herramientas como ChatGPT cada vez más accesibles, ahora es el momento perfecto para probar las aguas y experimentar. Ya sea que sea un artista, programador o entusiasta de la tecnología, el reino de la IA generativa está lleno de posibilidades que esperan ser exploradas. La revolución no está en el horizonte; es aquí y ahora. Entonces, ¡Sumérgete!

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.