AGI

El paisaje evolutivo de la inteligencia artificial generativa: una encuesta sobre la mezcla de expertos, la multimodalidad y la búsqueda de la inteligencia artificial general

mm

El campo de la inteligencia artificial (IA) ha experimentado un crecimiento tremendo en 2023. La inteligencia artificial generativa, que se centra en la creación de contenido realista como imágenes, audio, video y texto, ha estado a la vanguardia de estos avances. Modelos como DALL-E 3, Stable Diffusion y ChatGPT han demostrado nuevas capacidades creativas, pero también han planteado preocupaciones sobre la ética, los sesgos y el mal uso.

A medida que la inteligencia artificial generativa continúa evolucionando a un ritmo acelerado, las mezclas de expertos (MoE), el aprendizaje multimodal y las aspiraciones hacia la inteligencia artificial general (IAG) parecen estar configurando las próximas fronteras de la investigación y las aplicaciones. Este artículo proporcionará una encuesta exhaustiva del estado actual y la trayectoria futura de la inteligencia artificial generativa, analizando cómo las innovaciones como el Gemini de Google y los proyectos anticipados como Q* de OpenAI están transformando el panorama. Examinará las implicaciones en el mundo real en áreas como la salud, las finanzas, la educación y otros dominios, al tiempo que surface los desafíos emergentes en torno a la calidad de la investigación y la alineación de la IA con los valores humanos.

El lanzamiento de ChatGPT a finales de 2022 despertó un renovado entusiasmo y preocupaciones sobre la IA, desde su impresionante habilidad en el lenguaje natural hasta su potencial para difundir información errónea. Mientras tanto, el nuevo modelo Gemini de Google demuestra una capacidad conversacional sustancialmente mejorada sobre sus predecesores como LaMDA a través de avances como la atención de pico y slab. Los proyectos rumorizados como Q* de OpenAI sugieren la combinación de la IA conversacional con el aprendizaje por refuerzo.

Estas innovaciones señalan una prioridad cambiante hacia modelos generativos multimodales y versátiles. Las competencias también continúan calentando entre empresas como Google, Meta, Anthropic y Cohere que compiten para empujar los límites en el desarrollo de la IA responsable.

La evolución de la investigación de la IA

A medida que las capacidades han crecido, las tendencias y prioridades de la investigación también han cambiado, a menudo correspondiendo con hitos tecnológicos. El surgimiento del aprendizaje profundo reavivó el interés en las redes neuronales, mientras que el procesamiento del lenguaje natural aumentó con modelos de nivel ChatGPT. Mientras tanto, la atención a la ética persiste como una prioridad constante en medio del progreso rápido.

Los repositorios de preimpresos como arXiv también han visto un crecimiento exponencial en las presentaciones de IA, lo que permite una difusión más rápida pero reduce la revisión por pares y aumenta el riesgo de errores o sesgos no verificados. La interacción entre la investigación y el impacto en el mundo real sigue siendo compleja, lo que requiere esfuerzos más coordinados para dirigir el progreso.

MoE y sistemas multimodales – La próxima ola de la IA generativa

Para permitir modelos de IA más versátiles y sofisticados en diversas aplicaciones, dos enfoques que están ganando prominencia son las mezclas de expertos (MoE) y el aprendizaje multimodal.

Las arquitecturas MoE combinan múltiples redes neuronales especializadas “expertas” optimizadas para diferentes tareas o tipos de datos. El Gemini de Google utiliza MoE para dominar tanto intercambios conversacionales largos como respuestas concisas a preguntas. MoE permite manejar una gama más amplia de entradas sin aumentar el tamaño del modelo.

Los sistemas multimodales como el Gemini de Google están estableciendo nuevos estándares al procesar modalidades variadas más allá del texto. Sin embargo, realizar el potencial de la IA multimodal requiere superar obstáculos técnicos y desafíos éticos clave.

Gemini: Redefiniendo los estándares en multimodalidad

Gemini es una IA conversacional multimodal, diseñada para comprender las conexiones entre texto, imágenes, audio y video. Su estructura de codificador dual, la atención entre modalidades y la decodificación multimodal permiten una comprensión contextual sofisticada. Se cree que Gemini supera a los sistemas de codificador único en la asociación de conceptos textuales con regiones visuales. Al integrar conocimiento estructurado y capacitación especializada, Gemini supera a predecesores como GPT-3 y GPT-4 en:

  • Amplitud de modalidades manejadas, incluyendo audio y video
  • Rendimiento en pruebas como la comprensión del lenguaje masiva
  • Generación de código en varios lenguajes de programación
  • Escalabilidad a través de versiones personalizadas como Gemini Ultra y Nano
  • Transparencia a través de justificaciones para las salidas

Obstáculos técnicos en los sistemas multimodales

Lograr una IA multimodal robusta requiere resolver problemas de diversidad de datos, escalabilidad, evaluación e interpretación. Los conjuntos de datos desequilibrados y las inconsistencias en la anotación conducen a sesgos. El procesamiento de múltiples flujos de datos pone a prueba los recursos computacionales, exigiendo arquitecturas de modelo optimizadas. Se necesitan avances en mecanismos de atención y algoritmos para integrar entradas multimodales contradictorias. Los problemas de escalabilidad persisten debido a la gran sobrecarga computacional. Refinar las métricas de evaluación a través de pruebas exhaustivas es crucial. Mejorar la confianza del usuario a través de la IA explicable también es vital. Abordar estos obstáculos técnicos será clave para desbloquear las capacidades de la IA multimodal.

Técnicas de aprendizaje avanzadas como el aprendizaje auto-supervisado, el meta-aprendizaje y el ajuste fino están a la vanguardia de la investigación de la IA, mejorando la autonomía, la eficiencia y la versatilidad de los modelos de IA.

Aprendizaje auto-supervisado: Autonomía en la capacitación del modelo

El aprendizaje auto-supervisado enfatiza la capacitación autónoma del modelo utilizando datos no etiquetados, reduciendo así los esfuerzos de etiquetado manual y los sesgos del modelo. Incorpora modelos generativos como auto-encoders y GANs para el aprendizaje de la distribución de datos y la reconstrucción de entradas, y utiliza métodos contrastivos como SimCLR y MoCo para diferenciar entre pares de muestras positivas y negativas. Las estrategias de auto-predicción, inspiradas en el NLP y mejoradas por los recientes Vision Transformers, desempeñan un papel significativo en el aprendizaje auto-supervisado, mostrando su potencial para avanzar en las capacidades de capacitación autónoma de la IA.

Meta-aprendizaje

El meta-aprendizaje, o ‘aprendizaje a aprender’, se centra en equipar a los modelos de IA con la capacidad de adaptarse rápidamente a nuevas tareas utilizando muestras de datos limitadas. Esta técnica es crítica en situaciones con disponibilidad de datos limitada, asegurando que los modelos puedan adaptarse y funcionar en una amplia gama de tareas con un mínimo de datos, subrayando su importancia en el desarrollo de sistemas de IA versátiles y adaptables.

Ajuste fino: Personalización de la IA para necesidades específicas

El ajuste fino implica adaptar modelos pre-entrenados a dominios o preferencias de usuario específicas. Sus dos enfoques principales incluyen el ajuste fino de extremo a extremo, que ajusta todos los pesos del codificador y el clasificador, y el ajuste fino de extracción de características, donde los pesos del codificador se congelan para la clasificación posterior. Esta técnica garantiza que los modelos generativos se adapten efectivamente a necesidades o requisitos de dominio específicos del usuario, mejorando su aplicabilidad en diversos contextos.

Alineación de valores humanos: Armonizando la IA con la ética

La alineación de valores humanos se centra en alinear los modelos de IA con la ética y los valores humanos, asegurando que sus decisiones reflejen las normas y estándares éticos de la sociedad. Este aspecto es crucial en escenarios donde la IA interactúa estrechamente con los humanos, como en la atención médica y los asistentes personales, para garantizar que los sistemas de IA tomen decisiones ética y socialmente responsables.

Desarrollo de la IAG

La IAG se centra en desarrollar la IA con la capacidad de comprensión holística y razonamiento complejo, alineándose con las capacidades cognitivas humanas. Esta aspiración a largo plazo continúa empujando los límites de la investigación y el desarrollo de la IA. La seguridad y el control de la IAG abordan los riesgos potenciales asociados con sistemas de IA avanzados, enfatizando la necesidad de protocolos de seguridad rigurosos y una alineación ética con los valores y normas sociales humanas.

La innovadora MoE

La arquitectura del modelo de Mezcla de Expertos (MoE) representa un avance significativo en los modelos de lenguaje basados en transformadores, ofreciendo una escalabilidad y eficiencia sin precedentes. Los modelos MoE, como el Switch Transformer y Mixtral, están redefiniendo rápidamente la escala y el rendimiento del modelo en diversas tareas de lenguaje.

Concepto central

Los modelos MoE utilizan una arquitectura impulsada por la escasez con múltiples redes neuronales especializadas y un mecanismo de puerta trainable, optimizando los recursos computacionales y adaptándose a la complejidad de la tarea. Demuestran ventajas sustanciales en la velocidad de pre-entrenamiento pero enfrentan desafíos en el ajuste fino y requieren una cantidad considerable de memoria para la inferencia.

Los modelos MoE son conocidos por su velocidad de pre-entrenamiento superior, con innovaciones como DeepSpeed-MoE que optimizan la inferencia para lograr una mejor latencia y eficiencia de costo. Los avances recientes han abordado efectivamente el cuello de botella de la comunicación de todos a todos, mejorando la eficiencia de entrenamiento e inferencia.

Ensamblaje de los bloques de construcción para la inteligencia artificial general

La IAG representa la posibilidad hipotética de que la IA iguale o supere la inteligencia humana en cualquier dominio. Aunque la IA moderna sobresale en tareas estrechas, la IAG sigue siendo un objetivo lejano y controvertido dado su potencial riesgo.

Sin embargo, los avances incrementales en áreas como el aprendizaje de transferencia, el entrenamiento multi-tarea, la capacidad conversacional y la abstracción van acercándose gradualmente a la visión ambiciosa de la IAG. El proyecto Q* de OpenAI, aunque especulativo, apunta a integrar el aprendizaje por refuerzo en los modelos de lenguaje como otro paso adelante.

Límites éticos y riesgos de la manipulación de los modelos de IA

Los jailbreaks permiten a los atacantes eludir los límites éticos establecidos durante el proceso de ajuste fino de la IA. Esto resulta en la generación de contenido dañino como la desinformación, el discurso de odio, los correos electrónicos de phishing y el código malicioso, lo que plantea riesgos para los individuos, las organizaciones y la sociedad en general. Por ejemplo, un modelo jailbroken podría producir contenido que promueva narrativas divisivas o apoye actividades cibernéticas delictivas. (Aprende más)

Aunque no ha habido ataques cibernéticos reportados que utilicen jailbreaking, múltiples pruebas de concepto de jailbreak están disponibles en línea y a la venta en la web oscura. Estas herramientas proporcionan instrucciones diseñadas para manipular modelos de IA como ChatGPT, lo que podría permitir a los hackers filtrar información sensible a través de los chatbots de las empresas. La proliferación de estas herramientas en plataformas como foros de cibercrimen destaca la urgencia de abordar esta amenaza. (Lee más)

Mitigación de los riesgos de jailbreak

Para contrarrestar estas amenazas, se necesita un enfoque multifacético:

  1. Ajuste fino robusto: Incluir datos diversos en el proceso de ajuste fino mejora la resistencia del modelo a la manipulación adversaria.
  2. Entrenamiento adversario: Entrenar con ejemplos adversarios mejora la capacidad del modelo para reconocer y resistir entradas manipuladas.
  3. Evaluación regular: Monitorear continuamente las salidas ayuda a detectar desviaciones de las pautas éticas.
  4. Supervisión humana: Involucrar a revisores humanos agrega una capa adicional de seguridad.

Amenazas impulsadas por la IA: La explotación de la alucinación

La alucinación de la IA, donde los modelos generan salidas no basadas en sus datos de entrenamiento, puede ser utilizada como un arma. Por ejemplo, los atacantes manipularon a ChatGPT para recomendar paquetes inexistentes, lo que llevó a la difusión de software malicioso. Esto destaca la necesidad de una vigilancia continua y contramedidas robustas contra tal explotación. (Explora más)

Mientras que la ética de perseguir la IAG sigue siendo controvertida, su búsqueda aspiracional continúa influyendo en las direcciones de la investigación de la IA generativa, ya sea que los modelos actuales se asemejen a piedras angulares o desvíos en el camino hacia la IA de nivel humano.

He dedicado los últimos cinco años sumergiéndome en el fascinante mundo de Machine Learning y Deep Learning. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad en curso también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.