AGI
El paisaje evolutivo de la inteligencia artificial generativa: una encuesta sobre la mezcla de expertos, la multimodalidad y la búsqueda de la inteligencia artificial general

El campo de la inteligencia artificial (IA) ha experimentado un crecimiento tremendo en 2023. La inteligencia artificial generativa, que se centra en la creación de contenido realista como imágenes, audio, video y texto, ha estado a la vanguardia de estos avances. Modelos como DALL-E 3, Stable Diffusion y ChatGPT han demostrado nuevas capacidades creativas, pero también han planteado preocupaciones sobre la ética, los sesgos y el mal uso.
A medida que la inteligencia artificial generativa continúa evolucionando a un ritmo acelerado, las mezclas de expertos (MoE), el aprendizaje multimodal y las aspiraciones hacia la inteligencia artificial general (IAG) parecen estar configurando las próximas fronteras de la investigación y las aplicaciones. Este artículo proporcionará una encuesta exhaustiva del estado actual y la trayectoria futura de la inteligencia artificial generativa, analizando cómo las innovaciones como el Gemini de Google y los proyectos anticipados como Q* de OpenAI están transformando el panorama. Examinará las implicaciones en el mundo real en áreas como la salud, las finanzas, la educación y otros dominios, al tiempo que surface los desafíos emergentes en torno a la calidad de la investigación y la alineación de la IA con los valores humanos.
El lanzamiento de ChatGPT a finales de 2022 despertó un renovado entusiasmo y preocupaciones sobre la IA, desde su impresionante habilidad en el lenguaje natural hasta su potencial para difundir información errónea. Mientras tanto, el nuevo modelo Gemini de Google demuestra una capacidad conversacional sustancialmente mejorada sobre sus predecesores como LaMDA a través de avances como la atención de pico y slab. Los proyectos rumorizados como Q* de OpenAI sugieren la combinación de la IA conversacional con el aprendizaje por refuerzo.
Estas innovaciones señalan una prioridad cambiante hacia modelos generativos multimodales y versátiles. Las competencias también continúan calentando entre empresas como Google, Meta, Anthropic y Cohere que compiten para empujar los límites en el desarrollo de la IA responsable.
La evolución de la investigación de la IA
A medida que las capacidades han crecido, las tendencias y prioridades de la investigación también han cambiado, a menudo correspondiendo con hitos tecnológicos. El surgimiento del aprendizaje profundo reavivó el interés en las redes neuronales, mientras que el procesamiento del lenguaje natural aumentó con modelos de nivel ChatGPT. Mientras tanto, la atención a la ética persiste como una prioridad constante en medio del progreso rápido.
Los repositorios de preimpresos como arXiv también han visto un crecimiento exponencial en las presentaciones de IA, lo que permite una difusión más rápida pero reduce la revisión por pares y aumenta el riesgo de errores o sesgos no verificados. La interacción entre la investigación y el impacto en el mundo real sigue siendo compleja, lo que requiere esfuerzos más coordinados para dirigir el progreso.
MoE y sistemas multimodales – La próxima ola de la IA generativa
Para permitir modelos de IA más versátiles y sofisticados en diversas aplicaciones, dos enfoques que están ganando prominencia son las mezclas de expertos (MoE) y el aprendizaje multimodal.
Las arquitecturas MoE combinan múltiples redes neuronales especializadas “expertas” optimizadas para diferentes tareas o tipos de datos. El Gemini de Google utiliza MoE para dominar tanto intercambios conversacionales largos como respuestas concisas a preguntas. MoE permite manejar una gama más amplia de entradas sin aumentar el tamaño del modelo.
Los sistemas multimodales como el Gemini de Google están estableciendo nuevos estándares al procesar modalidades variadas más allá del texto. Sin embargo, realizar el potencial de la IA multimodal requiere superar obstáculos técnicos y desafíos éticos clave.
Gemini: Redefiniendo los estándares en multimodalidad
Gemini es una IA conversacional multimodal, diseñada para comprender las conexiones entre texto, imágenes, audio y video. Su estructura de codificador dual, la atención entre modalidades y la decodificación multimodal permiten una comprensión contextual sofisticada. Se cree que Gemini supera a los sistemas de codificador único en la asociación de conceptos textuales con regiones visuales. Al integrar conocimiento estructurado y capacitación especializada, Gemini supera a predecesores como GPT-3 y GPT-4 en:
- Amplitud de modalidades manejadas, incluyendo audio y video
- Rendimiento en pruebas como la comprensión del lenguaje masiva
- Generación de código en varios lenguajes de programación
- Escalabilidad a través de versiones personalizadas como Gemini Ultra y Nano
- Transparencia a través de justificaciones para las salidas
Obstáculos técnicos en los sistemas multimodales
Lograr una IA multimodal robusta requiere resolver problemas de diversidad de datos, escalabilidad, evaluación e interpretación. Los conjuntos de datos desequilibrados y las inconsistencias en la anotación conducen a sesgos. El procesamiento de múltiples flujos de datos pone a prueba los recursos computacionales, exigiendo arquitecturas de modelo optimizadas. Se necesitan avances en mecanismos de atención y algoritmos para integrar entradas multimodales contradictorias. Los problemas de escalabilidad persisten debido a la gran sobrecarga computacional. Refinar las métricas de evaluación a través de pruebas exhaustivas es crucial. Mejorar la confianza del usuario a través de la IA explicable también es vital. Abordar estos obstáculos técnicos será clave para desbloquear las capacidades de la IA multimodal.
Ensamblaje de los bloques de construcción para la inteligencia artificial general
La IAG representa la posibilidad hipotética de que la IA iguale o supere la inteligencia humana en cualquier dominio. Aunque la IA moderna sobresale en tareas estrechas, la IAG sigue siendo un objetivo lejano y controvertido dado su potencial riesgo.
Sin embargo, los avances incrementales en áreas como el aprendizaje de transferencia, el entrenamiento multi-tarea, la capacidad conversacional y la abstracción van acercándose gradualmente a la visión ambiciosa de la IAG. El proyecto Q* de OpenAI, aunque especulativo, apunta a integrar el aprendizaje por refuerzo en los modelos de lenguaje como otro paso adelante.
Límites éticos y riesgos de la manipulación de los modelos de IA
Los jailbreaks permiten a los atacantes eludir los límites éticos establecidos durante el proceso de ajuste fino de la IA. Esto resulta en la generación de contenido dañino como la desinformación, el discurso de odio, los correos electrónicos de phishing y el código malicioso, lo que plantea riesgos para los individuos, las organizaciones y la sociedad en general. Por ejemplo, un modelo jailbroken podría producir contenido que promueva narrativas divisivas o apoye actividades cibernéticas delictivas. (Aprende más)
Aunque no ha habido ataques cibernéticos reportados que utilicen jailbreaking, múltiples pruebas de concepto de jailbreak están disponibles en línea y a la venta en la web oscura. Estas herramientas proporcionan instrucciones diseñadas para manipular modelos de IA como ChatGPT, lo que podría permitir a los hackers filtrar información sensible a través de los chatbots de las empresas. La proliferación de estas herramientas en plataformas como foros de cibercrimen destaca la urgencia de abordar esta amenaza. (Lee más)
Mitigación de los riesgos de jailbreak
Para contrarrestar estas amenazas, se necesita un enfoque multifacético:
- Ajuste fino robusto: Incluir datos diversos en el proceso de ajuste fino mejora la resistencia del modelo a la manipulación adversaria.
- Entrenamiento adversario: Entrenar con ejemplos adversarios mejora la capacidad del modelo para reconocer y resistir entradas manipuladas.
- Evaluación regular: Monitorear continuamente las salidas ayuda a detectar desviaciones de las pautas éticas.
- Supervisión humana: Involucrar a revisores humanos agrega una capa adicional de seguridad.
Amenazas impulsadas por la IA: La explotación de la alucinación
La alucinación de la IA, donde los modelos generan salidas no basadas en sus datos de entrenamiento, puede ser utilizada como un arma. Por ejemplo, los atacantes manipularon a ChatGPT para recomendar paquetes inexistentes, lo que llevó a la difusión de software malicioso. Esto destaca la necesidad de una vigilancia continua y contramedidas robustas contra tal explotación. (Explora más)
Mientras que la ética de perseguir la IAG sigue siendo controvertida, su búsqueda aspiracional continúa influyendo en las direcciones de la investigación de la IA generativa, ya sea que los modelos actuales se asemejen a piedras angulares o desvíos en el camino hacia la IA de nivel humano.












