Inteligencia Artificial General
El panorama en evolución de la IA generativa: una encuesta sobre la combinación de expertos, la multimodalidad y la búsqueda de AGI
El campo de la inteligencia artificial (IA) ha experimentado un enorme crecimiento en 2023. La IA generativa, que se centra en la creación de contenido realista como imágenes, audio, vídeo y texto, ha estado a la vanguardia de estos avances. Modelos como DALL-E 3, Stable Diffusion y ChatGPT han demostrado nuevas capacidades creativas, pero también han generado preocupaciones en torno a la ética, los prejuicios y el mal uso.
A medida que la IA generativa continúa evolucionando a un ritmo rápido, parece que la combinación de expertos (MoE), el aprendizaje multimodal y las aspiraciones hacia la inteligencia artificial general (AGI) darán forma a las próximas fronteras de la investigación y las aplicaciones. Este artículo proporcionará un estudio exhaustivo del estado actual y la trayectoria futura de la IA generativa, analizando cómo innovaciones como Gemini de Google y proyectos anticipados como Q* de OpenAI están transformando el panorama. Examinará las implicaciones del mundo real en la atención sanitaria, las finanzas, la educación y otros ámbitos, al tiempo que sacará a la luz desafíos emergentes en torno a la calidad de la investigación y la alineación de la IA con los valores humanos.
El lanzamiento de ChatGPT a finales de 2022 generó específicamente un renovado entusiasmo y preocupaciones en torno a la IA, desde su impresionante destreza en el lenguaje natural hasta su potencial para difundir información errónea. Mientras tanto, el nuevo modelo Gemini de Google demuestra una capacidad de conversación sustancialmente mejorada con respecto a sus predecesores como LaMDA a través de avances como la atención de punta y losa. Se rumorea que proyectos como Q* de OpenAI insinúan la combinación de IA conversacional con aprendizaje por refuerzo.
Estas innovaciones señalan un cambio de prioridad hacia modelos generativos multimodales y versátiles. La competencia también continúa aumentando entre empresas como Google, Meta, Anthropic y Cohere que compiten por traspasar los límites en el desarrollo responsable de la IA.
La evolución de la investigación en IA
A medida que las capacidades han aumentado, las tendencias y prioridades de investigación también han cambiado, a menudo en correspondencia con hitos tecnológicos. El auge del aprendizaje profundo reavivó el interés en las redes neuronales, mientras que el procesamiento del lenguaje natural surgió con los modelos de nivel ChatGPT. Mientras tanto, la atención a la ética persiste como una prioridad constante en medio de rápidos avances.
Los repositorios de preimpresiones como arXiv también han experimentado un crecimiento exponencial en los envíos de IA, lo que permite una difusión más rápida pero reduce la revisión por pares y aumenta el riesgo de errores o sesgos no controlados. La interacción entre la investigación y el impacto en el mundo real sigue siendo compleja y requiere esfuerzos más coordinados para dirigir el progreso.
MoE y sistemas multimodales: la próxima ola de IA generativa
Para permitir una IA más versátil y sofisticada en diversas aplicaciones, dos enfoques que están ganando importancia son las combinaciones de expertos (MoE) y el aprendizaje multimodal.
Las arquitecturas MoE combinan múltiples “expertos” especializados en redes neuronales optimizados para diferentes tareas o tipos de datos. Gemini de Google utiliza MoE para dominar tanto los largos intercambios conversacionales como la respuesta concisa a preguntas. MoE permite manejar una gama más amplia de entradas sin aumentar el tamaño del modelo.
Los sistemas multimodales como Gemini de Google están estableciendo nuevos puntos de referencia al procesar modalidades variadas más allá del simple texto. Sin embargo, para aprovechar el potencial de la IA multimodal es necesario superar obstáculos técnicos y desafíos éticos clave.
Géminis: redefiniendo los puntos de referencia en multimodalidad
Gemini es una IA conversacional multimodal, diseñada para comprender las conexiones entre texto, imágenes, audio y video. Su estructura de codificador dual, atención multimodal y decodificación multimodal permiten una comprensión contextual sofisticada. Se cree que Gemini supera a los sistemas de codificador único al asociar conceptos de texto con regiones visuales. Al integrar conocimiento estructurado y capacitación especializada, Gemini supera a sus predecesores como GPT-3 y GPT-4 en:
- Amplitud de modalidades manejadas, incluyendo audio y video.
- Rendimiento en puntos de referencia como la comprensión masiva del lenguaje multitarea
- Generación de código en lenguajes de programación.
- Escalabilidad a través de versiones personalizadas como Gemini Ultra y Nano
- Transparencia a través de justificaciones de los resultados.
Obstáculos técnicos en sistemas multimodales
Lograr una IA multimodal robusta requiere resolver problemas de diversidad, escalabilidad, evaluación e interpretabilidad de los datos. Los conjuntos de datos desequilibrados y las inconsistencias en las anotaciones generan sesgos. El procesamiento de múltiples flujos de datos sobrecarga los recursos informáticos y exige arquitecturas de modelos optimizadas. Se necesitan avances en los mecanismos y algoritmos de atención para integrar entradas multimodales contradictorias. Los problemas de escalabilidad persisten debido a una gran sobrecarga computacional. Es crucial perfeccionar las métricas de evaluación a través de puntos de referencia integrales. Mejorar la confianza de los usuarios a través de una IA explicable también sigue siendo vital. Abordar estos obstáculos técnicos será clave para desbloquear las capacidades de la IA multimodal.
Ensamblando los componentes básicos de la inteligencia artificial general
AGI representa la posibilidad hipotética de que la IA iguale o supere la inteligencia humana en cualquier dominio. Si bien la IA moderna sobresale en tareas específicas, la AGI sigue siendo lejana y controvertida dados sus riesgos potenciales.
Sin embargo, los avances incrementales en áreas como el aprendizaje por transferencia, la capacitación multitarea, la capacidad de conversación y la abstracción se acercan cada vez más a la elevada visión de AGI. El proyecto especulativo Q* de OpenAI tiene como objetivo integrar el aprendizaje por refuerzo en los LLM como otro paso adelante.
Límites éticos y riesgos de manipular modelos de IA
Los jailbreak permiten a los atacantes eludir los límites éticos establecidos durante el proceso de ajuste de la IA. Esto da como resultado la generación de contenido dañino como información errónea, incitación al odio, correos electrónicos de phishing y códigos maliciosos, lo que plantea riesgos para las personas, las organizaciones y la sociedad en general. Por ejemplo, un modelo con jailbreak podría producir contenido que promueva narrativas divisivas o respalde actividades cibercriminales. (SABER MÁS )
Si bien todavía no se han reportado ataques cibernéticos que utilicen jailbreak, hay múltiples jailbreaks de prueba de concepto disponibles en línea y a la venta en la web oscura. Estas herramientas brindan indicaciones diseñadas para manipular modelos de inteligencia artificial como ChatGPT, lo que potencialmente permite a los piratas informáticos filtrar información confidencial a través de los chatbots de la empresa. La proliferación de estas herramientas en plataformas como foros sobre delitos cibernéticos pone de relieve la urgencia de abordar esta amenaza. (Leer Más)
Mitigar los riesgos de fuga
Para contrarrestar estas amenazas, es necesario un enfoque multifacético:
- Ajuste robusto: La inclusión de datos diversos en el proceso de ajuste mejora la resistencia del modelo a la manipulación adversa.
- Entrenamiento Adversario: El entrenamiento con ejemplos contradictorios mejora la capacidad del modelo para reconocer y resistir entradas manipuladas.
- Evaluación periódica: El seguimiento continuo de los resultados ayuda a detectar desviaciones de las directrices éticas.
- Supervisión humana: Involucrar a revisores humanos añade una capa adicional de seguridad.
Amenazas impulsadas por la IA: la explotación de las alucinaciones
Las alucinaciones de IA, en las que los modelos generan resultados que no se basan en sus datos de entrenamiento, pueden convertirse en armas. Por ejemplo, los atacantes manipularon ChatGPT para recomendar paquetes inexistentes, lo que provocó la propagación de software malicioso. Esto pone de relieve la necesidad de una vigilancia continua y de contramedidas sólidas contra dicha explotación. (Explore más)
Si bien la ética de perseguir la AGI sigue siendo complicada, su aspiración continúa influyendo en las direcciones de la investigación de la IA generativa, ya sea que los modelos actuales parezcan peldaños o desvíos en el camino hacia la IA a nivel humano.