AGI

AlphaEvolve: El innovador paso de Google DeepMind hacia la IA general

mm

Google DeepMind ha presentado AlphaEvolve, un agente de codificación evolutivo diseñado para descubrir de forma autónoma nuevos algoritmos y soluciones científicas. Presentado en el artículo titulado AlphaEvolve: Un agente de codificación para el descubrimiento científico y algorítmico,” esta investigación representa un paso fundamental hacia la Inteligencia Artificial General (AGI) y incluso la Inteligencia Artificial Superinteligente (ASI). En lugar de confiar en la afinación estática o en conjuntos de datos etiquetados por humanos, AlphaEvolve sigue un camino completamente diferente, centrado en la creatividad autónoma, la innovación algorítmica y la mejora continua.

En el corazón de AlphaEvolve se encuentra una tubería evolutiva autocontenida impulsada por modelos de lenguaje grande (LLM). Esta tubería no solo genera salidas, sino que muta, evalúa, selecciona y mejora el código a lo largo de las generaciones. AlphaEvolve comienza con un programa inicial y lo refina iterativamente introduciendo cambios estructurados con cuidado.

Estos cambios toman la forma de diffs generados por LLM, es decir, modificaciones de código sugeridas por un modelo de lenguaje basado en ejemplos anteriores y instrucciones explícitas. Un ‘diff’ en ingeniería de software se refiere a la diferencia entre dos versiones de un archivo, destacando las líneas que deben eliminarse o reemplazarse y las nuevas líneas que deben agregarse. En AlphaEvolve, el LLM genera estos diffs analizando el programa actual y proponiendo pequeñas ediciones, como agregar una función, optimizar un bucle o cambiar un hiperparámetro, basado en una instrucción que incluye métricas de rendimiento y ediciones exitosas anteriores.

Cada programa modificado se prueba entonces utilizando evaluadores automatizados adaptados a la tarea. Los candidatos más efectivos se almacenan, se hacen referencia y se recombinan como inspiración para iteraciones futuras. Con el tiempo, este bucle evolutivo conduce al surgimiento de algoritmos cada vez más sofisticados, a menudo superando aquellos diseñados por expertos humanos.

Entendiendo la ciencia detrás de AlphaEvolve

En su núcleo, AlphaEvolve se basa en principios de cómputo evolutivo, una subdisciplina de la inteligencia artificial inspirada en la evolución biológica. El sistema comienza con una implementación básica de código, que trata como un “organismo” inicial. A lo largo de las generaciones, AlphaEvolve modifica este código, introduciendo variaciones o “mutaciones”, y evalúa la idoneidad de cada variación utilizando una función de puntuación bien definida. Las variantes con mejor rendimiento sobreviven y sirven como plantillas para la siguiente generación.

Este bucle evolutivo se coordina a través de:

  • Muestreo de instrucciones: AlphaEvolve construye instrucciones seleccionando y embebiendo muestras de código previamente exitosas, métricas de rendimiento y instrucciones específicas de la tarea.
  • Mutación y propuesta de código: El sistema utiliza una combinación de LLM potentes, Gemini 2.0 Flash y Pro, para generar modificaciones específicas al código base en forma de diffs.
  • Mecanismo de evaluación: Una función de evaluación automatizada evalúa el rendimiento de cada candidato ejecutándolo y devolviendo puntuaciones escalares.
  • Base de datos y controlador: Un controlador distribuido orquesta este bucle, almacenando resultados en una base de datos evolutiva y equilibrando la exploración con la explotación a través de mecanismos como MAP-Elites.

Este proceso evolutivo automatizado y enriquecido con retroalimentación difiere radicalmente de las técnicas de afinación estándar. Le permite a AlphaEvolve generar soluciones novedosas, de alto rendimiento y, a veces, contraintuitivas, empujando los límites de lo que el aprendizaje automático puede lograr de manera autónoma.

Comparando AlphaEvolve con RLHF

Para apreciar la innovación de AlphaEvolve, es crucial compararlo con Aprendizaje por Refuerzo desde la Retroalimentación Humana (RLHF), un enfoque dominante utilizado para afinar modelos de lenguaje grande.

En RLHF, las preferencias humanas se utilizan para entrenar un modelo de recompensa, que guía el proceso de aprendizaje de un LLM a través de algoritmos de aprendizaje por refuerzo como PPO (Optimización de Política Proximal). RLHF mejora la alineación y la utilidad de los modelos, pero requiere una participación humana extensa para generar datos de retroalimentación y opera generalmente en un régimen de afinación estática y única.

AlphaEvolve, en contraste:

  • Elimina la retroalimentación humana del bucle a favor de evaluadores ejecutables por máquina.
  • Soporta el aprendizaje continuo a través de la selección evolutiva.
  • Explora espacios de solución mucho más amplios debido a mutaciones estocásticas y ejecución asíncrona.
  • Puede generar soluciones que no solo están alineadas, sino nuevas y científicamente significativas.

Mientras que RLHF afina el comportamiento, AlphaEvolve descubre e inventa. Esta distinción es crítica al considerar las trayectorias futuras hacia la AGI: AlphaEvolve no solo hace mejores predicciones, sino que encuentra nuevos caminos hacia la verdad.

Aplicaciones y avances

1. Descubrimiento algorítmico y avances matemáticos

AlphaEvolve ha demostrado su capacidad para descubrimientos innovadores en problemas algorítmicos fundamentales. Lo más notable es que descubrió un algoritmo novedoso para multiplicar dos matrices complejas 4×4 utilizando solo 48 multiplicaciones escalares, superando el resultado de 1969 de Strassen de 49 multiplicaciones y rompiendo un techo teórico de 56 años. AlphaEvolve logró esto a través de técnicas avanzadas de descomposición de tensores que evolucionó a lo largo de muchas iteraciones, superando varios enfoques de vanguardia.

Más allá de la multiplicación de matrices, AlphaEvolve hizo contribuciones sustanciales a la investigación matemática. Se evaluó en más de 50 problemas abiertos en campos como la combinatoria, la teoría de números y la geometría. Coincidió con los mejores resultados conocidos en aproximadamente el 75% de los casos y los superó en alrededor del 20%. Estos éxitos incluyeron mejoras al problema de superposición mínima de Erdős, una solución más densa al problema del número de besos en 11 dimensiones y configuraciones de empaquetamiento geométrico más eficientes. Estos resultados subrayan su capacidad para actuar como un explorador matemático autónomo, refinando, iterando y evolucionando soluciones cada vez más óptimas sin supervisión humana.

2. Optimización en la pila de cómputo de Google

AlphaEvolve también ha entregado mejoras tangibles en el rendimiento en toda la infraestructura de Google:

  • En programación de centros de datos, descubrió una nueva heurística que mejoró la colocación de trabajos, recuperando el 0,7% de los recursos de cómputo previamente aislados.
  • Para núcleos de entrenamiento de Gemini, AlphaEvolve ideó una mejor estrategia de división para la multiplicación de matrices, lo que produjo una aceleración del 23% en el núcleo y una reducción del 1% en el tiempo de entrenamiento general.
  • En diseño de circuitos TPU, identificó una simplificación a la lógica aritmética a nivel RTL (Nivel de Transferencia de Registro), verificada por ingenieros y incluida en los próximos chips TPU.
  • También optimizó el código FlashAttention generado por el compilador editando representaciones intermedias XLA, reduciendo el tiempo de inferencia en GPU en un 32%.

Juntos, estos resultados validan la capacidad de AlphaEvolve para operar en múltiples niveles de abstracción, desde la matemática simbólica hasta la optimización de hardware de bajo nivel, y entregar ganancias de rendimiento en el mundo real.

  • Programación evolutiva: Un paradigma de IA que utiliza mutación, selección y herencia para refinar soluciones de manera iterativa.
  • Superoptimización de código: La búsqueda automatizada de la implementación más eficiente de una función, a menudo produciendo mejoras sorprendentes y contraintuitivas.
  • Evolución de instrucciones meta: AlphaEvolve no solo evoluciona código, sino que también evoluciona cómo comunica instrucciones a los LLM, permitiendo la autorrefinación del proceso de codificación.
  • Pérdida de discretización: Un término de regularización que alienta a las salidas a alinearse con valores de medio entero o entero, crítico para la claridad matemática y simbólica.
  • Pérdida de alucinación: Un mecanismo para inyectar aleatoriedad en soluciones intermedias, alentando la exploración y evitando mínimos locales.
  • Algoritmo MAP-Elites: Un tipo de algoritmo de calidad-diversidad que mantiene una población diversa de soluciones de alto rendimiento a lo largo de dimensiones de características, permitiendo la innovación robusta.

Implicaciones para la AGI y la ASI

AlphaEvolve es más que un optimizador, es una visión del futuro donde los agentes inteligentes pueden demostrar autonomía creativa. La capacidad del sistema para formular problemas abstractos y diseñar sus propios enfoques para resolverlos representa un paso significativo hacia la Inteligencia Artificial General. Esto va más allá de la predicción de datos: implica razonamiento estructurado, formación de estrategias y adaptación a la retroalimentación, características de la conducta inteligente.

Su capacidad para generar y refinar hipótesis de manera iterativa también señala una evolución en la forma en que las máquinas aprenden. A diferencia de los modelos que requieren un entrenamiento supervisado extenso, AlphaEvolve mejora a través de un bucle de experimentación y evaluación. Esta forma dinámica de inteligencia le permite navegar espacios de problemas complejos, descartar soluciones débiles y elevar las más fuertes sin supervisión humana directa.

Al ejecutar y validar sus propias ideas, AlphaEvolve funciona como el teórico y el experimentalista. Se mueve más allá de realizar tareas predefinidas y entra en el ámbito del descubrimiento, simulando un proceso científico autónomo. Cada mejora propuesta se prueba, se benchmark y se reintegra, permitiendo una refinación continua basada en resultados reales en lugar de objetivos estáticos.

Quizás lo más notable es que AlphaEvolve es una instancia temprana de autorrefinación recursiva, donde un sistema de IA no solo aprende, sino que mejora componentes de sí mismo. En varios casos, AlphaEvolve mejoró la infraestructura de entrenamiento que sustenta sus propios modelos base. Aunque todavía está limitado por las arquitecturas actuales, esta capacidad establece un precedente. Con más problemas enmarcados en entornos evaluables, AlphaEvolve podría escalar hacia comportamientos cada vez más sofisticados y autooptimizados, una característica fundamental de la Inteligencia Artificial Superinteligente (ASI).

Limitaciones y trayectoria futura

La limitación actual de AlphaEvolve es su dependencia de funciones de evaluación automatizadas. Esto limita su utilidad a problemas que se pueden formalizar matemáticamente o algorítmicamente. No puede operar de manera significativa en dominios que requieren comprensión tácita humana, juicio subjetivo o experimentación física.

Sin embargo, las direcciones futuras incluyen:

  • Integración de evaluación híbrida: combinando razonamiento simbólico con preferencias humanas y críticas en lenguaje natural.
  • Despliegue en entornos de simulación, permitiendo la experimentación científica encarnada.
  • Destilación de salidas evolucionadas en modelos LLM base, creando modelos más capaces y eficientes en muestras.

Estas trayectorias apuntan hacia sistemas cada vez más agentivos capaces de resolución de problemas autónomos y de alto riesgo.

Conclusión

AlphaEvolve es un paso adelante profundo, no solo en la herramienta de IA, sino en nuestra comprensión de la inteligencia de la máquina en sí. Al combinar la búsqueda evolutiva con el razonamiento de LLM y la retroalimentación, redefine lo que las máquinas pueden descubrir de manera autónoma. Es una señal temprana pero significativa de que los sistemas auto-mejorables capaces de pensamiento científico real ya no son teóricos.

Mirando hacia adelante, la arquitectura subyacente a AlphaEvolve podría aplicarse de manera recursiva a sí misma: evolucionando sus propios evaluadores, mejorando la lógica de mutación, refinando las funciones de puntuación y optimizando las tuberías de entrenamiento subyacentes para los modelos en los que depende. Este bucle de optimización recursivo representa un mecanismo técnico para arrancar hacia la AGI, donde el sistema no solo completa tareas, sino que mejora la propia infraestructura que permite su aprendizaje y razonamiento.

Con el tiempo, a medida que AlphaEvolve se expande a través de dominios más complejos y abstractos, y a medida que disminuye la intervención humana en el proceso, puede exhibir ganancias de inteligencia aceleradas. Este ciclo auto-reforzante de mejora iterativa, aplicado no solo a problemas externos, sino también internamente a su propia estructura algorítmica, es un componente teórico clave de la AGI y todos los beneficios que podría proporcionar a la sociedad. Con su combinación de creatividad, autonomía y recursividad, AlphaEvolve puede ser recordado no solo como un producto de DeepMind, sino como un plano para las primeras mentes artificiales verdaderamente generales y auto-evolutivas.

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un emprendedor serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI.

Como futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.