Contáctenos

Tu IA es más poderosa de lo que crees

Ingeniería rápida

Tu IA es más poderosa de lo que crees

mm

Un equipo de científicos acaba de descubrir algo que cambia mucho lo que creíamos saber sobre las capacidades de la IA. Sus modelos no solo procesan información, sino que desarrollan habilidades sofisticadas que van mucho más allá de su entrenamiento. Y para liberar estas habilidades, necesitamos cambiar nuestra forma de comunicarnos con ellos.

La revolución del concepto espacial

¿Recuerdas cuando pensábamos que la IA simplemente combinaba patrones? Una nueva investigación Ahora ha descifrado la caja negra del aprendizaje de IA al mapear lo que llaman "espacio conceptual". Imagine el aprendizaje de IA como un mapa multidimensional donde cada coordenada representa un concepto diferente, como el color, la forma o el tamaño. Al observar cómo los modelos de IA se mueven por este espacio durante el entrenamiento, los investigadores detectaron algo inesperado: los sistemas de IA no solo memorizan, sino que desarrollan una comprensión sofisticada de los conceptos a diferentes velocidades.

“Al caracterizar la dinámica del aprendizaje en este espacio, identificamos cómo la velocidad a la que se aprende un concepto está controlada por las propiedades de los datos”, señala el equipo de investigación. En otras palabras, algunos conceptos encajan más rápido que otros, dependiendo de qué tan claramente se destacan en los datos de entrenamiento.

Esto es lo que hace que esto sea tan interesante: cuando los modelos de IA aprenden estos conceptos, no los almacenan como información aislada. De hecho, desarrollan la capacidad de combinarlos de maneras que nunca les enseñamos explícitamente. Es como si estuvieran construyendo su propio conjunto de herramientas creativas; simplemente no les hemos dado las instrucciones correctas para usarlo.

Piensa en lo que esto significa para los proyectos de IA. Los modelos con los que trabajas podrían ya comprender combinaciones complejas de conceptos que aún no has descubierto. La pregunta no es si pueden hacer más, sino cómo lograr que te muestren de qué son realmente capaces.

Desbloqueando poderes ocultos

Aquí es donde la cosa se pone fascinante. Los investigadores diseñaron un sofisticado experimento para revelar algo fundamental sobre cómo aprenden los modelos de IA. Su configuración fue engañosamente sencilla: entrenaron un modelo de IA con solo tres tipos de imágenes:

  • Círculos rojos grandes
  • Círculos azules grandes
  • Pequeños círculos rojos

Entonces llegó la prueba clave: ¿podría el modelo crear un pequeño círculo azul? No se trataba solo de dibujar una nueva forma, sino de si el modelo podía comprender y combinar dos conceptos diferentes (tamaño y color) de una forma nunca vista.

Lo que descubrieron cambia la forma en que pensamos sobre las capacidades de la IA. Cuando utilizaron indicaciones normales para pedir un “pequeño círculo azul”, el modelo tuvo dificultades. Sin embargo, el modelo en realidad podía hacer pequeños círculos azules; simplemente no estábamos pidiendo de la manera correcta.

Los investigadores descubrieron dos técnicas que lo demostraron:

  1. “Intervención latente” Esto es como encontrar una puerta trasera al cerebro del modelo. En lugar de usar indicaciones regulares, ajustaron directamente las señales internas que representan "azul" y "pequeño". Imaginen tener diales separados para el color y el tamaño: descubrieron que, al girar estos diales de maneras específicas, el modelo podía producir de repente lo que antes parecía imposible.
  2. “Sobreprompting” En lugar de simplemente pedir "azul", fueron extremadamente específicos con los valores de color. Es como la diferencia entre decir "hazlo azul" y "hazlo exactamente de este tono de azul: RGB(0.3, 0.3, 0.7)". Esta precisión adicional ayudó al modelo a acceder a capacidades que estaban ocultas en condiciones normales.

Ambas técnicas empezaron a funcionar exactamente en el mismo punto del entrenamiento del modelo: alrededor de 6,000 pasos. Mientras tanto, la estimulación regular falló por completo o necesitó más de 8,000 pasos para funcionar. Y esto no fue casualidad: ocurrió de forma consistente en múltiples pruebas.

Esto nos dice algo profundo: los modelos de IA desarrollan capacidades en dos fases distintas. Primero, aprenden a combinar conceptos internamente; esto ocurre alrededor del paso 6,000. Pero hay una segunda fase en la que aprenden a conectar estas habilidades internas con nuestra forma habitual de solicitar cosas. Es como si el modelo dominara un nuevo idioma antes de aprender a traducirlo para nosotros.

Las implicaciones son significativas. Cuando pensamos que un modelo no puede hacer algo, podemos estar equivocados: puede tener la capacidad, pero carecer de la conexión entre nuestras indicaciones y sus capacidades. Esto no solo se aplica a formas y colores simples; también podría ser cierto para capacidades más complejas en sistemas de IA más grandes.

Cuando los investigadores probaron estas ideas en datos del mundo real utilizando el Conjunto de datos de rostros de CelebAEncontraron los mismos patrones. Intentaron que el modelo generara imágenes de "mujeres con sombreros", algo que no había visto durante el entrenamiento. Las indicaciones habituales fallaron, pero el uso de intervenciones latentes reveló que el modelo sí podía crear estas imágenes. La capacidad existía, pero no era accesible por medios convencionales.

Park et al., Universidad de Harvard y NTT Research

La comida para llevar clave

Necesitamos repensar cómo evaluamos las capacidades de la IA. El hecho de que un modelo no pueda hacer algo con indicaciones estándar no significa que no pueda hacerlo en absoluto. La brecha entre lo que pueden hacer los modelos de IA y lo que podemos lograr que hagan puede ser menor de lo que pensábamos; solo necesitamos mejorar en la formulación de preguntas.

Este descubrimiento no es solo teórico: cambia radicalmente nuestra forma de pensar sobre los sistemas de IA. Cuando un modelo parece tener dificultades para realizar una tarea, quizá debamos preguntarnos si realmente carece de la capacidad necesaria o si simplemente no estamos accediendo a ella correctamente. Tanto para desarrolladores, investigadores como para usuarios, esto implica ser creativos en la forma en que interactuamos con la IA; a veces, la capacidad que necesitamos ya existe, solo esperando la clave adecuada para desbloquearla.

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.