Inteligencia artificial
De la intención a la ejecución: Cómo Microsoft está transformando los grandes modelos de lenguaje en AI orientada a la acción
Los grandes modelos de lenguaje (LLMs) han cambiado la forma en que manejamos el procesamiento de lenguaje natural. Pueden responder preguntas, escribir código y mantener conversaciones. Sin embargo, se quedan cortos cuando se trata de tareas del mundo real. Por ejemplo, un LLM puede guiarte a través de la compra de una chaqueta, pero no puede realizar el pedido por ti. Esta brecha entre el pensamiento y la acción es una limitación importante. Las personas no solo necesitan información; quieren resultados.
Para cerrar esta brecha, Microsoft está convirtiendo los LLMs en agentes de AI orientados a la acción. Al permitirles planificar, descomponer tareas y interactuar con entornos del mundo real, les permiten a los LLMs gestionar tareas prácticas de manera efectiva. Este cambio tiene el potencial de redefinir lo que los LLMs pueden hacer, convirtiéndolos en herramientas que automatizan flujos de trabajo complejos y simplifican tareas cotidianas. Veamos qué es necesario para que esto suceda y cómo Microsoft está abordando el problema.
Qué necesitan los LLMs para actuar
Para que los LLMs realicen tareas en el mundo real, necesitan ir más allá de la comprensión del texto. Deben interactuar con entornos digitales y físicos mientras se adaptan a condiciones cambiantes. A continuación, se presentan algunas de las capacidades que necesitan:
-
Entendiendo la intención del usuario
Para actuar de manera efectiva, los LLMs necesitan entender las solicitudes del usuario. Las entradas como texto o comandos de voz a menudo son vagas o incompletas. El sistema debe llenar los espacios en blanco utilizando su conocimiento y el contexto de la solicitud. Las conversaciones de varios pasos pueden ayudar a refinar estas intenciones, asegurando que la AI comprenda antes de tomar acción.
-
Convirtiendo intenciones en acciones
Después de entender una tarea, los LLMs deben convertirla en pasos realizables. Esto puede involucrar hacer clic en botones, llamar a API o controlar dispositivos físicos. Los LLMs necesitan modificar sus acciones para la tarea específica, adaptándose al entorno y resolviendo desafíos a medida que surgen.
-
Adaptándose a los cambios
Las tareas del mundo real no siempre van según lo planeado. Los LLMs necesitan anticipar problemas, ajustar pasos y encontrar alternativas cuando surgen problemas. Por ejemplo, si un recurso necesario no está disponible, el sistema debería encontrar otra forma de completar la tarea. Esta flexibilidad garantiza que el proceso no se detenga cuando las cosas cambian.
-
Especializándose en tareas específicas
Si bien los LLMs están diseñados para uso general, la especialización los hace más eficientes. Al centrarse en tareas específicas, estos sistemas pueden brindar mejores resultados con menos recursos. Esto es especialmente importante para dispositivos con potencia de procesamiento limitada, como teléfonos inteligentes o sistemas integrados.
Al desarrollar estas habilidades, los LLMs pueden ir más allá de solo procesar información. Pueden tomar acciones significativas, allanando el camino para que la AI se integre de manera transparente en los flujos de trabajo cotidianos.
Cómo Microsoft está transformando los LLMs
El enfoque de Microsoft para crear AI orientada a la acción sigue un proceso estructurado. El objetivo principal es permitir que los LLMs comprendan comandos, planifiquen de manera efectiva y tomen acción. A continuación, se explica cómo lo están haciendo:
Paso 1: Recopilación y preparación de datos
En la primera fase, recopilaron datos relacionados con sus casos de uso específicos: el Agente UFO (descrito a continuación). Los datos incluyen consultas de usuarios, detalles del entorno y acciones específicas de la tarea. Se recopilaron dos tipos de datos diferentes en esta fase: en primer lugar, recopilaron datos de planificación de tareas que ayudan a los LLMs a esbozar los pasos de alto nivel necesarios para completar una tarea. Por ejemplo, “Cambiar el tamaño de fuente en Word” podría involucrar pasos como seleccionar texto y ajustar la configuración de la barra de herramientas. En segundo lugar, recopilaron datos de acción de tareas, lo que permite a los LLMs traducir estos pasos en instrucciones precisas, como hacer clic en botones específicos o usar atajos de teclado.
Esta combinación proporciona al modelo tanto la visión general como las instrucciones detalladas que necesita para realizar tareas de manera efectiva.
Paso 2: Entrenamiento del modelo
Una vez recopilados los datos, los LLMs se refinan a través de múltiples sesiones de entrenamiento. En el primer paso, los LLMs se entrenan para la planificación de tareas enseñándoles cómo descomponer las solicitudes del usuario en pasos realizables. Luego, los datos etiquetados por expertos se utilizan para enseñarles cómo traducir estos planes en acciones específicas. Para mejorar aún más sus capacidades de resolución de problemas, los LLMs participan en un proceso de exploración de auto-refuerzo que les permite abordar tareas no resueltas y generar nuevos ejemplos para el aprendizaje continuo. Finalmente, se aplica el aprendizaje por refuerzo, utilizando la retroalimentación de los éxitos y fracasos para mejorar aún más la toma de decisiones.
Paso 3: Pruebas fuera de línea
Después del entrenamiento, el modelo se prueba en entornos controlados para garantizar la confiabilidad. Métricas como Task Success Rate (TSR) y Step Success Rate (SSR) se utilizan para medir el rendimiento. Por ejemplo, probar un agente de gestión de calendario podría implicar verificar su capacidad para programar reuniones y enviar invitaciones sin errores.
Paso 4: Integración en sistemas reales
Una vez validado, el modelo se integra en un marco de agente. Esto le permite interactuar con entornos del mundo real, como hacer clic en botones o navegar por menús. Herramientas como las API de automatización de UI ayudan al sistema a identificar y manipular elementos de la interfaz de usuario de manera dinámica.
Por ejemplo, si se le asigna la tarea de resaltar texto en Word, el agente identifica el botón de resaltado, selecciona el texto y aplica el formato. Un componente de memoria podría ayudar a los LLM a mantener un registro de las acciones pasadas, lo que les permite adaptarse a nuevos escenarios.
Paso 5: Pruebas en el mundo real
El último paso es la evaluación en línea. Aquí, el sistema se prueba en escenarios del mundo real para garantizar que pueda manejar cambios y errores inesperados. Por ejemplo, un bot de soporte al cliente podría guiar a los usuarios a través del restablecimiento de una contraseña mientras se adapta a entradas incorrectas o información faltante. Esta prueba garantiza que la AI sea robusta y esté lista para su uso cotidiano.
Un ejemplo práctico: El Agente UFO
Para demostrar cómo funciona la AI orientada a la acción, Microsoft desarrolló el Agente UFO. Este sistema está diseñado para ejecutar tareas del mundo real en entornos de Windows, convirtiendo las solicitudes del usuario en acciones completadas.
En su núcleo, el Agente UFO utiliza un LLM para interpretar solicitudes y planificar acciones. Por ejemplo, si un usuario dice: “Resalta la palabra ‘importante’ en este documento”, el agente interactúa con Word para completar la tarea. Recopila información contextual, como las posiciones de los controles de la UI, y la utiliza para planificar y ejecutar acciones.
El Agente UFO se basa en herramientas como la API de automatización de UI de Windows (UIA). Esta API escanea aplicaciones en busca de elementos de control, como botones o menús. Para una tarea como “Guardar el documento como PDF”, el agente utiliza la UIA para identificar el botón “Archivo”, localizar la opción “Guardar como” y ejecutar los pasos necesarios. Al estructurar los datos de manera consistente, el sistema garantiza una operación fluida desde el entrenamiento hasta la aplicación en el mundo real.
Superar desafíos
Si bien este es un desarrollo emocionante, crear AI orientada a la acción conlleva desafíos. La escalabilidad es un problema importante. Entrenar y desplegar estos modelos en diversas tareas requiere recursos significativos. Garantizar la seguridad y la confiabilidad es igualmente importante. Los modelos deben realizar tareas sin consecuencias no deseadas, especialmente en entornos sensibles. Y mientras estos sistemas interactúan con datos privados, mantener los estándares éticos sobre la privacidad y la seguridad también es crucial.
La hoja de ruta de Microsoft se centra en mejorar la eficiencia, ampliar los casos de uso y mantener los estándares éticos. Con estos avances, los LLMs podrían redefinir cómo la AI interactúa con el mundo, haciéndolos más prácticos, adaptables y orientados a la acción.
El futuro de la AI
Transformar los LLMs en agentes orientados a la acción podría ser un juego cambiator. Estos sistemas pueden automatizar tareas, simplificar flujos de trabajo y hacer que la tecnología sea más accesible. El trabajo de Microsoft en AI orientada a la acción y herramientas como el Agente UFO es solo el comienzo. A medida que la AI continúa evolucionando, podemos esperar sistemas más inteligentes y capaces que no solo interactúan con nosotros, sino que también realizan tareas.










