Inteligencia Artificial
De la intención a la ejecución: cómo Microsoft está transformando grandes modelos de lenguaje en IA orientada a la acción

Los modelos de lenguaje grandes (LLM) tienen cambiado Cómo manejamos el procesamiento del lenguaje natural. Pueden responder preguntas, escribir código y mantener conversaciones. Sin embargo, se quedan cortos cuando se trata de tareas del mundo real. Por ejemplo, un LLM puede guiarte en la compra de una chaqueta, pero no puede hacer el pedido por ti. Esta brecha entre pensar y hacer es una limitación importante. Las personas no solo necesitan información; quieren resultados.
Para salvar esta brecha, Microsoft está vuelta Los LLM se convierten en agentes de IA orientados a la acción. Al permitirles planificar, descomponer tareas y participar en interacciones del mundo real, les permiten gestionar tareas prácticas de manera eficaz. Este cambio tiene el potencial de redefinir lo que pueden hacer los LLM, convirtiéndolos en herramientas que automatizan flujos de trabajo complejos y simplifican las tareas cotidianas. Veamos qué se necesita para que esto suceda y cómo Microsoft está abordando el problema.
Lo que los LLM necesitan para actuar
Para que los estudiantes con maestría en derecho puedan realizar tareas en el mundo real, deben ir más allá de comprender textos. Deben interactuar con entornos digitales y físicos y, al mismo tiempo, adaptarse a condiciones cambiantes. Estas son algunas de las capacidades que necesitan:
-
Comprender la intención del usuario
Para actuar de manera eficaz, los LLM deben comprender las solicitudes de los usuarios. Los datos de entrada, como texto o comandos de voz, suelen ser vagos o incompletos. El sistema debe completar los espacios vacíos utilizando su conocimiento y el contexto de la solicitud. Las conversaciones de varios pasos pueden ayudar a refinar estas intenciones, lo que garantiza que la IA comprenda antes de actuar.
-
Transformando intenciones en acciones
Después de comprender una tarea, los LLM deben convertirla en pasos viables. Esto puede implicar hacer clic en botones, llamar a API o controlar dispositivos físicos. Los LLM deben modificar sus acciones para la tarea específica, adaptándose al entorno y resolviendo los desafíos a medida que surgen.
-
Adaptarse a los cambios
Las tareas del mundo real no siempre salen como se planean. Los LLM deben anticipar los problemas, ajustar los pasos y encontrar alternativas cuando surgen problemas. Por ejemplo, si un recurso necesario no está disponible, el sistema debe encontrar otra forma de completar la tarea. Esta flexibilidad garantiza que el proceso no se detenga cuando las cosas cambian.
-
Especialización en tareas específicas
Si bien los LLM están diseñados para uso general, la especialización los hace más eficientes. Al centrarse en tareas específicas, estos sistemas pueden ofrecer mejores resultados con menos recursos. Esto es especialmente importante para dispositivos con capacidad informática limitada, como teléfonos inteligentes o sistemas integrados.
Al desarrollar estas habilidades, los estudiantes de maestría pueden ir más allá del mero procesamiento de información: pueden tomar medidas significativas, allanando el camino para que la IA se integre sin problemas en los flujos de trabajo cotidianos.
Cómo Microsoft está transformando los LLM
El enfoque de Microsoft para crear IA orientada a la acción sigue un proceso estructurado. El objetivo principal es permitir que los LLM comprendan comandos, planifiquen de manera eficaz y tomen medidas. Así es como lo están haciendo:
Paso 1: Recopilación y preparación de datos
En la primera fase, recopilaron datos relacionados con sus casos de uso específicos: UFO Agent (descrito a continuación). Los datos incluyen consultas de usuarios, detalles del entorno y acciones específicas de la tarea. En esta fase se recopilan dos tipos diferentes de datos: en primer lugar, recopilaron datos del plan de tareas que ayudan a los LLM a delinear los pasos de alto nivel necesarios para completar una tarea. Por ejemplo, "Cambiar el tamaño de fuente en Word" puede implicar pasos como seleccionar texto y ajustar la configuración de la barra de herramientas. En segundo lugar, recopilaron datos de acciones de tareas, lo que permite a los LLM traducir estos pasos en instrucciones precisas, como hacer clic en botones específicos o usar atajos de teclado.
Esta combinación proporciona al modelo tanto la visión general como las instrucciones detalladas que necesita para realizar tareas de manera eficaz.
Paso 2: Entrenamiento del modelo
Una vez que se recopilan los datos, los LLM se perfeccionan mediante múltiples sesiones de capacitación. En el primer paso, se los capacita para planificar tareas enseñándoles cómo desglosar las solicitudes de los usuarios en pasos viables. Luego, se utilizan los datos etiquetados por expertos para enseñarles cómo traducir estos planes en acciones específicas. Para mejorar aún más sus capacidades de resolución de problemas, los LLM se han involucrado en un proceso de exploración de autoestimulación que los capacita para abordar tareas no resueltas y generar nuevos ejemplos para el aprendizaje continuo. Finalmente, se aplica el aprendizaje de refuerzo, utilizando la retroalimentación de los éxitos y los fracasos para mejorar aún más su toma de decisiones.
Paso 3: Pruebas sin conexión
Después del entrenamiento, el modelo se prueba en entornos controlados para garantizar la confiabilidad. Métricas como Tasa de éxito de la tarea (TSR) y la tasa de éxito de pasos (SSR) se utilizan para medir el rendimiento. Por ejemplo, probar un agente de administración de calendario puede implicar verificar su capacidad para programar reuniones y enviar invitaciones sin errores.
Paso 4: Integración en sistemas reales
Una vez validado, el modelo se integra en un marco de agente. Esto le permite interactuar con entornos del mundo real, como hacer clic en botones o navegar por menús. Herramientas como las API de automatización de la interfaz de usuario ayudaron al sistema a identificar y manipular elementos de la interfaz de usuario de forma dinámica.
Por ejemplo, si se le asigna la tarea de resaltar texto en Word, el agente identifica el botón de resaltado, selecciona el texto y aplica el formato. Un componente de memoria podría ayudar a LLM a realizar un seguimiento de las acciones pasadas, lo que le permitiría adaptarse a nuevos escenarios.
Paso 5: Pruebas en el mundo real
El paso final es la evaluación en línea. En este caso, el sistema se prueba en situaciones reales para garantizar que pueda manejar cambios y errores inesperados. Por ejemplo, un bot de atención al cliente podría guiar a los usuarios para restablecer una contraseña y, al mismo tiempo, adaptarse a entradas incorrectas o información faltante. Estas pruebas garantizan que la IA sea robusta y esté lista para el uso diario.
Un ejemplo práctico: el agente OVNI
Para demostrar cómo funciona la IA orientada a la acción, Microsoft desarrolló el Agente OVNIEste sistema está diseñado para ejecutar tareas del mundo real en entornos Windows, convirtiendo las solicitudes de los usuarios en acciones completadas.
En esencia, el agente UFO utiliza un LLM para interpretar solicitudes y planificar acciones. Por ejemplo, si un usuario dice: “Resalte la palabra 'importante' en este documento”, el agente interactúa con Word para completar la tarea. Recopila información contextual, como las posiciones de los controles de la interfaz de usuario, y la utiliza para planificar y ejecutar acciones.
El agente OVNI se basa en herramientas como la Automatización de la interfaz de usuario de Windows (UIA) API. Esta API escanea las aplicaciones en busca de elementos de control, como botones o menús. Para una tarea como “Guardar el documento como PDF”, el agente utiliza la UIA para identificar el botón “Archivo”, localizar la opción “Guardar como” y ejecutar los pasos necesarios. Al estructurar los datos de manera consistente, el sistema garantiza un funcionamiento sin problemas desde el entrenamiento hasta la aplicación en el mundo real.
Superando retos
Si bien se trata de un avance emocionante, la creación de una IA orientada a la acción conlleva desafíos. La escalabilidad es un problema importante. El entrenamiento y la implementación de estos modelos en diversas tareas requieren recursos significativos. Garantizar la seguridad y la confiabilidad es igualmente importante. Los modelos deben realizar tareas sin consecuencias no deseadas, especialmente en entornos sensibles. Y como estos sistemas interactúan con datos privados, mantener estándares éticos en torno a la privacidad y la seguridad también es crucial.
La hoja de ruta de Microsoft se centra en mejorar la eficiencia, ampliar los casos de uso y mantener los estándares éticos. Con estos avances, los LLM podrían redefinir la forma en que la IA interactúa con el mundo, haciéndolos más prácticos, adaptables y orientados a la acción.
El futuro de la IA
La transformación de los LLM en agentes orientados a la acción podría ser un punto de inflexión. Estos sistemas pueden automatizar tareas, simplificar flujos de trabajo y hacer que la tecnología sea más accesible. El trabajo de Microsoft en IA orientada a la acción y herramientas como UFO Agent es solo el comienzo. A medida que la IA siga evolucionando, podemos esperar sistemas más inteligentes y capaces que no solo interactúen con nosotros, sino que también realicen tareas.