Inteligencia artificial

AIOS: sistema operativo para agentes LLM

Publicado

Hace 2 semanas

Abril 25, 2024

AIOS: sistema operativo para agentes LLM

Durante las últimas seis décadas, los sistemas operativos han evolucionado progresivamente, avanzando desde sistemas básicos hasta sistemas operativos complejos e interactivos que alimentan los dispositivos actuales. Inicialmente, los sistemas operativos servían como puente entre la funcionalidad binaria del hardware informático, como la manipulación de puertas, y las tareas a nivel de usuario. Sin embargo, a lo largo de los años, han evolucionado desde simples sistemas de procesamiento de trabajos por lotes hasta técnicas de gestión de procesos más sofisticadas, incluidas la multitarea y el tiempo compartido. Estos avances han permitido a los sistemas operativos modernos gestionar una amplia gama de tareas complejas. La introducción de interfaces gráficas de usuario (GUI) como Windows y MacOS ha hecho que los sistemas operativos modernos sean más fáciles de usar e interactivos, al tiempo que ha ampliado el ecosistema del sistema operativo con bibliotecas de tiempo de ejecución y un conjunto completo de herramientas para desarrolladores.

Las innovaciones recientes incluyen la integración y el despliegue de Modelos de lenguaje grande (LLM), que han revolucionado varias industrias al desbloquear nuevas posibilidades. Más recientemente, los agentes inteligentes basados en LLM han demostrado capacidades notables, logrando un desempeño similar al humano en una amplia gama de tareas. Sin embargo, estos agentes aún se encuentran en las primeras etapas de desarrollo y las técnicas actuales enfrentan varios desafíos que afectan su eficiencia y eficacia. Los problemas comunes incluyen la programación subóptima de las solicitudes de los agentes en el modelo de lenguaje grande, las complejidades en la integración de agentes con diferentes especializaciones y el mantenimiento del contexto durante las interacciones entre el LLM y el agente. El rápido desarrollo y la creciente complejidad de los agentes basados en LLM a menudo conducen a cuellos de botella y a un uso subóptimo de los recursos.

Para abordar estos desafíos, este artículo analizará AIOS, un sistema operativo de agente LLM diseñado para integrar grandes modelos de lenguaje como el "cerebro" del sistema operativo, dándole efectivamente un "alma". Específicamente, el marco AIOS tiene como objetivo facilitar el cambio de contexto entre agentes, optimizar la asignación de recursos, proporcionar servicios de herramientas para los agentes, mantener el control de acceso y permitir la ejecución simultánea de agentes. Profundizaremos en el marco AIOS, exploraremos sus mecanismos, metodología y arquitectura, y lo compararemos con marcos de última generación. Vamos a sumergirnos.

Después de lograr un éxito notable en grandes modelos de lenguaje, el próximo enfoque de la industria de la IA y el aprendizaje automático es desarrollar agentes de IA autónomos que puedan operar de forma independiente, tomar decisiones por sí mismos y realizar tareas con una intervención humana mínima o nula. Estos agentes inteligentes basados en IA están diseñados para comprender instrucciones humanas, procesar información, tomar decisiones y emprender acciones apropiadas para lograr un estado autónomo, y la llegada y el desarrollo de grandes modelos de lenguaje aportan nuevas posibilidades para el desarrollo de estos agentes autónomos. Los marcos LLM actuales, incluidos DALL-E, GPT y más, han demostrado habilidades notables para comprender las instrucciones humanas, el razonamiento y las habilidades de resolución de problemas, e interactuar con usuarios humanos junto con entornos externos. Construidos sobre estos potentes y capaces modelos de lenguaje de gran tamaño, los agentes basados en LLM tienen sólidas capacidades de cumplimiento de tareas en diversos entornos que van desde asistentes virtuales hasta sistemas más complejos y sofisticados que implican la creación de resolución de problemas, razonamiento, planificación y ejecución.

La figura anterior ofrece un ejemplo convincente de cómo un agente autónomo basado en LLM puede resolver tareas del mundo real. El usuario solicita al sistema información sobre un viaje, tras lo cual el agente de viajes divide la tarea en pasos ejecutables. Luego, el agente realiza los pasos de forma secuencial, reservando vuelos, reservando hoteles, procesando pagos y más. Mientras ejecutan los pasos, lo que diferencia a estos agentes de las aplicaciones de software tradicionales es la capacidad de los agentes para mostrar capacidades de toma de decisiones e incorporar razonamiento en la ejecución de los pasos. Junto con un crecimiento exponencial en la calidad de estos agentes autónomos, la presión sobre las funcionalidades de los grandes modelos de lenguaje y los sistemas operativos ha sido testigo de un aumento, y un ejemplo de lo mismo es que priorizar y programar solicitudes de agentes en modelos de lenguaje grandes limitados plantea un desafío importante. Además, dado que el proceso de generación de grandes modelos de lenguaje se convierte en una tarea que requiere mucho tiempo cuando se trata de contextos extensos, es posible que el programador suspenda la generación resultante, lo que plantea el problema de idear un mecanismo para tomar una instantánea del resultado de la generación actual del modelo de lenguaje. . Como resultado de esto, el comportamiento de pausa/reanudación se habilita cuando el modelo de lenguaje grande no ha finalizado la generación de respuesta para la solicitud actual.

Para abordar los desafíos mencionados anteriormente, AIOS, un sistema operativo de modelo de lenguaje grande, proporciona agregaciones y aislamiento de módulos de funcionalidades LLM y OS. El marco AIOS propone un diseño de kernel específico de LLM en un intento de evitar posibles conflictos que surjan entre tareas asociadas y no asociadas con el modelo de lenguaje grande. El núcleo propuesto segrega las funciones similares al sistema operativo, especialmente las que supervisan los agentes LLM, los kits de herramientas de desarrollo y sus recursos correspondientes. Como resultado de esta segregación, el núcleo LLM intenta mejorar la coordinación y gestión de las actividades relacionadas con los LLM.

AIOS: Metodología y Arquitectura

Como puede observar, hay seis mecanismos principales involucrados en el funcionamiento del marco AIOS.

Programador de agentes: La tarea asignada al planificador de agentes es programar y priorizar las solicitudes de los agentes en un intento de optimizar la utilización del modelo de lenguaje grande.

Administrador de contexto: La tarea asignada al administrador de contexto es admitir instantáneas junto con la restauración del estado de generación intermedia en el modelo de lenguaje grande y la administración de la ventana de contexto del modelo de lenguaje grande.

Administrador de memoria: La responsabilidad principal del administrador de memoria es proporcionar memoria a corto plazo para el registro de interacción de cada agente.

Administrador de almacenamiento: El administrador de almacenamiento es responsable de conservar los registros de interacción de los agentes en un almacenamiento a largo plazo para su futura recuperación.

Administrador de herramientas: El mecanismo del administrador de herramientas gestiona la llamada de agentes a herramientas API externas.

Administrador de acceso: El administrador de acceso aplica políticas de privacidad y control de acceso entre agentes.

Además de los mecanismos mencionados anteriormente, el marco AIOS presenta una arquitectura en capas y se divide en tres capas distintas: la capa de aplicación, la capa del núcleo y la capa de hardware. La arquitectura en capas implementada por el marco AIOS garantiza que las responsabilidades se distribuyan uniformemente en todo el sistema, y las capas superiores abstraen las complejidades de las capas inferiores, lo que permite interacciones utilizando módulos o interfaces específicos, mejorando la modularidad y simplificando las interacciones del sistema entre los capas.

Comenzando con la capa de aplicación, esta capa se utiliza para desarrollar e implementar agentes de aplicaciones como agentes de matemáticas o de viajes. En la capa de aplicación, el marco AIOS proporciona al kit de desarrollo de software AIOS (AIOS SDK) una mayor abstracción de llamadas al sistema que simplifica el proceso de desarrollo para los desarrolladores de agentes. El kit de desarrollo de software ofrecido por AIOS ofrece un rico conjunto de herramientas para facilitar el desarrollo de aplicaciones de agentes al abstraer las complejidades de las funciones del sistema de nivel inferior, lo que permite a los desarrolladores centrarse en las funcionalidades y la lógica esencial de sus agentes, lo que resulta en un desarrollo más eficiente. proceso.

Continuando, la capa del kernel se divide en dos componentes: el kernel LLM y el kernel del sistema operativo. Tanto el kernel del sistema operativo como el kernel de LLM satisfacen los requisitos únicos de las operaciones específicas de LLM y no LLM, con la distinción que permite que el kernel de LLM se centre en tareas específicas de modelos de lenguaje grandes, incluida la programación de agentes y la gestión de contexto, actividades que son esenciales para manejar las actividades. relacionados con grandes modelos de lenguaje. El marco AIOS se concentra principalmente en mejorar el núcleo del modelo de lenguaje grande sin alternar significativamente la estructura del núcleo del sistema operativo existente. El kernel LLM viene equipado con varios módulos clave, incluido el programador de agentes, el administrador de memoria, el administrador de contexto, el administrador de almacenamiento, el administrador de acceso, el administrador de herramientas y la interfaz de llamadas al sistema LLM. Los componentes dentro de la capa del núcleo están diseñados en un intento de abordar las diversas necesidades de ejecución. de aplicaciones de agentes, asegurando una ejecución y gestión efectivas dentro del marco de AIOS.

Finalmente, tenemos la capa de hardware que comprende los componentes físicos del sistema, incluida la GPU, la CPU, los dispositivos periféricos, el disco y la memoria. Es esencial comprender que el sistema de los núcleos LLM no puede interactuar con el hardware directamente, y estas llamadas interactúan con las llamadas al sistema del sistema operativo que a su vez administran los recursos del hardware. Esta interacción indirecta entre el sistema del karnel de LLM y los recursos de hardware crea una capa de seguridad y abstracción, lo que permite que el kernel de LLM aproveche las capacidades de los recursos de hardware sin requerir la administración directa del hardware, facilitando el mantenimiento de la integridad y eficiencia del sistema. .

Implementación

Como se mencionó anteriormente, hay seis mecanismos principales involucrados en el funcionamiento del marco AIOS. El programador del agente está diseñado de manera que sea capaz de gestionar las solicitudes de los agentes de manera eficiente y tiene varios pasos de ejecución, contrario al paradigma de ejecución secuencial tradicional en el que el agente procesa las tareas de manera lineal con los pasos del mismo. El agente se procesa primero antes de pasar al siguiente agente, lo que genera mayores tiempos de espera para las tareas que aparecen más adelante en la secuencia de ejecución. El planificador de agentes emplea estrategias como Round Robin, First In First Out y otros algoritmos de programación para optimizar el proceso.

El administrador de contexto ha sido diseñado de manera que sea responsable de administrar el contexto proporcionado al modelo de lenguaje grande y el proceso de generación dado un contexto determinado. El administrador de contexto involucra dos componentes cruciales: instantánea y restauración del contexto, y administración de ventanas de contexto. El mecanismo de instantánea de contexto y restauración que ofrece el marco AIOS ayuda a mitigar situaciones en las que el programador suspende las solicitudes del agente, como se muestra en la siguiente figura.

Como se demuestra en la siguiente figura, es responsabilidad del administrador de memoria administrar la memoria a corto plazo dentro del ciclo de vida de un agente y garantizar que los datos se almacenen y sean accesibles solo cuando el agente esté activo, ya sea durante el tiempo de ejecución o cuando el agente esté esperando. para su ejecución.

Por otro lado, el administrador de almacenamiento es responsable de preservar los datos a largo plazo y supervisa el almacenamiento de la información que debe conservarse por un período de tiempo indefinido, más allá de la vida útil de la actividad de un agente individual. El marco AISO logra un almacenamiento permanente utilizando una variedad de medios duraderos que incluyen soluciones basadas en la nube, bases de datos y archivos locales, lo que garantiza la disponibilidad e integridad de los datos. Además, en el marco AISO, es el administrador de herramientas el que administra una variedad de herramientas API que mejoran la funcionalidad de los modelos de lenguaje grandes, y la siguiente tabla resume cómo el administrador de herramientas integra las herramientas comúnmente utilizadas de varios recursos y las clasifica. en diferentes categorías.

El administrador de acceso organiza las operaciones de control de acceso dentro de distintos agentes administrando un grupo de privilegios dedicado para cada agente y niega a un agente el acceso a sus recursos si están excluidos del grupo de privilegios del agente. Además, el administrador de acceso también es responsable de compilar y mantener registros de auditoría que mejoren aún más la transparencia del sistema.

AIOS: experimentos y resultados

La evaluación del marco AIOS está guiada por dos preguntas de investigación: primero, ¿cómo es el desempeño de la programación AIOS para mejorar la espera del saldo y el tiempo de respuesta, y segundo, si la respuesta del LLM a las solicitudes de los agentes es consistente después de la suspensión del agente?

Para responder a las preguntas de coherencia, los desarrolladores ejecutan cada uno de los tres agentes individualmente y, posteriormente, ejecutan estos agentes en paralelo e intentan capturar sus resultados durante cada etapa. Como se demuestra en la siguiente tabla, las puntuaciones BERT y BLEU alcanzan el valor de 1.0, lo que indica una alineación perfecta entre los resultados generados en configuraciones de agente único y de múltiples agentes.

Para responder a las preguntas de eficiencia, los desarrolladores realizan un análisis comparativo entre el marco AIOS que emplea programación FIFO o First In First Out y un enfoque no programado, en el que los agentes se ejecutan simultáneamente. En la configuración no programada, los agentes se ejecutan en un orden secuencial predefinido: agente matemático, agente narrador y agente recreativo. Para evaluar la eficiencia temporal, el marco AIOS emplea dos métricas: tiempo de espera y tiempo de respuesta, y dado que los agentes envían múltiples solicitudes al modelo de lenguaje grande, el tiempo de espera y el tiempo de respuesta para agentes individuales se calcula como el promedio de la Tiempo de espera y tiempo de respuesta para todas las solicitudes. Como se demuestra en la siguiente tabla, el enfoque no programado muestra un rendimiento satisfactorio para los agentes que se encuentran al principio de la secuencia, pero sufre de tiempos de espera y respuesta prolongados para los agentes que se encuentran más adelante en la secuencia. Por otro lado, el enfoque de programación implementado por el marco AIOS regula eficazmente tanto los tiempos de espera como los de respuesta.

Consideraciones Finales:

En este artículo hemos hablado de AIOS, un sistema operativo de agente LLM que está diseñado en un intento de integrar grandes modelos de lenguaje en el sistema operativo como el cerebro del sistema operativo, permitiendo un sistema operativo con alma. Para ser más específico, el marco AIOS está diseñado con la intención de facilitar el cambio de contexto entre agentes, optimizar la asignación de recursos, proporcionar servicios de herramientas para los agentes, mantener el control de acceso para los agentes y permitir la ejecución simultánea de agentes. La arquitectura AISO demuestra el potencial para facilitar el desarrollo y la implementación de agentes autónomos basados en grandes modelos de lenguaje, lo que resulta en un ecosistema AIOS-Agent más efectivo, cohesivo y eficiente.

Temas relacionados:AGENTES DE IA AIOS agentes autónomos modelo de lenguaje grande Agentes móviles sistema operativo

Hasta la próxima

Snowflake Arctic: el LLM de vanguardia para IA empresarial

No Te Lo

¿Puede la inteligencia artificial hacer que los seguros sean más asequibles?

Kunal Kejriwal

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.