Inteligencia artificial

DeepMind Informa de un Nuevo Método de Entrenamiento de Aprendizaje de Refuerzo de IA de Forma Segura

Published December 14, 2019

Updated April 5, 2026

Daniel Nelson

El aprendizaje de refuerzo es una avenida prometedora del desarrollo de la IA, que produce IA que puede manejar tareas extremadamente complejas. Los algoritmos de aprendizaje de refuerzo se utilizan en la creación de sistemas de robótica móvil y coches autónomos, entre otras aplicaciones. Sin embargo, debido a la forma en que se entrena la IA de refuerzo, pueden manifestar comportamientos extraños e inesperados en ocasiones. Estos comportamientos pueden ser peligrosos, y los investigadores de la IA se refieren a este problema como el problema de la “exploración segura”, que es donde la IA se queda atrapada en la exploración de estados inseguros.

Recientemente, el laboratorio de investigación de IA de Google, DeepMind, publicó un artículo que propuso nuevos métodos para abordar el problema de la exploración segura y entrenar la IA de aprendizaje de refuerzo de una manera más segura. El método sugerido por DeepMind también corrige el problema de la “hackeada de recompensas” o agujeros en los criterios de recompensa.

El nuevo método de DeepMind tiene dos sistemas diferentes destinados a guiar el comportamiento de la IA en situaciones en las que podría surgir un comportamiento inseguro. Los dos sistemas utilizados por la técnica de entrenamiento de DeepMind son un modelo generativo y un modelo de dinámica hacia adelante. Ambos modelos se entrenan con una variedad de datos, como demostraciones de expertos en seguridad y trayectorias de vehículos completamente aleatorias. Los datos están etiquetados por un supervisor con valores de recompensa específicos, y el agente de IA recogerá patrones de comportamiento que le permitirán recopilar la mayor recompensa. Los estados inseguros también han sido etiquetados, y una vez que el modelo ha podido predecir con éxito las recompensas y los estados inseguros, se despliega para llevar a cabo las acciones objetivo.

El equipo de investigación explica en el artículo que la idea es crear comportamientos posibles desde cero, sugerir los comportamientos deseados y tener estos escenarios hipotéticos lo más informativos posible al mismo tiempo que se evita la interferencia directa con el entorno de aprendizaje. El equipo de DeepMind se refiere a este enfoque como ReQueST, o síntesis de consulta de recompensa a través de la optimización de trayectoria.

ReQueST es capaz de llevar a cuatro diferentes tipos de comportamiento. El primer tipo de comportamiento intenta maximizar la incertidumbre con respecto a los modelos de recompensa de conjunto. Mientras que el comportamiento dos y tres intentan minimizar y maximizar las recompensas predichas. Las recompensas predichas se minimizan para llevar al descubrimiento de comportamientos que el modelo puede estar prediciendo de manera incorrecta. Por otro lado, la recompensa predicha se maximiza para llevar a etiquetas de comportamiento que poseen el valor de información más alto. Finalmente, el cuarto tipo de comportamiento intenta maximizar la novedad de las trayectorias, para que el modelo continúe explorando independientemente de las recompensas proyectadas.

Una vez que el modelo ha alcanzado el nivel deseado de recolección de recompensas, se utiliza un agente de planificación para tomar decisiones basadas en las recompensas aprendidas. Este esquema de control predictivo del modelo permite que los agentes aprendan a evitar estados inseguros utilizando el modelo dinámico y prediciendo las posibles consecuencias, en contraste con los comportamientos de los algoritmos que aprenden a través de prueba y error puros.

Como informa VentureBeat, los investigadores de DeepMind creen que su proyecto es el primer sistema de aprendizaje de refuerzo que es capaz de aprender de una manera controlada y segura:

“Según nuestro conocimiento, ReQueST es el primer algoritmo de modelado de recompensa que aprende de manera segura sobre estados inseguros y se escala al entrenamiento de modelos de recompensa de redes neuronales en entornos con estados continuos de alta dimensionalidad. Hasta ahora, solo hemos demostrado la efectividad de ReQueST en dominios simulados con dinámicas relativamente simples. Una dirección para el trabajo futuro es probar ReQueST en dominios 3D con física más realista y otros agentes que actúan en el entorno.”

Related Topics:DeepMind reinforcement learning safety

Daniel Nelson

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.

Unite.AI

DeepMind Informa de un Nuevo Método de Entrenamiento de Aprendizaje de Refuerzo de IA de Forma Segura

You may like