Inteligencia artificial

La IA puede evitar comportamientos no deseados específicos con nuevos algoritmos

Published November 23, 2019

Updated April 5, 2026

Daniel Nelson

A medida que los algoritmos y sistemas de inteligencia artificial se vuelven más sofisticados y asumen responsabilidades más grandes, es cada vez más importante garantizar que los sistemas de IA eviten comportamientos peligrosos y no deseados. Recientemente, un equipo de investigadores de la Universidad de Massachusetts Amherst y Stanford publicó un artículo que demuestra cómo se puede evitar un comportamiento específico de la IA mediante el uso de una técnica que produce instrucciones matemáticas precisas que se pueden utilizar para ajustar el comportamiento de una IA.

Según TechXplore, la investigación se basó en la suposición de que los comportamientos injustos/no seguros se pueden definir con funciones y variables matemáticas. Si esto es cierto, entonces debería ser posible para los investigadores entrenar sistemas para evitar estos comportamientos específicos. El equipo de investigación tenía como objetivo desarrollar una herramienta que los usuarios de la IA puedan utilizar para especificar qué comportamientos quieren que la IA evite, y permitir que los ingenieros de IA entrenen de manera fiable un sistema que evite acciones no deseadas cuando se utilice en escenarios del mundo real.

Phillip Thomas, el primer autor del artículo y profesor asistente de ciencias de la computación en la Universidad de Michigan Amherst, explicó que el equipo de investigación tiene como objetivo demostrar que los diseñadores de algoritmos de aprendizaje automático pueden hacer que sea más fácil para los usuarios de la IA describir comportamientos no deseados y que sea muy probable que el sistema de IA evite el comportamiento.

El equipo de investigación probó su técnica aplicándola a un problema común en la ciencia de datos, el sesgo de género. El equipo de investigación tenía como objetivo hacer que los algoritmos utilizados para predecir el GPA de los estudiantes universitarios fueran más justos al reducir el sesgo de género. El equipo de investigación utilizó un conjunto de datos experimental y ordenó a su sistema de IA que evitara la creación de modelos que subestimaran o sobreestimaran los GPA de un género en particular. Como resultado de las instrucciones de los investigadores, el algoritmo creó un modelo que predijo mejor los GPA de los estudiantes y tuvo mucho menos sesgo de género sistémico que los modelos existentes. Los modelos de predicción de GPA anteriores sufrieron de sesgo porque los modelos de reducción de sesgo a menudo eran demasiado limitados para ser útiles, o no se utilizó ninguna reducción de sesgo.

El equipo de investigación también desarrolló otro algoritmo. Este algoritmo se implementó en una bomba de insulina automática, y el algoritmo estaba diseñado para equilibrar el rendimiento y la seguridad. Las bombas de insulina automatizadas deben decidir qué dosis de insulina debe recibir un paciente después de comer, la bomba idealmente entrega una dosis de insulina lo suficientemente grande como para mantener los niveles de azúcar en sangre bajo control. Las dosis de insulina que se administran deben ser ni demasiado grandes ni demasiado pequeñas.

Los algoritmos de aprendizaje automático ya son proficientes en identificar patrones en la respuesta de un individuo a las dosis de insulina, pero estos métodos de análisis existentes no permiten a los médicos especificar resultados que deben evitarse, como caídas de azúcar en sangre. En contraste, el equipo de investigación pudo desarrollar un método que se puede entrenar para entregar dosis de insulina que se mantengan dentro de los dos extremos, evitando tanto la subdosis como la sobredosis. Aunque el sistema no está listo para ser probado en pacientes reales todavía, un sistema de IA más sofisticado basado en este enfoque podría mejorar la calidad de vida de las personas que sufren de diabetes.

En el artículo de investigación, los investigadores se refieren al algoritmo como un algoritmo “Seledonian”. Esto se refiere a las tres leyes de la robótica descritas por el autor de ciencia ficción Isaac Asimov. La implicación es que el sistema de IA “no puede dañar a un ser humano o, por inacción, permitir que un ser humano sufra daño”. El equipo de investigación espera que su marco permita a los investigadores y ingenieros de IA crear una variedad de algoritmos y sistemas que eviten comportamientos peligrosos. Emma Brunskill, autora senior del artículo y profesora asistente de ciencias de la computación en Stanford, explicó a TechXplore:

“Queremos avanzar en la IA que respete los valores de sus usuarios humanos y justifique la confianza que depositamos en los sistemas autónomos”.

Unite.AI

La IA puede evitar comportamientos no deseados específicos con nuevos algoritmos

You may like