Искусственный интеллект

Искусственный интеллект может избегать конкретных нежелательных поведений с помощью новых алгоритмов

Published November 23, 2019

Updated April 5, 2026

Daniel Nelson

По мере того, как алгоритмы и системы искусственного интеллекта становятся более сложными и принимают на себя более значительные обязанности, становится все более важно обеспечить, чтобы системы искусственного интеллекта избегали опасных, нежелательных поведений. Недавно команда исследователей из Университета Массачусетса в Амхерсте и Стэнфорда опубликовала статью, в которой продемонстрирована возможность избегать конкретных поведений искусственного интеллекта с помощью техники, которая позволяет получить точные математические инструкции, которые можно использовать для корректировки поведения искусственного интеллекта.

По данным TechXplore, исследования были основаны на предположении, что несправедливые/небезопасные поведения можно определить с помощью математических функций и переменных. Если это так, то исследователям должно быть возможно обучить системы избегать этих конкретных поведений. Команда исследователей поставила цель разработать набор инструментов, который можно использовать пользователями искусственного интеллекта для указания поведений, которых они хотят избежать, и позволить инженерам по искусственному интеллекту надежно обучать систему, которая будет избегать нежелательных действий в реальных сценариях.

Филипп Томас, первый автор статьи и помощник профессора компьютерных наук в Университете Мичигана в Амхерсте, объяснил, что команда исследователей стремится продемонстрировать, что разработчики алгоритмов машинного обучения могут сделать более простым для пользователей искусственного интеллекта описывать нежелательные поведения и сделать более вероятным, что система искусственного интеллекта будет избегать этих поведений.

Команда исследователей протестировала свою технику, применив ее к общей проблеме в области науки о данных, гендерному предвзятому отношению. Команда исследователей поставила цель сделать алгоритмы, используемые для прогнозирования среднего балла студентов колледжа, более справедливыми за счет снижения гендерного предвзятого отношения. Команда исследователей использовала экспериментальный набор данных и указала своей системе искусственного интеллекта избегать создания моделей, которые систематически занижали или завышали средний балл для одного пола. В результате указаний исследователей алгоритм создал модель, которая лучше прогнозировала средний балл студентов и имела значительно меньше системного гендерного предвзятого отношения, чем предыдущие модели. Предыдущие модели прогнозирования среднего балла страдали от предвзятости, поскольку модели снижения предвзятости часто были слишком ограниченными, чтобы быть полезными, или не использовались вовсе.

Команда исследователей также разработала другой алгоритм. Этот алгоритм был реализован в автоматическом инсулиновом насосе, и алгоритм был предназначен для балансирования между производительностью и безопасностью. Автоматические инсулиновые насосы должны решать, какую дозу инсулина следует вводить пациенту после еды, идеально доставляя дозу инсулина, достаточную для поддержания уровня сахара в крови в норме. Дозы инсулина, которые вводятся, не должны быть слишком большими или слишком маленькими.

Алгоритмы машинного обучения уже достаточно эффективны в выявлении закономерностей в реакции человека на дозы инсулина, но существующие методы анализа не позволяют врачам указывать результаты, которых следует избегать, такие как падения уровня сахара в крови. Напротив, команда исследователей смогла разработать метод, который можно обучить доставлять дозы инсулина, оставаясь в пределах двух крайностей, предотвращая как недооценку, так и переоценку. Хотя система еще не готова для тестирования на реальных пациентах, более совершенная система искусственного интеллекта, основанная на этом подходе, может улучшить качество жизни людей, страдающих диабетом.

В исследовательской статье исследователи называют алгоритм “Селедонианским” алгоритмом. Это отсылка к трем законам робототехники, описанным научно-фантастическим автором Айзеком Азимовым. Это означает, что система искусственного интеллекта “не может причинить вреда человеку или, не предпринимая действий, позволить человеку пострадать”. Команда исследователей надеется, что их框架 позволит исследователям и инженерам по искусственному интеллекту создать различные алгоритмы и системы, которые избегают опасных поведений. Эмма Брунскилл, старший автор статьи и помощник профессора компьютерных наук в Стэнфорде, объяснила TechXplore:

“Мы хотим продвигать искусственный интеллект, который уважает ценности своих человеческих пользователей и оправдывает доверие, которое мы возлагаем на автономные системы.”

Unite.AI

Искусственный интеллект может избегать конкретных нежелательных поведений с помощью новых алгоритмов

You may like