Этика

Исследователи разрабатывают алгоритмы, направленные на предотвращение плохого поведения в ИИ

Published November 26, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Вместе со всеми достижениями и преимуществами, которые искусственный интеллект продемонстрировал до сих пор, были также сообщения о нежелательных побочных эффектах, таких как расовая и гендерная предвзятость в ИИ. Итак, как sciencealert.com задает вопрос «как могут ученые гарантировать, что системы продвинутого мышления могут быть справедливыми или даже безопасными?

Ответ может лежать в отчете исследователей в Стэнфорде и Университете Массачусетса в Амхерсте, озаглавленном Предотвращение нежелательного поведения интеллектуальных машин. Как eurekaalert.org отмечает в своей статье об этом отчете, ИИ сейчас начинает обрабатывать чувствительные задачи, поэтому «пolicymakers настаивают на том, чтобы компьютерные ученые предоставили гарантии, что автоматизированные системы были разработаны для минимизации, если не полностью избежать, нежелательных результатов, таких как чрезмерный риск или расовая и гендерная предвзятость.

Отчет, представленный этой командой исследователей, «излагает новый метод, который переводит нечеткую цель, такую как избежание гендерной предвзятости, в точные математические критерии, которые позволили бы алгоритму машинного обучения обучать приложение ИИ, чтобы избежать этого поведения.

Целью было, как Эмма Бранскилл, помощник профессора компьютерных наук в Стэнфорде и старший автор статьи, отмечает «мы хотим продвигать ИИ, который уважает ценности своих человеческих пользователей и оправдывает доверие, которое мы возлагаем на автономные системы.

Идея заключалась в том, чтобы определить «небезопасные» или «несправедливые» результаты или поведение в математических терминах. Это, по мнению исследователей, сделало бы возможным «создание алгоритмов, которые могут учиться на данных, как избежать этих нежелательных результатов с высокой уверенностью.

Второй целью было «разработать набор методов, которые сделали бы легко для пользователей указать, какие виды нежелательного поведения они хотят ограничить, и позволили бы разработчикам машинного обучения предсказать с уверенностью, что система, обученная на прошлых данных, может быть надежной, когда она применяется в реальных обстоятельствах.

ScienceAlert говорит, что команда назвала эту новую систему «Селдонианскими» алгоритмами, в честь главного персонажа знаменитой серии научно-фантастических романов Айзека Азимова Фондация. Филип Томас, помощник профессора компьютерных наук в Университете Массачусетса в Амхерсте и первый автор статьи, отмечает, «Если я использую Селдонианский алгоритм для лечения диабета, я могу указать, что нежелательное поведение означает опасно низкий уровень сахара в крови или гипогликемию.”

«Я могу сказать машине: «Пока вы пытаетесь улучшить контроллер в инсулиновом насосе, не делайте изменений, которые увеличили бы частоту гипогликемии». Большинство алгоритмов не дают вам способа наложить это tipo ограничение на поведение; оно не было включено в ранние дизайны».

Томас добавляет, что «этот Селдонианский каркас сделает проще для разработчиков машинного обучения встроить инструкции по избежанию поведения в различные алгоритмы, так, чтобы они могли оценить вероятность того, что обученные системы будут функционировать правильно в реальном мире.

С своей стороны, Эмма Бранскилл также отмечает, что «подумать о том, как мы можем создать алгоритмы, которые лучше всего уважают ценности, такие как безопасность и справедливость, является важным, поскольку общество все больше полагается на ИИ».

Unite.AI

Исследователи разрабатывают алгоритмы, направленные на предотвращение плохого поведения в ИИ

You may like