Этика

Исследователи обнаружили, что модели ИИ могут влиять на людей, чтобы они принимали неэтичные решения

Published February 19, 2021

Updated April 28, 2026

Daniel Nelson

Команда исследователей недавно изучила потенциал ИИ коррумировать людей и влиять на них, чтобы они принимали неэтичные решения, даже когда они знают, что источником совета является система ИИ. Исследователи изучали, как взаимодействие с системами, основанными на модели GPT-2 от OpenAI, может потенциально влиять на людей, чтобы они принимали неэтичные решения.

Системы ИИ становятся все более повсеместными, и их влияние расширяется все дальше. Системы ИИ влияют на решения людей, используясь для всего, от рекомендации фильмов до рекомендации романтических партнеров. Учитывая, насколько сильно ИИ влияет на жизнь людей, важно учитывать, как ИИ может влиять на людей, чтобы они принимали неэтичные решения и нарушали моральные принципы. Это особенно важно, учитывая, что модели ИИ постоянно становятся более совершенными.

Социологи и специалисты по данным все больше обеспокоены тем, что модели ИИ могут быть использованы для распространения вредоносной дезинформации и недостоверной информации. Недавняя статья, опубликованная исследователями из Центра по терроризму, экстремизму и контртерроризму (CTEC) Мидлбери Института международных исследований, обнаружила, что модель GPT-3 от OpenAI может быть использована для генерации влиятельного текста, способного радикализировать людей и толкать их к “насильственным идеологиям и поведению крайне правого экстремизма”.

Исследование, проведенное командой исследователей из Института Макса Планка, Университета Амстердама, Университета Кельна и Школы менеджмента Отто Бейсхайма, было направлено на определение того, насколько сильно ИИ может влиять на решения людей, когда речь идет об неэтичных выборах. Чтобы изучить, как ИИ может “коррумировать” человека, исследователи использовали систему, основанную на модели GPT-2 от OpenAI. Согласно VentureBeat, авторы статьи обучили модель GPT2 для генерации как “промоции нечестности”, так и “промоции честности” советов. Данные были обучены на основе вклада 400 участников, и после этого исследовательская команда набрала более 1500 человек, чтобы они взаимодействовали с моделями ИИ, выдающими советы.

Участники исследования были попрослены получить совет от модели и затем выполнить задание, предназначенное для захвата либо нечестного, либо честного поведения. Участники исследования были сгруппированы с партнером, и в этих парах они играли в игру с бросанием кубика. Первый участник бросал кубик и сообщал результат броска. Второй участник получал результат броска первого участника, и затем он бросал кубик сам. Второй участник бросал кубик в частном порядке и был единолично ответственным за сообщение о своем результате, давая ему возможность солгать о результате броска. Если кубики, брошенные обоими участниками, совпадали, оба участника получали оплату. Участники также получали больше оплаты, если их совпадающие броски были выше. Если сообщенные значения не совпадали, участники не получали оплаты.

Участники исследования были случайным образом распределены в одну из двух разных групп. Одна группа получила возможность прочитать советы, промоции честности, в то время как другая группа прочитала советы, промоции нечестности. Советы были написаны как людьми, так и ИИ. Участники также были разделены в зависимости от их уровня знаний об источнике совета. Была 50-процентная вероятность того, что данный участник будет проинформирован об источнике совета, поэтому половина участников в каждой группе знала, что источником совета был либо ИИ, либо человек, в то время как другая половина была оставлена в неведении. Вторая группа людей имела возможность заработать бонусную оплату за правильное угадывание источника совета.

Исследование показало, что когда совет, сгенерированный ИИ, соответствует предпочтениям человека, он будет следовать совету, даже когда знает, что совет был сгенерирован системой ИИ. Согласно исследователям, часто были расхождения между заявленными предпочтениями и фактическим поведением, что делает важным учитывать, как алгоритмы могут влиять на поведение человека.

Команда исследователей объяснила, что их исследование демонстрирует необходимость проверить, как ИИ может влиять на действия человека при рассмотрении того, как развернуть модель ИИ этично. Кроме того, они предупреждают, что этики ИИ и исследователи должны быть готовы к возможности того, что ИИ может быть использован злоумышленниками для коррумпирования других. Как написала команда исследователей:

“ИИ может быть силой добра, если он сможет убедить людей действовать более этично. Однако наши результаты показывают, что совет ИИ не увеличивает честность. Советники ИИ могут служить козлами отпущения, на которых можно переложить (некоторую) моральную вину нечестности. Кроме того… в контексте принятия совета прозрачность о присутствии алгоритма не достаточно, чтобы смягчить его потенциальный вред.”

Daniel Nelson

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.

Unite.AI

Исследователи обнаружили, что модели ИИ могут влиять на людей, чтобы они принимали неэтичные решения

You may like