Интервью

Вахид Бехзадан, директор лаборатории безопасного и гарантированного интеллектуального обучения (SAIL) – серия интервью

опубликованный

4 лет назад

27 апреля 2020

Вахид — доцент кафедры компьютерных наук и науки о данных в Университете Нью-Хейвена. Он также является директором Лаборатория безопасного и гарантированного интеллектуального обучения (SAIL)

Его исследовательские интересы включают безопасность интеллектуальных систем, психологическое моделирование проблем безопасности ИИ, безопасность сложных адаптивных систем, теорию игр, многоагентные системы и кибербезопасность.

У вас есть обширный опыт в области кибербезопасности и обеспечения безопасности ИИ. Можете ли вы рассказать о своем путешествии по тому, как вас привлекли обе области?

Траектория моего исследования определяется двумя моими основными интересами: выяснить, как все ломается, и изучить механику человеческого разума. Я активно занимался кибербезопасностью с раннего подросткового возраста и, следовательно, построил свою программу ранних исследований вокруг классических проблем этой области. Через несколько лет учебы в аспирантуре мне представилась редкая возможность сменить область исследований. В то время я только что наткнулся на ранние работы Сегеди и Гудфеллоу по состязательным примерам атак и нашел идею атаки на машинное обучение очень интригующей. Изучив эту проблему глубже, я узнал о более общей области безопасности и защиты ИИ и обнаружил, что она охватывает многие из моих основных интересов, таких как кибербезопасность, когнитивные науки, экономика и философия. Я также пришел к выводу, что исследования в этой области не только увлекательны, но и жизненно важны для обеспечения долгосрочных выгод и безопасности революции искусственного интеллекта.

Вы являетесь директором лаборатории безопасного и гарантированного интеллектуального обучения (SAIL), которая работает над созданием конкретных основ безопасности и защиты интеллектуальных машин. Не могли бы вы рассказать кое-что о работе, проделанной SAIL?

В SAIL я и мои студенты работаем над проблемами, которые лежат на стыке безопасности, искусственного интеллекта и сложных систем. Основное внимание в наших исследованиях уделяется изучению безопасности и защищенности интеллектуальных систем как с теоретической, так и с прикладной точки зрения. С теоретической точки зрения, в настоящее время мы изучаем проблему согласования значений в многоагентных условиях и разрабатываем математические инструменты для оценки и оптимизации целей агентов ИИ в отношении стабильности и надежного согласования. С практической стороны некоторые из наших проектов исследуют уязвимости безопасности передовых технологий искусственного интеллекта, таких как автономные транспортные средства и алгоритмическая торговля, и направлены на разработку методов оценки и повышения устойчивости таких технологий к атакам злоумышленников.

Мы также работаем над приложениями машинного обучения в кибербезопасности, такими как автоматизированное тестирование на проникновение, раннее обнаружение попыток вторжения, а также автоматизированный сбор и анализ информации об угрозах из открытых источников данных, таких как социальные сети.

Недавно вы возглавили попытку предложить моделирование проблем безопасности ИИ как психопатологических расстройств. Не могли бы вы объяснить, что это такое?

Этот проект направлен на быстро растущую сложность агентов и систем ИИ: уже очень сложно диагностировать, прогнозировать и контролировать небезопасное поведение агентов обучения с подкреплением в нетривиальных условиях, просто взглянув на их низкоуровневые конфигурации. В этой работе мы подчеркиваем необходимость абстракций более высокого уровня при исследовании таких проблем. Вдохновленные научными подходами к поведенческим проблемам у людей, мы предлагаем психопатологию в качестве полезной высокоуровневой абстракции для моделирования и анализа возникающего вредного поведения в ИИ и ОИИ. В качестве доказательства концепции мы изучаем проблему безопасности ИИ при взломе вознаграждения в агенте RL, который учится играть в классическую игру Snake. Мы показываем, что если мы добавим в окружающую среду семя «наркотика», агент обучается субоптимальному поведению, которое можно описать с помощью нейробиологических моделей зависимости. В этой работе также предлагаются методологии контроля, основанные на подходах к лечению, используемых в психиатрии. Например, мы предлагаем использовать искусственно сгенерированные сигналы вознаграждения в качестве аналога медикаментозной терапии для изменения вредоносного поведения агентов.

Есть ли у вас какие-либо опасения по поводу безопасности ИИ, когда речь идет об автономных транспортных средствах?

Автономные транспортные средства становятся яркими примерами использования ИИ в киберфизических системах. Учитывая фундаментальную уязвимость современных технологий машинного обучения к ошибкам и атакам злоумышленников, я глубоко обеспокоен безопасностью даже полуавтономных транспортных средств. Кроме того, в области автономного вождения серьезно не хватает стандартов безопасности и протоколов оценки. Тем не менее, я продолжаю надеяться. Подобно естественному интеллекту, ИИ также будет склонен к ошибкам. Тем не менее, цель беспилотных автомобилей все еще может быть достигнута, если частота и влияние таких ошибок будут ниже, чем у водителей-людей. Мы наблюдаем растущие усилия по решению этих проблем в промышленности и научных кругах, а также правительствах.

Взлом уличных знаков наклейками или другими способами можно сбить с толку модуль компьютерного зрения автономного автомобиля. Насколько серьезной, по вашему мнению, является эта проблема?

Эти стикеры и состязательные примеры в целом создают фундаментальные проблемы с надежностью моделей машинного обучения. Цитируя Джорджа Э. П. Бокса, «все модели ошибочны, но некоторые из них полезны». В состязательных примерах используется эта «неправильность» моделей, обусловленная их абстрактным характером, а также ограничениями выборочных данных, на которых они обучаются. Недавние усилия в области состязательного машинного обучения привели к огромным успехам в повышении устойчивости моделей глубокого обучения к таким атакам. С точки зрения безопасности всегда найдется способ обмануть модели машинного обучения. Однако практическая цель защиты моделей машинного обучения состоит в том, чтобы увеличить стоимость реализации таких атак до уровня экономической неосуществимости.

Ваше внимание сосредоточено на функциях безопасности как глубокого обучения, так и глубокого обучения с подкреплением. Почему это так важно?

Обучение с подкреплением (RL) — это известный метод применения машинного обучения для решения проблем, которые по определению связаны с манипулированием окружающей средой. Поэтому я считаю, что системы, основанные на RL, имеют значительно более высокие риски причинения серьезного ущерба в реальном мире по сравнению с другими методами машинного обучения, такими как классификация. Эта проблема еще больше усугубляется интеграцией глубокого обучения в RL, что позволяет использовать RL в очень сложных условиях. Кроме того, я считаю, что структура RL тесно связана с основными механизмами познания в человеческом интеллекте, и изучение ее безопасности и уязвимостей может привести к лучшему пониманию ограничений принятия решений в нашем сознании.

Считаете ли вы, что мы близки к достижению искусственного общего интеллекта (AGI)?

Это общеизвестно сложный вопрос. Я считаю, что в настоящее время у нас есть строительные блоки некоторых архитектур, которые могут способствовать появлению ОИИ. Однако может потребоваться еще несколько лет или десятилетий, чтобы улучшить эти архитектуры и повысить экономическую эффективность обучения и обслуживания этих архитектур. В ближайшие годы наши агенты будут становиться умнее с быстро растущей скоростью. Я не думаю, что о появлении ОИИ будет объявлено в виде [научно обоснованного] заголовка, а как результат постепенного прогресса. Кроме того, я думаю, что у нас до сих пор нет общепринятой методологии для проверки и обнаружения существования ОИИ, и это может задержать реализацию первых экземпляров ОИИ.

Как обеспечить безопасность в системе ОИИ, которая способна думать сама за себя и, скорее всего, будет экспоненциально более разумной, чем люди?

Я считаю, что единая теория разумного поведения — это экономика и изучение того, как агенты действуют и взаимодействуют для достижения того, чего они хотят. Решения и действия людей определяются их целями, информацией и доступными ресурсами. Общества и совместные усилия вытекают из его преимуществ для отдельных членов таких групп. Другим примером является уголовный кодекс, который сдерживает определенные решения, возлагая высокую цену на действия, которые могут нанести вред обществу. Точно так же я считаю, что контроль над стимулами и ресурсами может привести к возникновению состояния равновесия между людьми и экземплярами ОИИ. В настоящее время сообщество безопасности ИИ исследует этот тезис под эгидой проблем согласования ценностей.

Одним из направлений, за которым вы внимательно следите, является борьба с терроризмом. У вас есть опасения, что террористы захватят системы ИИ или ОИИ?

Существует множество опасений по поводу неправильного использования технологий ИИ. В случае террористических операций основное беспокойство вызывает легкость, с которой террористы могут разрабатывать и осуществлять автономные атаки. Все больше моих коллег активно предупреждают о рисках разработки автономного оружия (см. https://autonomousweapons.org/ ). Одна из основных проблем с оружием с искусственным интеллектом заключается в сложности управления базовой технологией: искусственный интеллект находится в авангарде исследований с открытым исходным кодом, и любой, у кого есть доступ к Интернету и аппаратному обеспечению потребительского уровня, может разрабатывать вредоносные системы искусственного интеллекта. Я подозреваю, что появление автономного оружия неизбежно, и считаю, что скоро возникнет потребность в новых технологических решениях для противодействия такому оружию. Это может привести к циклу кошки-мышки, который подпитывает эволюцию оружия с искусственным интеллектом, что может привести к серьезным экзистенциальным рискам в долгосрочной перспективе.

Что мы можем сделать, чтобы защитить системы ИИ от этих враждебных агентов?

Первый и самый важный шаг — это обучение: все инженеры и практики ИИ должны узнать об уязвимостях технологий ИИ и учитывать соответствующие риски при разработке и внедрении своих систем. Что касается более технических рекомендаций, существуют различные предложения и концепции решений, которые можно использовать. Например, обучение агентов машинного обучения в противоборствующих условиях может повысить их устойчивость и устойчивость к атакам уклонения и манипулирования политикой (например, см. мою статью под названием «Все, что не убивает глубокое обучение с подкреплением, делает его сильнее“). Другое решение заключается в прямом учете риска состязательных атак в архитектуре агента (например, байесовские подходы к моделированию рисков). Однако в этой области существует большой пробел, и он заключается в необходимости универсальных показателей и методологий для оценки устойчивости агентов ИИ к атакам со стороны противника. Существующие решения в основном носят разовый характер и не обеспечивают общих показателей устойчивости ко всем типам атак.

Есть ли что-то еще, чем вы хотели бы поделиться по любой из этих тем?

В 2014 году Скалли и соавт. опубликовал статью на конференции NeurIPS с очень поучительной темой: «Машинное обучение: высокопроцентная кредитная карта технического долга“. Несмотря на все достижения в этой области за последние несколько лет, это утверждение до сих пор не утратило своей актуальности. Текущее состояние ИИ и машинного обучения не что иное, как впечатляющее, но нам еще предстоит заполнить значительное количество серьезных пробелов как в фундаментальных, так и в технических аспектах ИИ. Этот факт, на мой взгляд, является самым важным выводом нашего разговора. Я, конечно, не хочу препятствовать коммерческому внедрению технологий ИИ, а лишь хочу, чтобы инженерное сообщество учитывало риски и ограничения существующих технологий ИИ в своих решениях.

Мне очень понравилось узнавать о проблемах безопасности и безопасности, связанных с различными типами систем искусственного интеллекта. Это действительно то, о чем должны знать отдельные лица, корпорации и правительства. Читатели, желающие узнать больше, должны посетить Лаборатория безопасного и гарантированного интеллектуального обучения (SAIL).

И Цзоу, старший технический директор, ASML Silicon Valley – серия интервью

Не пропустите

Доктор Эрик Дюссе, генеральный директор BIONIK Laboratories – серия интервью

Антуан Тардиф

Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники.

Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии.

Unite.ИИ

Вахид Бехзадан, директор лаборатории безопасного и гарантированного интеллектуального обучения (SAIL) – серия интервью

Интервью

Вахид Бехзадан, директор лаборатории безопасного и гарантированного интеллектуального обучения (SAIL) – серия интервью

Оглавление

Новости AI

Unite.ИИ

Вахид Бехзадан, директор лаборатории безопасного и гарантированного интеллектуального обучения (SAIL) – серия интервью

Оглавление

Вам может понравиться

Новости AI