Лидеры мнений

AI-Первое означает Безопасность-Первое

Published December 16, 2025

Updated April 1, 2026

Joe Anderson, Senior Director of Consulting and Digital Transformation at TaskUs

Купите ребенку совершенно новый велосипед, и все внимание будет уделено велосипеду, а не блестящему шлему, который прилагается к нему. Но родители ценят шлем.

Боюсь, что многие из нас сегодня похожи на детей, когда речь идет об ИИ. Мы сосредоточены на том, насколько это круто и как быстро мы можем ехать на нем. Не так много на том, что мы можем сделать, чтобы остаться в безопасности, используя его. Это жаль, потому что вы не можете получить пользу от одного без другого.

Просто говоря, применение ИИ без тщательного планирования безопасности сначала не только рискованно. Это прямой путь xuống обрыва.

Что такое безопасность ИИ?

Безопасность ИИ включает в себя множество шагов. Но, возможно, наиболее важным элементом является когда их предпринимать. Чтобы быть эффективным, безопасность ИИ должна быть по дизайну.

Это означает, что мы рассматриваем, как предотвратить вред, прежде чем мы его протестируем. Мы выясняем, как убедиться, что ИИ работает и генерирует результаты в соответствии с нашими ценностями и социальными ожиданиями сначала, а не после того, как мы получим ужасные результаты.

Проектирование для безопасности ИИ также включает в себя размышления о том, как сделать его прочным, или способным работать предсказуемо даже в неблагоприятных ситуациях. Это означает, что ИИ должен быть прозрачным, чтобы решения, принимаемые ИИ, были понятными, аудиторными и беспристрастными.

Но это также включает в себя взгляд на мир, в котором ИИ будет функционировать. Какие институциональные и правовые меры безопасности нам нужны, особенно для соблюдения применимых государственных правил? И я не могу переоценить компонент человека: Какое будет влияние использования ИИ на людей, которые взаимодействуют с ним?

Безопасность по дизайну означает внедрение безопасности ИИ во все наши процессы, рабочие процессы и операции, прежде чем мы введем наш первый запрос.

Риски перевешивают опасения

Не все согласны. Когда они слышат “безопасность-сначала”, некоторые слышат “шагайте так осторожно и медленно, что вы отстаете”. Конечно, это не то, что означает безопасность-сначала. Это не должно задушить инновации или замедлить время выхода на рынок. И это не означает бесконечный поток пилотов, которые никогда не масштабируются. Напротив.

Это означает понимание рисков не проектирования безопасности в ИИ. Рассмотрите всего несколько.

Deloitte’s Center for Financial Services прогнозирует, что GenAI может быть ответственным за убытки от мошенничества в размере 40 миллиардов долларов США только в США к 2027 году, с 12,3 миллиарда долларов США в 2023 году, темп роста 32% в год.
Предвзятые решения. Документы предвзятого медицинского ухода из-за ИИ, который был обучен на предвзятых данных.
Плохие решения, которые вдохновляют больше плохих решений. Хуже, чем первоначальное плохое решение, вызванное неисправным ИИ, исследования показывают, что эти неисправные решения могут стать частью того, как мы думаем и принимаем будущие решения.
Реальные последствия. ИИ, который дает плохие медицинские советы, был ответственным за смертельные исходы пациентов. Юридические проблемы возникли из-за цитирования галлюцинации ИИ как юридического прецедента. И программные ошибки, возникшие из-за того, что помощник ИИ давал неверную информацию, испортили продукцию компании и ее репутацию и привели к широкому недовольству пользователей.

И все это вот-вот станет еще более интересным.

Наступление и быстрое внедрение агентного ИИ, ИИ, который может функционировать автономно, чтобы принимать решения на основе решений, которые он принял, увеличит важность проектирования для безопасности ИИ.

Агент ИИ, который может действовать от вашего имени, может быть чрезвычайно полезным. Вместо того, чтобы рассказывать вам о лучших рейсах для поездки, он может найти их и забронировать для вас. Если вы хотите вернуть продукт, агент ИИ компании может не только рассказать вам о политике возврата и том, как подать заявку на возврат, но и обработать всю транзакцию для вас.

Отлично – пока агент не галлюцинирует рейс или не ошибается с вашей финансовой информацией. Или не ошибается в политике возврата компании и не отказывает в действительных возвратах.

Не так сложно увидеть, как настоящие риски безопасности ИИ могут легко каскадировать с целой серией агентов ИИ, которые бегут и принимают решения, и особенно поскольку они не будут действовать в одиночку. Большая часть реальной ценности агентного ИИ будет заключаться в командах агентов, где отдельные агенты обрабатывают части задач и сотрудничают – агент с агентом – чтобы выполнить работу.

Итак, как вы можете принять безопасность ИИ по дизайну, не препятствуя инновациям и не убивая его потенциальной ценности?

Безопасность по дизайну в действии

Случайные проверки безопасности не являются ответом. Но интеграция практик безопасности в каждую фазу реализации ИИ является.

Начните с данных. Убедитесь, что данные помечены, аннотированы при необходимости, свободны от предвзятости и имеют высокое качество. Это особенно верно для обучающих данных.

Обучайте свои модели с помощью обратной связи человека, поскольку суждение человека является важным для формирования поведения модели. Обучение с помощью обратной связи человека (RLHF) и другие подобные методы позволяют аннотаторам оценивать и направлять ответы, помогая языковым моделям генерировать выходные данные, которые являются безопасными и соответствуют человеческим ценностям.

Затем, прежде чем выпустить модель, протестируйте ее на прочность. Красные команды, которые пытаются спровоцировать не безопасное поведение с помощью враждебных запросов, краевых случаев и попыток побега, могут выявить уязвимости. Исправление их до того, как они достигнут публики, сохраняет безопасность до того, как возникнет проблема.

Пока это тестирование гарантирует, что ваши модели ИИ являются прочными, продолжайте контролировать их с учетом возникающих угроз и корректировок, которые могут быть необходимы для моделей.

Аналогичным образом, регулярно контролируйте источники контента и цифровые взаимодействия на предмет признаков мошенничества. Критически, используйте гибридный подход ИИ-человека, позволяя автоматизации ИИ заниматься огромным объемом данных, подлежащих контролю, и квалифицированным людям заниматься обзорами для обеспечения соблюдения и точности.

Применение агентного ИИ требует еще большей осторожности. Основное требование: обучите агента знать его ограничения. Когда он сталкивается с неопределенностью, этическими дилеммами, новыми ситуациями или особенно важными решениями, убедитесь, что он знает, как попросить о помощи.

Кроме того, спроектируйте отслеживаемость в ваши агенты. Это особенно важно, чтобы их взаимодействия происходили только с проверенными пользователями, чтобы избежать того, что мошеннические акторы влияют на действия агента.

Если они, кажется, работают эффективно, может быть заманчиво выпустить их и дать им сделать свое дело. Наш опыт говорит о том, чтобы продолжать контролировать их и задачи, которые они выполняют, чтобы следить за ошибками или неожиданным поведением. Используйте как автоматические проверки, так и обзор человека.

На самом деле, важнейшим элементом безопасности ИИ является регулярное участие человека. Люди должны быть намеренно вовлечены там, где критическое суждение, сочувствие или нюансы и двусмысленность участвуют в решении или действии.

Еще раз, чтобы быть ясным, все это практики, которые вы строите в реализацию ИИ заранее, по дизайну. Они не являются результатом того, что что-то пошло не так, и затем спешат выяснить, как минимизировать ущерб.

Сработает ли это?

Мы применяем философию безопасности ИИ-сначала и框워크 “по дизайну” с нашими клиентами на протяжении всего возникновения GenAI и теперь на быстром пути к агентному ИИ. Мы обнаружили, что, вопреки опасениям о том, что это замедляет все, это на самом деле помогает ускорить все.

Агентный ИИ имеет потенциал снизить стоимость поддержки клиентов на 25-50%, например, при этом повышая удовлетворенность клиентов. Но все это зависит от доверия.

Люди, использующие ИИ, должны доверять ему, и клиенты, взаимодействующие с агентами, работающими с ИИ, или с реальными агентами ИИ, не могут испытать ни одного взаимодействия, которое бы подорвало их доверие. Одно плохое впечатление может уничтожить доверие к бренду.

Мы не доверяем тому, что не является безопасным. Итак, когда мы строим безопасность в каждый слой ИИ, который мы собираемся выпустить, мы можем сделать это с уверенностью. И когда мы готовы масштабировать его, мы можем сделать это быстро – с уверенностью.

Хотя реализация безопасности ИИ-сначала может показаться ошеломляющей, вы не одни. Есть много экспертов, которые могут помочь, и партнеров, которые могут поделиться тем, что они узнали и учатся, чтобы вы могли использовать ценность ИИ безопасно, не замедляя вас.

ИИ был захватывающей поездкой до сих пор, и когда поездка ускоряется, я нахожу это волнующим. Но я также рад, что я ношу свой шлем.

Unite.AI

AI-Первое означает Безопасность-Первое

Что такое безопасность ИИ?

Риски перевешивают опасения

Безопасность по дизайну в действии

Сработает ли это?

You may like