Лидеры мнений

Как объяснимый ИИ строит доверие и подотчетность

Опубликовано 21 мая 2025

Обновлено 19 мая 2026

Jamie Twiss, Генеральный директор Carrington Labs

Компании уже погрузились в внедрение ИИ, спеша развернуть чат-ботов, генераторов контента и инструментов поддержки принятия решений во всех своих операциях. Согласно McKinsey, 78% компаний используют ИИ хотя бы в одной бизнес-функции.

Спешка внедрения понятна — все видят потенциальную ценность. Но в этом спешке многие организации упускают из виду тот факт, что все технологии, основанные на нейронных сетях, включая каждый LLM и генеративную систему ИИ, используемую сегодня и в будущем, имеют существенный недостаток: они непредсказуемы и в конечном итоге неконтролируемы.

Как некоторые узнали, это может иметь реальные последствия. В одном дилерском центре Chevrolet, который развернул чат-бот на своем сайте, клиент убедил чат-бот, работающий на ChatGPT, продать ему Chevy Tahoe за 1 доллар вместо 58 195 долларов. Другой клиент попросил чат-бот написать Python-скрипт для сложных уравнений динамики жидкости, что он с радостью сделал. Дилерский центр быстро отключил ботов после того, как эти инциденты стали вирусными.

В прошлом году Air Canada проиграла дело в суде небольшой инстанции, когда утверждала, что ее чат-бот, который предоставил пассажиру неверную информацию о скидке на скорость, «является отдельной юридической сущностью, ответственной за свои собственные действия».

Эта непредсказуемость возникает из-за фундаментальной архитектуры LLM. Они настолько велики и сложны, что невозможно понять, как они приходят к конкретным ответам или предсказать, что они сгенерируют, пока они не произведут вывод. Большинство организаций реагируют на эту проблему надежности, не полностью осознавая ее.

Самый простой способ решить эту проблему — проверить результаты ИИ вручную, что работает, но сильно ограничивает потенциал технологии. Когда ИИ используется как личный помощник — для создания текста, ведения протоколов заседаний, суммирования документов и помощи в кодировании — он обеспечивает скромные производственные выгоды. Не достаточно, чтобы революционизировать экономику.

Истинные выгоды от ИИ появятся, когда мы перестанем использовать его для помощи в существующих работах и вместо этого перепроектируем целые процессы, системы и компании, чтобы использовать ИИ без человеческого вмешательства на каждом шаге. Рассмотрим обработку кредитов: если банк дает кредитным офицерам помощника ИИ для суммирования заявок, они могут работать на 20-30% быстрее. Но развертывание ИИ для обработки всего процесса принятия решений (с соответствующими мерами безопасности) может сократить затраты более чем на 90% и исключить почти все время обработки. Это разница между инкрементным улучшением и трансформацией.

Путь к надежной реализации ИИ

Чтобы использовать полный потенциал ИИ без подчинения его непредсказуемости, требуется сложная смесь технических подходов и стратегического мышления. Хотя несколько текущих методов предлагают частичные решения, каждое из них имеет существенные ограничения.

Некоторые организации пытаются смягчить проблемы надежности с помощью системного подтолкновения — тонкого направления поведения ИИ в желаемых направлениях, чтобы он реагировал на определенные входные данные определенным образом. Исследователи Anthropic продемонстрировали хрупкость этого подхода, выявив «функцию Золотых Ворот» в нейронной сети Claude и, искусственно усилив ее, заставили Claude развить кризис идентичности. Когда его спросили о его физической форме, вместо того, чтобы признать, что у него нет формы, Claude заявил, что он является Золотыми Воротами самих по себе. Этот эксперимент показал, насколько легко можно изменить основную работу модели и что каждый толчок представляет собой компромисс, потенциально улучшая один аспект производительности, но ухудшая другие.

Другой подход — использовать ИИ для мониторинга другого ИИ. Хотя этот многослойный подход может поймать некоторые ошибки, он вводит дополнительную сложность и все равно не обеспечивает полной надежности. Жесткие ограничения — это более прямое вмешательство, например, блокирование ответов, содержащих определенные ключевые слова или шаблоны, такие как ингредиенты для производства оружия. Хотя они эффективны против известных проблем, эти ограничения не могут предвидеть новые проблемные выводы, которые возникают из этих сложных систем.

Более эффективный подход — создание процессов, ориентированных на ИИ, которые могут работать автономно, с человеческим надзором, стратегически позиционированным для обнаружения проблем надежности до того, как они вызовут реальные проблемы. Вы не хотели бы, чтобы ИИ напрямую одобрял или отклонял заявки на кредит, но ИИ мог бы провести первоначальную оценку для человеческих операторов, чтобы просмотреть ее. Это может сработать, но оно полагается на человеческую бдительность, чтобы поймать ошибки ИИ, и подрывает потенциальные выгоды от использования ИИ.

Строительство будущего

Эти частичные решения указывают на более комплексный подход. Организации, которые фундаментально переосмысливают, как выполняется их работа, а не просто дополняют существующие процессы с помощью ИИ, получат наибольшее преимущество. Но ИИ никогда не должен быть последним шагом в высокорисковом процессе или решении, поэтому какой лучший путь вперед?

Сначала ИИ создает повторяемый процесс, который будет надежно и прозрачно обеспечивать последовательные результаты. Во-вторых, люди проверяют процесс, чтобы убедиться, что они понимают, как он работает, и что входные данные подходят. Наконец, процесс работает автономно — без использования ИИ — с периодическим человеческим просмотром результатов.

Рассмотрим страховую отрасль. Традиционный подход может добавить помощников ИИ, чтобы помочь обработчикам претензий работать более эффективно. Более революционный подход будет использовать ИИ для разработки новых инструментов — таких как компьютерное зрение, которое анализирует фотографии повреждений, или улучшенные модели обнаружения мошенничества, которые выявляют подозрительные закономерности — и затем объединяет эти инструменты в автоматизированные системы, управляемые четкими, понятными правилами. Люди будут проектировать и контролировать эти системы, а не обрабатывать отдельные претензии.

Этот подход сохраняет человеческий надзор на критическом этапе, где он имеет наибольшее значение: проектировании и проверке системы самой по себе. Он позволяет достичь экспоненциальных выгод в эффективности, исключая риск того, что непредсказуемость ИИ приведет к вредным последствиям в отдельных случаях.

ИИ может выявить потенциальные индикаторы способности к погашению кредита в транзакционных данных, например. Человеческие эксперты могут затем оценить эти индикаторы на предмет справедливости и создать явные, понятные модели для подтверждения их прогностической силы.

Этот подход к объяснимому ИИ создаст более четкую границу между организациями, которые используют ИИ поверхностно, и теми, которые трансформируют свои операции вокруг него. Последние будут все больше отрываться в своих отраслях, способные предлагать продукты и услуги по ценам, которые их конкуренты не могут повторить.

В отличие от черного ящика ИИ, системы объяснимого ИИ обеспечивают сохранение значимого человеческого надзора за применением технологии, создавая будущее, где ИИ дополняет человеческий потенциал, а не просто заменяет человеческий труд.

Jamie Twiss, Генеральный директор Carrington Labs

Джейми Твисс - опытный банкир и ученый в области данных, работающий на пересечении науки о данных, искусственного интеллекта и потребительского кредитования. В настоящее время он занимает должность генерального директора Carrington Labs, ведущего поставщика решений для оценки кредитного риска и кредитования на основе объяснимого искусственного интеллекта. Ранее он занимал должность главного офицера по данным в одном из крупных австралийских банков. До этого он работал на различных должностях в банковском и финансовом секторе после начала своей карьеры в качестве консультанта в компании McKinsey & Company.

Unite.AI

Как объяснимый ИИ строит доверие и подотчетность

Путь к надежной реализации ИИ

Строительство будущего

You may like