Connect with us

Как предвзятость убьет вашу стратегию ИИ/МЛ и что с этим делать

Лидеры мнений

Как предвзятость убьет вашу стратегию ИИ/МЛ и что с этим делать

mm

‘Предвзятость’ в моделях любого типа описывает ситуацию, в которой модель реагирует неточно на запросы или входные данные, потому что она не была обучена на достаточном количестве высококачественных, разнообразных данных, чтобы обеспечить точный ответ. Одним из примеров может служить функция распознавания лиц Apple для разблокировки телефона, которая не сработала с значительно более высокой частотой для людей с более темным цветом кожи по сравнению с более светлыми тонами. Модель не была обучена на достаточном количестве изображений людей с более темной кожей. Это был относительно низкорисковый пример предвзятости, но именно поэтому Закон ЕС об ИИ ввел требования доказать эффективность модели (и контроли) перед выходом на рынок. Модели с выходными данными, которые влияют на бизнес, финансовые, здоровье или личные ситуации, должны быть достоверными, или они не будут использоваться.

Борьба с предвзятостью с помощью данных

Большие объемы высококачественных данных

Среди многих важных практик управления данными ключевым компонентом для преодоления и минимизации предвзятости в моделях ИИ/МЛ является приобретение больших объемов высококачественных, разнообразных данных. Это требует сотрудничества с несколькими организациями, которые имеют такие данные. Традиционно приобретение данных и сотрудничество осложнены проблемами конфиденциальности и/или защиты интеллектуальной собственности – конфиденциальные данные не могут быть отправлены владельцу модели, и владелец модели не может рисковать утечкой своей интеллектуальной собственности владельцу данных. Обычным выходом из этой ситуации является работа с模拟ными или синтетическими данными, которые могут быть полезными, но также имеют ограничения по сравнению с использованием реальных, полноконтекстных данных. Именно здесь технологии, повышающие конфиденциальность (PETs), предоставляют многочисленные ответы.

Синтетические данные: близко, но не совсем

Синтетические данные искусственно генерируются для имитации реальных данных. Это сложно, но становится немного проще с помощью инструментов ИИ. Хорошие синтетические данные должны иметь те же расстояния между признаками, что и реальные данные, или они не будут полезными. Качественные синтетические данные могут быть использованы для эффективного увеличения разнообразия обучающих данных, заполняя пробелы для меньших, маргинализированных популяций или для популяций, для которых поставщик ИИ просто не имеет достаточно данных. Синтетические данные также могут быть использованы для решения крайних случаев, которые могут быть трудно найти в достаточных объемах в реальном мире. Кроме того, организации могут сгенерировать синтетический набор данных, чтобы удовлетворить требованиям резидентности и конфиденциальности данных, которые блокируют доступ к реальным данным. Это звучит хорошо; однако, синтетические данные являются лишь частью пазла, а не решением.

Одним из очевидных ограничений синтетических данных является разрыв с реальным миром. Например, автономные транспортные средства, обученные исключительно на синтетических данных, будут испытывать трудности с реальными, непредвиденными дорожными условиями. Кроме того, синтетические данные наследуют предвзятость от реальных данных, использованных для их генерации – практически сводя на нет цель нашего обсуждения. В заключение, синтетические данные являются полезным вариантом для тонкой настройки и решения крайних случаев, но значительные улучшения эффективности модели и минимизации предвзятости все еще зависят от доступа к реальным данным.

Лучший способ: реальные данные через рабочие процессы, использующие PETs

PETs защищают данные во время их использования. Когда речь идет о моделях ИИ/МЛ, они также могут защищать интеллектуальную собственность модели – «два зайца, один выстрел». Решения, использующие PETs, предоставляют возможность обучать модели на реальных, конфиденциальных наборах данных, которые ранее были недоступны из-за проблем конфиденциальности и безопасности данных. Это разблокирование потоков данных к реальным данным является лучшим вариантом для снижения предвзятости. Но как это будет работать на практике?

На данный момент ведущие варианты начинаются с конфиденциальной вычислительной среды. Затем происходит интеграция с программным решением на основе PETs, которое делает его готовым к использованию сразу после установки, решая требования управления данными и безопасности, которые не входят в стандартную доверенную среду выполнения (TEE). С этим решением модели и данные все зашифрованы перед отправкой в защищенную вычислительную среду. Эта среда может быть размещена где угодно, что важно при решении определенных требований локализации данных. Это означает, что как интеллектуальная собственность модели, так и безопасность входных данных поддерживаются во время вычислений – даже поставщик доверенной среды выполнения не имеет доступа к моделям или данным внутри нее. Зашифрованные результаты затем отправляются обратно для рассмотрения, и журналы доступны для рассмотрения.

Этот поток разблокирует лучшие данные, независимо от того, где они находятся или кто ими владеет, создавая путь к минимизации предвзятости и высокоэффективным моделям, которым мы можем доверять. Этот поток также является тем, что Закон ЕС об ИИ описал в своих требованиях для регулируемого песочница ИИ.

Обеспечение этической и юридической соответствия

Приобретение хороших качественных, реальных данных – сложная задача. Требования конфиденциальности и локализации данных сразу же ограничивают наборы данных, к которым могут получить доступ организации. Для инноваций и роста данные должны поступать к тем, кто может извлечь из них ценность.

Статья 54 Закона ЕС об ИИ устанавливает требования для «высокорисковых» типов моделей в отношении того, что должно быть доказано перед тем, как они могут быть выведены на рынок. Коротко говоря, командам необходимо использовать реальные данные внутри регулируемого песочница ИИ, чтобы продемонстрировать достаточную эффективность модели и соответствие всем контролям, изложенным в главе 2 раздела III. Контроли включают мониторинг, прозрачность, объяснимость, безопасность данных, защиту данных, минимизацию данных и защиту модели – думайте DevSecOps + Data Ops.

Первым вызовом будет найти реальный набор данных для использования – поскольку такие данные являются по своей сути конфиденциальными для таких типов моделей. Без технических гарантий многие организации могут колебаться, доверять ли поставщику модели свои данные или не будут разрешены сделать это. Кроме того, способ, которым акт определяет «регулируемый песочниц ИИ», является вызовом сам по себе. Некоторые из требований включают гарантию того, что данные удаляются из системы после выполнения модели, а также механизмы управления, принуждения и отчетности, чтобы доказать это.

Многие организации пытались использовать готовые комнаты для очистки данных (DCR) и доверенные среды выполнения (TEE). Но сами по себе эти технологии требуют значительного опыта и работы, чтобы операционализировать и соответствовать требованиям регулирования данных и ИИ.
DCR проще использовать, но пока не полезны для более прочных потребностей ИИ/МЛ. TEE – это защищенные серверы и все еще требуют интегрированной платформы сотрудничества, чтобы быть полезными, быстро. Это, однако, выявляет возможность для платформ технологий, повышающих конфиденциальность, интегрироваться с TEE, чтобы удалить эту работу, тривиализируя настройку и использование регулируемого песочница ИИ, и, следовательно, приобретение и использование конфиденциальных данных.

Позволяя использовать более разнообразные и полные наборы данных в сохраняющей конфиденциальность манере, эти технологии помогают обеспечить, чтобы практики ИИ и МЛ соответствовали этическим стандартам и юридическим требованиям, связанным с конфиденциальностью данных (например, GDPR и Закон ЕС об ИИ в Европе). В заключение, хотя требования часто встречаются с недовольными звуками, эти требования просто направляют нас на построение лучших моделей, которым мы можем доверять и полагаться на важные решения, основанные на данных, при этом защищая конфиденциальность субъектов данных, используемых для разработки и настройки моделей.

Adi Hirschtein является вице-президентом по продукту в Duality Technologies. Adi имеет более 20 лет опыта как исполнитель, менеджер продукта и предприниматель, создавая и стимулируя инновации в технологических компаниях, в основном ориентированных на стартапы B2B в области данных и ИИ. До Duality Adi занимал должность вице-президента по продукту в Iguazio (компания MLOps), которая была приобретена McKinsey, и до этого он занимал должность директора по продукту в EMC после приобретения другой стартап-компании под названием Zettapoint (компания баз данных и хранения), где он занимал должность вице-президента по продукту, руководя продуктом от его создания до проникновения на рынок и роста.