заглушки Как предвзятость убьет вашу стратегию искусственного интеллекта и машинного обучения и что с этим делать - Unite.AI
Свяжитесь с нами:

Лидеры мысли

Как предвзятость убьет вашу стратегию искусственного интеллекта и машинного обучения и что с этим делать

mm

опубликованный

 on

«Смещение» в моделях любого типа описывает ситуацию, в которой модель неточно реагирует на подсказки или входные данные, поскольку она не была обучена с использованием достаточного количества высококачественных и разнообразных данных для обеспечения точного ответа. Одним из примеров может быть Функция разблокировки телефона Apple с распознаванием лиц, которая значительно чаще терпела неудачу у людей с более темной кожей, чем у людей со светлыми тонами. Модель не была обучена на достаточном количестве изображений темнокожих людей. Это был пример предвзятости с относительно низким уровнем риска, но именно поэтому Закон ЕС об искусственном интеллекте выдвинул требования по доказательству эффективности модели (и средств контроля) перед ее выходом на рынок. Следует доверять моделям, результаты которых влияют на бизнес, финансы, здоровье или личные ситуации, иначе они не будут использоваться.

Борьба с предвзятостью при работе с данными

Большие объемы высококачественных данных

Среди многих важных методов управления данными Ключевым компонентом преодоления и минимизации предвзятости в моделях искусственного интеллекта и машинного обучения является получение больших объемов высококачественных и разнообразных данных.. Это требует сотрудничества с несколькими организациями, имеющими такие данные. Традиционно сбор данных и совместная работа осложняются проблемами конфиденциальности и/или защиты интеллектуальной собственности: конфиденциальные данные не могут быть отправлены владельцу модели, а владелец модели не может рисковать раскрытием своего IP-адреса владельцу данных. Распространенным обходным решением является работа с ложными или синтетическими данными, которые могут быть полезны, но также имеют ограничения по сравнению с использованием реальных полноконтекстных данных. Именно здесь технологии повышения конфиденциальности (PET) дают столь необходимые ответы.

Синтетические данные: близко, но не совсем

Синтетические данные создается искусственно для имитации реальных данных. Это сложно сделать, но с инструментами ИИ становится немного проще. Синтетические данные хорошего качества должны иметь те же расстояния между объектами, что и реальные данные, иначе они будут бесполезны. Качественные синтетические данные можно использовать для эффективного увеличения разнообразия обучающих данных путем заполнения пробелов для небольших, маргинализированных групп населения или для групп населения, для которых у поставщика ИИ просто недостаточно данных. Синтетические данные также можно использовать для решения пограничных случаев, которые может быть трудно найти в адекватных объемах в реальном мире. Кроме того, организации могут генерировать синтетический набор данных для удовлетворения требований к местонахождению данных и конфиденциальности, которые блокируют доступ к реальным данным. Это звучит великолепно; однако синтетические данные — это лишь часть головоломки, а не решение.

Одним из очевидных ограничений синтетических данных является их оторванность от реального мира. Например, автономные транспортные средства, обученные исключительно на синтетических данных, будут бороться с реальными, непредвиденными дорожными условиями. Кроме того, синтетические данные наследуют предвзятость от реальных данных, использованных для их создания, что в значительной степени противоречит цели нашего обсуждения. В заключение можно сказать, что синтетические данные являются полезным вариантом для точной настройки и решения пограничных случаев, но значительные улучшения эффективности модели и минимизация систематической ошибки по-прежнему зависят от доступа к реальным данным.

Лучший способ: реальные данные через рабочие процессы с поддержкой ПЭТ

ПЭТ защищают данные во время использования. Когда дело доходит до моделей искусственного интеллекта и машинного обучения, они также могут защитить интеллектуальную собственность используемой модели — «два зайца одним выстрелом». Решения, использующие PET, предоставляют возможность обучать модели на реальных, конфиденциальных наборах данных, которые ранее были недоступны из-за проблем конфиденциальности и безопасности данных. Такое разблокирование потоков данных для реальных данных является лучшим вариантом уменьшения предвзятости. Но как это будет работать на самом деле?

На данный момент ведущие варианты начинаются с конфиденциальной вычислительной среды. Затем следует интеграция с программным решением на основе PET, которое делает его готовым к использованию без дополнительной настройки, одновременно удовлетворяя требования к управлению данными и безопасности, которые не включены в стандартную доверенную среду выполнения (TEE). Благодаря этому решению все модели и данные шифруются перед отправкой в ​​защищенную вычислительную среду. Среду можно разместить где угодно, что важно при выполнении определенных требований по локализации данных. Это означает, что во время вычислений сохраняется как IP-адрес модели, так и безопасность входных данных — даже поставщик доверенной среды выполнения не имеет доступа к моделям или данным внутри нее. Зашифрованные результаты затем отправляются обратно на проверку, и журналы доступны для просмотра.

Этот поток открывает доступ к данным самого высокого качества, независимо от того, где они находятся и у кого они есть, создавая путь к минимизации систематических ошибок и созданию высокоэффективных моделей, которым мы можем доверять. Этот поток также описан в Законе ЕС об искусственном интеллекте в требованиях к нормативной «песочнице» в области искусственного интеллекта.

Содействие соблюдению этических и юридических норм

Получить качественные и реальные данные непросто. Требования конфиденциальности данных и локализации немедленно ограничивают наборы данных, к которым организации могут получить доступ. Чтобы инновации и экономический рост имели место, данные должны поступать к тем, кто может извлечь из них пользу.

Статья 54 Закона ЕС об искусственном интеллекте устанавливает требования к типам моделей «высокого риска» с точки зрения того, что должно быть доказано, прежде чем они могут быть выведены на рынок. Короче говоря, командам придется использовать реальные данные внутри Регуляторная песочница искусственного интеллекта чтобы продемонстрировать достаточную эффективность модели и соответствие всем элементам управления, подробно описанным в Разделе III, Главе 2. Средства управления включают мониторинг, прозрачность, объяснимость, безопасность данных, защиту данных, минимизацию данных и защиту модели — подумайте о DevSecOps + Data Ops.

Первой задачей будет найти реальный набор данных для использования, поскольку для таких типов моделей это по своей сути конфиденциальные данные. Без технических гарантий многие организации могут не решиться доверить свои данные поставщику модели или им не будет разрешено это сделать. Кроме того, определение в законе «регулятивной песочницы в области искусственного интеллекта» само по себе является непростой задачей. Некоторые из требований включают гарантию того, что данные будут удалены из системы после запуска модели, а также средства управления, правоприменение и отчетность, подтверждающие это.

Многие организации пытались использовать готовые чистые комнаты данных (DCR) и доверенные среды выполнения (TEE). Но сами по себе эти технологии требуют значительного опыта и работы для внедрения и соответствия нормативным требованиям к данным и искусственному интеллекту.
DCR проще в использовании, но они пока бесполезны для более надежных задач искусственного интеллекта и машинного обучения. TEE — это защищенные серверы, и им по-прежнему нужна интегрированная платформа для совместной работы, чтобы быстро приносить пользу. Это, однако, указывает на возможность интеграции технологических платформ повышения конфиденциальности с TEE для устранения этой работы, упрощая настройку и использование нормативной «песочницы» ИИ и, следовательно, сбор и использование конфиденциальных данных.

Позволяя использовать более разнообразные и полные наборы данных с сохранением конфиденциальности, эти технологии помогают гарантировать, что методы искусственного интеллекта и машинного обучения соответствуют этическим стандартам и юридическим требованиям, связанным с конфиденциальностью данных (например, GDPR и Законом ЕС об искусственном интеллекте в Европе). Подводя итог, можно сказать, что хотя требования часто сопровождаются громким ворчанием и вздохами, эти требования просто направляют нас к созданию более качественных моделей, которым мы можем доверять и на которые можно положиться при принятии важных решений на основе данных, одновременно защищая конфиденциальность субъектов данных, используемых для разработки моделей. и настройка.

Ади Хирштейн — вице-президент по продукту в Технологии двойственности. Ади обладает более чем 20-летним опытом работы в качестве руководителя, менеджера по продукту и предпринимателя, создающего и продвигающего инновации в технологических компаниях, в первую очередь ориентированных на B2B-стартапы в области данных и искусственного интеллекта. До Duality Ади работал вице-президентом по продуктам в компании Iguazio (компания MLOps), которая была приобретена McKinsey, а до этого он занимал должность директора по продуктам в EMC после приобретения другого стартапа под названием Zettapoint (компания по базам данных и хранению данных), где он работал. в качестве вице-президента по продукту, руководящего продуктом от создания до проникновения на рынок и роста.