Connect with us

Диллемма данных ИИ: конфиденциальность, регулирование и будущее этичного ИИ

Лидеры мнений

Диллемма данных ИИ: конфиденциальность, регулирование и будущее этичного ИИ

mm

Решения на основе ИИ быстро принимаются в различных отраслях, услугах и продуктах каждый день. Однако их эффективность полностью зависит от качества данных, на которых они обучены – аспект, часто неправильно понимаемый или упускаемый из виду в процессе создания набора данных.

По мере того, как органы по защите данных увеличивают контроль над тем, как технологии ИИ соответствуют законам о конфиденциальности и защите данных, компании сталкиваются с растущим давлением на поиск, аннотирование и совершенствование наборов данных в соответствии с требованиями и этикой.

Существует ли真正 этический подход к созданию наборов данных ИИ? Каковы самые большие этические проблемы компаний, и как они их решают? И как меняющиеся правовые рамки влияют на доступность и использование тренировочных данных? Давайте исследуем эти вопросы.

Конфиденциальность данных и ИИ

По своей природе ИИ требует большого количества персональных данных для выполнения задач. Это вызвало обеспокоенность по поводу сбора, хранения и использования этой информации. Многие законы мира регулируют и ограничивают использование персональных данных, от GDPR и недавно введенного Закона об ИИ в Европе до HIPAA в США, который регулирует доступ к данным пациентов в медицинской промышленности.

Ссылка на то, насколько строги законы о защите данных во всем мире / DLA Piper

Например, в настоящее время четырнадцать штатов США имеют комплексные законы о конфиденциальности данных, и еще шесть должны вступить в силу в 2025 и начале 2026 года. Новая администрация сигнализирует о сдвиге в подходе к обеспечению конфиденциальности данных на федеральном уровне. Основной фокус – регулирование ИИ, подчеркивающее содействие инновациям, а не введение ограничений. Этот сдвиг включает отмену предыдущих исполнительных приказов об ИИ и введение новых директив для руководства его разработкой и применением.

Законодательство о защите данных эволюционирует в различных странах: в Европе законы более строгие, а в Азии или Африке они менее строгие.

Однако персональная идентифицирующая информация (PII) – такая как изображения лиц, официальные документы, как паспорта, или любые другие чувствительные персональные данные – обычно ограничена в большинстве стран до некоторой степени. Согласно UN Trade & Development, сбор, использование и обмен персональной информацией с третьими сторонами без уведомления или согласия потребителей является серьезной проблемой для большинства мира. 137 из 194 стран имеют правила, обеспечивающие защиту данных и конфиденциальность. В результате большинство глобальных компаний принимают обширные меры предосторожности, чтобы избежать использования PII для обучения моделей, поскольку правила, такие как в ЕС, строго запрещают такие практики, с редкими исключениями, найденными в сильно регулируемых нишах, таких как правоохранительные органы.

Со временем законы о защите данных становятся более комплексными и глобально применяются. Компании адаптируют свои практики, чтобы избежать юридических проблем и соответствовать возникающим юридическим и этическим требованиям.

Какие методы используют компании для получения данных?

Итак, когда мы изучаем проблемы защиты данных для обучения моделей, важно сначала понять, откуда компании получают эти данные. Существуют три основных источника данных.

  • Сбор данных

Этот метод позволяет собирать данные из платформ краудсорсинга, медиа-активов и открытых наборов данных.

Важно отметить, что публичные медиа-активы подлежат различным лицензионным соглашениям. Даже коммерческая лицензия часто явно указывает, что контент не может быть использован для обучения моделей. Эти ожидания различаются платформа за платформой и требуют от бизнеса подтверждения их возможности использования контента в необходимых им способах.

Даже когда компании ИИ получают контент законно, они все равно могут столкнуться с некоторыми проблемами. Быстрый прогресс в обучении моделей ИИ далеко опередил правовые рамки, что означает, что правила и регламенты, окружающие данные обучения ИИ, все еще эволюционируют. Поэтому компании должны оставаться в курсе юридических разработок и тщательно проверять лицензионные соглашения перед использованием контента из фондов для обучения ИИ.

  • Создание данных

Одним из самых безопасных методов подготовки наборов данных является создание уникального контента, такого как съемка людей в контролируемых средах, как студиях или на открытом воздухе. До участия люди подписывают форму согласия на использование их PII, указывая, какие данные собираются, как и где они будут использоваться, и кто будет иметь к ним доступ. Это обеспечивает полную юридическую защиту и дает компаниям уверенность, что они не столкнутся с претензиями по поводу незаконного использования данных.

Основной недостаток этого метода – его стоимость, особенно когда данные создаются для крайних случаев или крупномасштабных проектов. Однако крупные компании и корпорации все чаще используют этот подход по двум причинам. Во-первых, он обеспечивает полное соответствие всем стандартам и правовым правилам. Во-вторых, он предоставляет компаниям данные, полностью адаптированные к их конкретным сценариям и потребностям, гарантируя наивысшую точность в обучении моделей.

  • Генерация синтетических данных

Использование программных инструментов для создания изображений, текста или видео на основе заданного сценария. Однако синтетические данные имеют ограничения: они генерируются на основе предопределенных параметров и лишены естественной изменчивости реальных данных.

Этот недостаток может негативно повлиять на модели ИИ. Хотя это не актуально для всех случаев и не всегда происходит, важно помнить о “коллапсе модели” – моменте, когда чрезмерная зависимость от синтетических данных вызывает ухудшение модели, что приводит к низкокачественным выходным данным.

Синтетические данные все еще могут быть очень эффективными для базовых задач, таких как распознавание общих закономерностей, определение объектов или различение фундаментальных визуальных элементов, таких как лица.

Однако они не являются лучшим вариантом, когда компании нужно обучить модель с нуля или иметь дело с редкими или высокоспециализированными сценариями.

Самые показательные ситуации возникают в салонах автомобилей, таких как отвлеченный водитель, человек, появляющийся уставшим за рулем, или даже случаи безрассудного вождения. Эти данные не обычно доступны в публичных наборах данных – и не должны быть – поскольку они включают реальных людей в частных условиях. Поскольку модели ИИ полагаются на данные обучения для генерации синтетических выходных данных, они испытывают трудности в представлении сценариев, с которыми они никогда не сталкивались точно.

Когда синтетические данные терпят неудачу, созданные данные – собранные в контролируемых средах с реальными актерами – становятся решением.

Поставщики решений по данным, такие как Keymakr, размещают камеры в автомобилях, нанимают актеров и записывают действия, такие как уход за младенцем, питье из бутылки или проявление признаков усталости. Актеры подписывают контракты, в которых явно согласны на использование их данных для обучения ИИ, обеспечивая соблюдение законов о конфиденциальности.

Ответственность в процессе создания набора данных

Каждый участник процесса, от клиента до компании, аннотирующей данные, имеет конкретные обязанности, изложенные в их соглашении. Первый шаг – установление контракта, который детализирует характер отношений, включая пункты о неразглашении и интеллектуальной собственности.

Давайте рассмотрим первый вариант работы с данными, а именно когда они создаются с нуля. Права интеллектуальной собственности гласят, что любые данные, созданные поставщиком, принадлежат нанимающей компании, что означает, что они создаются от их имени. Это также означает, что поставщик должен обеспечить, чтобы данные были получены законно и правильно.

Как компания по решению проблем с данными, Keymakr обеспечивает соблюдение требований к данным, сначала проверяя юрисдикцию, в которой создаются данные, получая надлежащее согласие от всех участвующих лиц и гарантируя, что данные могут быть законно использованы для обучения ИИ.

Также важно отметить, что как только данные используются для обучения модели ИИ, становится почти невозможным определить, какие конкретные данные способствовали модели, поскольку ИИ объединяет все вместе. Итак, конкретный выход не склонен быть его выходом, особенно когда речь идет о миллионах изображений.

Из-за своей быстрой разработки эта область все еще устанавливает четкие рекомендации по распределению ответственности. Это похоже на сложности, окружающие самоходные автомобили, где вопросы о ответственности – будь то водитель, производитель или компания по разработке программного обеспечения – все еще требуют четкого распределения.

В других случаях, когда поставщик аннотаций получает набор данных для аннотации, он предполагает, что клиент получил данные законно. Если есть явные признаки того, что данные были получены незаконно, поставщик должен сообщить об этом. Однако такие очевидные случаи чрезвычайно редки.

Также важно отметить, что крупные компании, корпорации и бренды, которые ценят свою репутацию, очень осторожны в отношении источников своих данных, даже если они не были созданы с нуля, а взяты из других законных источников.

В итоге, ответственность каждого участника в процессе работы с данными зависит от соглашения. Вы можете рассматривать этот процесс как часть более широкой “цепочки устойчивости”, где каждый участник играет решающую роль в поддержании юридических и этических стандартов.

Какие заблуждения существуют о задней части разработки ИИ?

Основное заблуждение о разработке ИИ заключается в том, что модели ИИ работают подобно поисковым системам, собирая и агрегируя информацию для представления пользователям на основе полученных знаний. Однако модели ИИ, особенно языковые модели, часто функционируют на основе вероятностей, а не настоящего понимания. Они прогнозируют слова или термины на основе статистической вероятности, используя закономерности, увиденные в предыдущих данных. ИИ не “знает” ничего; он экстраполирует, угадывает и корректирует вероятности.

Кроме того, многие предполагают, что обучение ИИ требует огромных наборов данных, но большая часть того, что ИИ нужно распознавать – как собак, кошек или людей – уже хорошо установлена. Сейчас фокус сместился на улучшение точности и совершенствование моделей, а не на повторное изобретение возможностей распознавания. Большая часть разработки ИИ сегодня вращается вокруг закрытия последних небольших пробелов в точности, а не начала с нуля.

Этические проблемы и как Закон об ИИ Европейского Союза и смягчение правил США повлияют на глобальный рынок ИИ

Когда мы обсуждаем этику и законность работы с данными, важно четко понять, что определяет “этичный” ИИ.

Самая большая этическая проблема, с которой сталкиваются компании сегодня в ИИ, заключается в определении того, что считается недопустимым для ИИ делать или чему его можно научить. Существует широкий консенсус в том, что этичный ИИ должен помогать, а не вредить людям и избегать обмана. Однако системы ИИ могут совершать ошибки или “галлюцинировать”, что вызывает проблемы с определением, квалифицируются ли эти ошибки как дезинформация или вред.

Этика ИИ – это предмет большой дискуссии с участием организаций, таких как ЮНЕСКО, – с ключевыми принципами, окружающими проверяемость и отслеживаемость выходных данных.

Правовые рамки, окружающие доступ к данным и обучение ИИ, играют значительную роль в формировании этического ландшафта ИИ. Страны с меньшим количеством ограничений на использование данных позволяют более доступные тренировочные данные, в то время как страны со строгими законами о данных ограничивают доступность данных для обучения ИИ.

Например, Европа, которая приняла Закон об ИИ, и США, которые отменили многие правила ИИ, предлагают контрастные подходы, указывающие на текущий глобальный ландшафт.

Закон об ИИ Европейского Союза существенно влияет на компании, работающие в Европе. Он вводит строгий регуляторный каркас, что делает трудным для бизнеса использовать или разрабатывать определенные модели ИИ. Компаниям необходимо получить специальные лицензии для работы с определенной технологией, и во многих случаях правила фактически делают слишком трудным для небольших бизнесов соответствовать этим правилам.

В результате некоторые стартапы могут выбрать выход из Европы или отказаться от работы там вообще, подобно влиянию, наблюдаемому с правилами криптовалют. Более крупные компании, которые могут позволить себе инвестиции, необходимые для соответствия требованиям, могут адаптироваться. Однако Закон может вытолкнуть инновации ИИ из Европы в пользу рынков, таких как США или Израиль, где правила менее строгие.

Решение США инвестировать значительные ресурсы в разработку ИИ с меньшим количеством ограничений также может иметь негативные последствия, но приглашает больше разнообразия на рынке. Пока Европейский Союз фокусируется на безопасности и регуляторном соответствии, США, вероятно, будут способствовать более рискованному и передовому экспериментированию.

Михаил Абрамов является основателем и генеральным директором Introspector, привнося более 15+ лет опыта в области программной инженерии и компьютерного зрения AI-систем для создания инструментов маркировки предприятия.

Михаил начал свою карьеру как программный инженер и менеджер по исследованиям и разработкам, создавая масштабируемые системы данных и управляя межфункциональными инженерными командами. До 2025 года он занимал должность генерального директора Keymakr, компании, предоставляющей услуги по маркировке данных, где он разработал методологии "человек в цикле", продвинутые системы контроля качества и индивидуальное инструментирование для поддержки крупномасштабных потребностей в области компьютерного зрения и автономности.

Он имеет степень бакалавра в области компьютерных наук и имеет опыт в области инженерии и творческих искусств, что позволяет ему подходить к решению сложных проблем с междисциплинарной точки зрения. Михаил работает на пересечении технологических инноваций, стратегического лидерства продукта и реального воздействия, продвигая вперед следующий рубеж автономных систем и интеллектуальной автоматизации.