Лидеры мнений
Диллемма данных ИИ: конфиденциальность, регулирование и будущее этичного ИИ

Решения на основе ИИ быстро принимаются в различных отраслях, услугах и продуктах каждый день. Однако их эффективность полностью зависит от качества данных, на которых они обучены – аспект, который часто неправильно понимается или упускается из виду в процессе создания наборов данных.
По мере того, как органы по защите данных усиливают контроль над тем, как технологии ИИ соответствуют законам о конфиденциальности и защите данных, компании сталкиваются с растущим давлением по поводу получения, аннотации и совершенствования наборов данных в соответствии с требованиями и этикой.
Существует ли действительно этический подход к созданию наборов данных ИИ? Каковы самые большие этические проблемы компаний, и как они их решают? И как меняющиеся правовые рамки влияют на доступность и использование обучающих данных? Давайте рассмотрим эти вопросы.
Конфиденциальность данных и ИИ
По своей природе ИИ требует большого количества персональных данных, чтобы выполнять задачи. Это вызвало обеспокоенность по поводу сбора, хранения и использования этой информации. Многие законы мира регулируют и ограничивают использование персональных данных, от GDPR и недавно введенного закона об ИИ в Европе до HIPAA в США, который регулирует доступ к данным пациентов в медицинской отрасли.
Справочник по степени строгости законов о защите данных во всем мире / DLA Piper
Например, в настоящее время четырнадцать штатов США имеют комплексные законы о конфиденциальности данных, и еще шесть штатов введут их в 2025 и начале 2026 годов. Новая администрация сигнализирует о сдвиге в подходе к обеспечению конфиденциальности данных на федеральном уровне. Основное внимание уделяется регулированию ИИ, подчеркивая содействие инновациям, а не введение ограничений. Этот сдвиг включает отмену предыдущих исполнительных приказов об ИИ и введение новых директив для руководства его развитием и применением.
Законодательство о защите данных развивается в различных странах: в Европе законы более строгие, а в Азии или Африке они менее строгие.
Однако персональная идентифицирующая информация (PII) – такая как изображения лиц, официальные документы, как паспорта, или любая другая чувствительная персональная информация – обычно ограничена в большинстве стран в какой-то степени. Согласно УНКТАД, сбор, использование и передача личной информации третьим лицам без уведомления или согласия потребителей является серьезной проблемой для большинства мира. 137 из 194 стран имеют правила, обеспечивающие защиту данных и конфиденциальность. В результате большинство глобальных компаний принимают обширные меры предосторожности, чтобы избежать использования PII для обучения моделей, поскольку правила, такие как те, что действуют в ЕС, строго запрещают такие практики, за исключением редких случаев в высокорегулируемых нишах, таких как правоохранительные органы.
Со временем законы о защите данных становятся более комплексными и глобально применяются. Компании адаптируют свои практики, чтобы избежать юридических проблем и соответствовать возникающим юридическим и этическим требованиям.
Какие методы используют компании для получения данных?
Итак, когда мы изучаем проблемы защиты данных для обучения моделей, важно сначала понять, откуда компании получают эти данные. Существует три основных источника данных.
- Сбор данных
Этот метод позволяет собирать данные из платформ краудсорсинга, медиа-активов и открытых наборов данных.
Важно отметить, что общественные медиа-активы подлежат различным лицензионным соглашениям. Даже лицензия на коммерческое использование часто явно указывает, что содержимое не может быть использовано для обучения моделей. Эти ожидания различаются от платформы к платформе и требуют от бизнеса подтверждения возможности использования содержимого в нужном им виде.
Даже когда компании ИИ получают содержимое законно, они все равно могут столкнуться с некоторыми проблемами. Быстрый прогресс обучения моделей ИИ далеко опередил правовые рамки, что означает, что правила и регулирования, окружающие обучающие данные ИИ, все еще развиваются. В результате компании должны быть осведомлены о юридических разработках и тщательно проверять лицензионные соглашения перед использованием медиа-контента для обучения ИИ.
- Создание данных
Одним из самых безопасных методов подготовки наборов данных является создание уникального контента, такого как съемка людей в контролируемых средах, как студии или уличные локации. Перед участием люди подписывают согласие на использование их PII, указывая, какие данные собираются, как и где они будут использоваться, и кто будет иметь к ним доступ. Это обеспечивает полную правовую защиту и дает компаниям уверенность в том, что они не столкнутся с претензиями по поводу незаконного использования данных.
Основным недостатком этого метода является его стоимость, особенно когда данные создаются для редких случаев или крупномасштабных проектов. Однако крупные компании и корпорации все чаще используют этот подход по двум причинам. Во-первых, он обеспечивает полное соответствие всем стандартам и правовым регулированиям. Во-вторых, он дает компаниям данные, полностью адаптированные к их конкретным сценариям и потребностям, гарантируя самую высокую точность обучения моделей.
- Генерация синтетических данных
Использование программных инструментов для создания изображений, текста или видео на основе заданного сценария. Однако синтетические данные имеют ограничения: они генерируются на основе предопределенных параметров и лишены естественной изменчивости реальных данных.
Этот недостаток может негативно повлиять на модели ИИ. Хотя это не актуально для всех случаев и не всегда происходит, важно помнить о “коллапсе модели” – моменте, когда чрезмерная зависимость от синтетических данных вызывает ухудшение модели, что приводит к низкокачественным выходным данным.
Синтетические данные все еще могут быть очень эффективными для базовых задач, таких как распознавание общих закономерностей, определение объектов или различение фундаментальных визуальных элементов, таких как лица.
Однако они не являются лучшим вариантом, когда компании нуждаются в обучении модели с нуля или имеют дело с редкими или высокоспецифическими сценариями.
Самые показательные ситуации возникают в средах, таких как внутри кабины, например, когда водитель отвлечен ребенком, кто-то кажется уставшим за рулем или даже в случаях безрассудного вождения. Эти данные не обычно доступны в общественных наборах данных – и не должны быть – поскольку они включают реальных людей в частных условиях. Поскольку модели ИИ полагаются на обучающие данные для генерации синтетических выходных данных, они испытывают трудности с точным представлением сценариев, с которыми они никогда не сталкивались.
Когда синтетические данные не справляются, созданные данные – собранные в контролируемых средах с реальными актерами – становятся решением.
Поставщики решений по данным, такие как Keymakr, размещают камеры в автомобилях, нанимают актеров и записывают действия, такие как уход за младенцем, питье из бутылки или проявление признаков усталости. Актеры подписывают контракты, явно согласившись на использование их данных для обучения ИИ, обеспечивая соответствие законам о конфиденциальности.
Ответственность в процессе создания наборов данных
Каждый участник процесса, от клиента до компании, занимающейся аннотацией, имеет конкретные обязанности, изложенные в их соглашении. Первым шагом является заключение контракта, в котором излагаются характер отношений, включая пункты о неразглашении и интеллектуальной собственности.
Давайте рассмотрим первый вариант работы с данными, а именно когда они создаются с нуля. Права интеллектуальной собственности гласят, что любые данные, созданные поставщиком, принадлежат нанимающей компании, то есть они создаются на их behalf. Это также означает, что поставщик должен обеспечить, чтобы данные были получены законно и правильно.
Как компания, предоставляющая решения по данным, Keymakr обеспечивает соответствие данных, проверяя сначала юрисдикцию, в которой создаются данные, получая надлежащее согласие от всех участвующих лиц и гарантируя, что данные могут быть использованы для обучения ИИ.
Важно отметить, что после использования данных для обучения модели ИИ становится почти невозможным определить, какие конкретные данные способствовали модели, поскольку ИИ объединяет все вместе. Итак, конкретный выход не склонен быть его выходом, особенно при обсуждении миллионов изображений.
Из-за быстрого развития этой области еще не установлены четкие рекомендации по распределению ответственности. Это похоже на сложности, окружающие самоходные автомобили, где вопросы о ответственности – будь то водитель, производитель или компания-производитель программного обеспечения – еще требуют четкого распределения.
В других случаях, когда поставщик аннотаций получает набор данных для аннотации, он предполагает, что клиент получил данные законно. Если есть явные признаки того, что данные были получены незаконно, поставщик должен сообщить об этом. Однако такие очевидные случаи чрезвычайно редки.
Также важно отметить, что крупные компании, корпорации и бренды, которые ценят свою репутацию, очень осторожны в отношении источников своих данных, даже если они не были созданы с нуля, а взяты из других законных источников.
В заключение, ответственность каждого участника процесса работы с данными зависит от соглашения. Вы можете рассматривать этот процесс как часть более широкой “цепочки устойчивости”, где каждый участник играет важную роль в поддержании правовых и этических стандартов.
Какие заблуждения существуют о внутренней стороне разработки ИИ?
Одним из основных заблуждений о разработке ИИ является то, что модели ИИ работают подобно поисковым системам, собирая и агрегируя информацию для представления пользователям на основе приобретенных знаний. Однако модели ИИ, особенно языковые модели, часто функционируют на основе вероятностей, а не настоящего понимания. Они предсказывают слова или термины на основе статистической вероятности, используя закономерности, увиденные в предыдущих данных. ИИ не “знает” ничего; он экстраполирует, угадывает и корректирует вероятности.
Кроме того, многие полагают, что обучение ИИ требует огромных наборов данных, но большая часть того, что ИИ нужно распознавать – например, собак, кошек или людей – уже хорошо установлена. Сейчас внимание уделяется улучшению точности и совершенствованию моделей, а не повторному изобретению возможностей распознавания. Большая часть разработки ИИ сегодня вращается вокруг закрытия последних небольших пробелов в точности, а не начала с нуля.
Этические проблемы и влияние закона об ИИ Европейского Союза и смягчения регулирования США на глобальный рынок ИИ
Когда мы обсуждаем этику и законность работы с данными, также важно четко понять, что определяет “этичный” ИИ.
Самой большой этической проблемой, с которой сталкиваются компании сегодня в ИИ, является определение того, что является недопустимым для ИИ или чему его можно научить. Существует широкий консенсус в том, что этичный ИИ должен помогать, а не вредить людям и избегать обмана. Однако системы ИИ могут совершать ошибки или “галлюцинировать”, что вызывает проблемы с определением того, являются ли эти ошибки дезинформацией или вредом.
Этика ИИ является предметом большой дискуссии, и организации, такие как ЮНЕСКО, участвуют в ней – с ключевыми принципами, окружающими проверяемость и отслеживаемость выходных данных.
Правовые рамки, окружающие доступ к данным и обучение ИИ, играют значительную роль в формировании этического ландшафта ИИ. Страны с меньшим количеством ограничений на использование данных позволяют более доступные обучающие данные, в то время как страны со строгими законами о данных ограничивают доступ к данным для обучения ИИ.
Например, Европа, которая приняла закон об ИИ, и США, которые отменили многие регулирования ИИ, предлагают контрастные подходы, которые указывают на текущий глобальный ландшафт.
Закон об ИИ Европейского Союза существенно влияет на компании, работающие в Европе. Он вводит строгий регуляторный каркас, который делает трудным для бизнеса использовать или разрабатывать определенные модели ИИ. Компаниям необходимо получить специальные лицензии для работы с определенной технологией, и во многих случаях регулирования эффективно делают слишком трудным для небольших бизнесов соблюдать эти правила.
В результате некоторые стартапы могут выбрать выход из Европы или отказаться от работы там вообще, подобно влиянию, наблюдаемому с регулированиями криптовалют. Более крупные компании, которые могут позволить себе инвестиции, необходимые для соответствия требованиям, могут адаптироваться. Однако закон может вытеснить инновации ИИ из Европы в пользу рынков, таких как США или Израиль, где регулирования менее строгие.
Решение США инвестировать значительные ресурсы в разработку ИИ с меньшим количеством ограничений также может иметь недостатки, но может привлечь больше разнообразия на рынок. Пока Европейский Союз фокусируется на безопасности и регуляторном соответствии, США, вероятно, будут способствовать большему риску и экспериментам на переднем крае.













