Connect with us

Шаблон GPAI Европейской комиссии – что это значит для обучения ИИ?

Лидеры мнений

Шаблон GPAI Европейской комиссии – что это значит для обучения ИИ?

mm

В июле Европейская комиссия (ЕК) выпустила новый шаблон общего назначения искусственного интеллекта (GPAI). Это означает, что поставщики ИИ должны раскрыть содержание, вводимое в модели для их обучения. Это произошло после месяцев и месяцев заголовков о том, что создатели утверждают, что контент был использован без согласия для обучения ИИ.

С этим новым шаблоном ЕС сделал свою позицию ясной: прозрачность теперь не обсуждается. Обучение в “черном ящике”, когда что-то создается без раскрытия его внутренней работы, не будет вариантом для разработчиков ИИ. Это означает значительный сдвиг, поскольку работа в Европе теперь будет требовать полной видимости входных данных моделей и происхождения обучающих данных, что заставит пересмотреть сбор и использование данных.

Многие отметили резкую разницу между этим и недавно выпущенным планом действий США по ИИ, который сильно фокусируется на дерегуляции. Как и в случае с любым новым законом или правилом, бизнес теперь должен оценить, как шаблон GPAI повлияет на их операции.

Если они работают в разных регионах, они будут делать то же самое с планом действий США по ИИ, что еще больше запутает ситуацию. Из-за сложной природы этих правил и того, что регулирование разработки ИИ таким образом является незаслуженным, выходы разработчиков, скорее всего, будут сильно различаться.

Разбор шаблона модели общего назначения ИИ

В июле этого года Европейская комиссия опубликовала обязательный шаблон для поставщиков GPAI, чтобы они могли опубликовать публичный обзор данных, использованных для обучения их моделей. В рамках закона ЕС об ИИ поставщики должны раскрыть категории данных, такие как публично доступные наборы данных, частные лицензированные данные, контент, полученный из веб-скрапинга, пользовательские данные и синтетические данные. Цель – позволить правообладателям, пользователям и разработчикам, использующим эти данные, реализовать свои юридические права в соответствии с законодательством ЕС.

GPT обучается с помощью больших объемов данных; однако на текущем рынке существует ограниченная информация о происхождении этих данных. Публичный обзор, который этот шаблон предусматривает, предоставит всесторонний обзор данных, использованных для обучения модели, перечислит основные коллекции данных и объяснит другие использованные источники.

Сравнение и контраст, план действий США по ИИ

В сравнении США твердо намерены выиграть гонку ИИ и сохранить свое конкурентное преимущество над Китаем, поскольку администрация Трампа объявила о своем плане действий по ИИ ранее этим летом. Этот новый каркас ИИ направлен на ускорение строительства энергозатратных центров данных, которые обеспечивают системы ИИ, путем смягчения экологических правил. В то же время он стремится увеличить глобальный экспорт американских технологий ИИ. Включая 90 рекомендаций, план отражает растущие усилия США по сохранению лидерства среди глобальных конкурентов.

План построен вокруг трех основных столпов – ускорения инноваций, строительства инфраструктуры ИИ Америки и содействия лидерству в международной дипломатии и безопасности ИИ.

В рамках этого плана ключевым выводом является “открытый” толчок США к инновациям и доступности. Аналогично, план подчеркивает, как правительство США будет “вести за примером” в отношении роста ИИ – через обучение, обмен талантами и расширение внедрения по отраслям.

С этим планом США стремятся упростить все свои текущие технологические правила, особенно экологические, чтобы обеспечить, что законодательство не замедляет рост, а также поощряют более широкое международное распространение американского программного и аппаратного обеспечения ИИ. Этот “анти-регуляторный” подход означает четкий сдвиг от ранее существовавших каркасов, центрированных на этике, прозрачности и ответственной инновации – вместо этого смещаясь в сторону более агрессивного “инновационного” плана действий.

Отсутствующая часть

Стоит сделать шаг назад на этом этапе и рассмотреть, могут ли эти акты, хотя и разные, страдать от одних и тех же недостатков, которые заставят разработчиков видеть отсутствие ценности в соблюдении их. Подходы ЕС и США оставляют критический пробел вокруг интеллектуальной собственности в наборах данных для обучения ИИ. Закон ЕС об ИИ требует обзора обучающих данных и политики соблюдения авторских прав, но он не устанавливает масштабируемую основу для выявления или лицензирования объектов авторского права.

В США не существуют конкретные правила – оставляя компании ИИ ориентироваться в развивающемся правовом каркасе, формируемом судебными решениями и продолжающимися спорами с правообладателями. За пределами юридического текста то, что отсутствует, – это практическая сторона; ни один из подходов не определяет рабочие, отраслевые методы для обнаружения защищенного контента в масштабе, проверки законного использования или упрощения лицензирования. До тех пор, пока такие решения не будут определены, неопределенность вокруг авторских прав в обучении ИИ останется значительной проблемой для отрасли.

Скрытая стоимость пропуска бизнесом отслеживания ИИ

Несмотря на некоторые недостатки этих правил, будет предполагаться, что они заставят разработчиков ИИ сосредоточиться на том, как остаться на плаву с юридической точки зрения – но это не всегда так. На самом деле, настоящая пропасть в ИИ сейчас не между регулированием ЕС и США, а между компаниями, которые инвестируют в отслеживаемость сегодня, и теми, кто рассчитывает, что не придется.

Это повторение того, что мы видели годы назад с реализацией Общего регламента по защите данных (GDPR) – компании, которые построили защиту данных с самого начала, не только избежали штрафов, но и получили доверие потребителей и более легкий доступ к другим рынкам, которые позже скопировали стандарты GDPR.

Тот же самый шаблон может появиться и с ИИ. Отслеживаемость обучающих данных и решений моделей, скорее всего, станет глобальным базовым уровнем, и компании, которые задерживают, будут вынуждены переработать свои системы в будущем. Возвращаться, чтобы добавить документацию, отслеживание происхождения и функции аудита в существующую систему, намного дороже и сложнее, чем строить их с самого начала, отвлекая внимание от более ориентированных на ROI построений, которые компания хочет выполнить.

Иными словами, отслеживаемость и прозрачность не являются необязательными дополнениями; они должны быть встроены в системы ИИ с самого начала. Бизнес, который рассматривает их как после мысли, рискует тормозить инновации, сталкиваться с регуляторным ответом и проигрывать гонку бесконечно.

Этический ИИ требует глобального единства

С макроперспективы эти поляризованные подходы создают реальную проблему для глобальных бизнесов. Компании в рынках с меньшим регулированием, таких как США, могут масштабироваться быстрее в краткосрочной перспективе, но когда они решают войти в ЕС, они сталкиваются со стеной соответствия: правила traceability и документации закона об ИИ требуют возможностей, которые они никогда не строили.

Переоснащение отслеживания происхождения, документации и функций аудита в существующую систему стоит дорого, медленно и нарушает работу, особенно потому, что отслеживаемость является одной из наиболее ресурсоемких частей соблюдения. Это тот же шаблон, который мы видели с GDPR, где поздние приходящие к защите данных с самого начала боролись с дорогими переделками и задержками доступа к рынку, а ранние новаторы получили прочное преимущество.

Виктория Лапените является руководителем юридического отдела продукта в Oxylabs. С более чем десятилетним опытом работы в юридической сфере ИТ-сектора, Виктория Лапените развила глубокую экспертизу в навигации по сложным бизнес- и регуляторным проблемам как внутренний юридический советник. Сегодня Виктория является руководителем юридического отдела продукта в Oxylabs, ведущей платформе сбора веб-интеллекта. Команда Виктории специализируется на юридических сложностях новых технологий данных, от соблюдения требований и управления регуляторными рисками до защиты данных и отраслевых дискуссий о ответственной сборе данных.