Искусственный интеллект
Веб-скрейпинговые наборы данных ИИ и конфиденциальность: почему CommonPool заслуживает внимания

Искусственный интеллект (ИИ) стал частью повседневной жизни. Он виден в медицинских чат-ботах, которые руководят пациентами, и в генеративных инструментах, которые помогают художникам, писателям и разработчикам. Эти системы кажутся передовыми, но они зависят от одного необходимого ресурса: данных.
Большая часть данных, используемых для обучения систем ИИ, поступает из публичного интернета. Автоматические программы собирают большие объемы текста, изображений и аудио с онлайн-платформ. Эти коллекции образуют основу известных моделей, таких как GPT-4, Stable Diffusion и многие другие. Однако это огромная коллекция вызывает нерешенные проблемы с конфиденциальностью, владением и информированным согласием.
Рынок обучающих наборов данных отражает масштаб этой деятельности. На данный момент глобальная стоимость наборов данных ИИ оценивается в 3,2 миллиарда долларов. Согласно прогнозам, она может вырасти до 16,3 миллиарда долларов к 2034 году, с годовым темпом роста 20,5 процента. За этими цифрами лежит важная проблема. Значительная часть собранного материала получена без явного разрешения. Она часто содержит личные данные, защищенные авторским правом произведения и другие чувствительные материалы, которые никогда не предназначались для систем ИИ.
В ответ на эти проблемы исследуются альтернативные подходы к управлению данными. Одним из примеров является CommonPool, выпущенный в апреле 2023 года в рамках бенчмарка DataComp. Это большой набор данных из 12,8 миллиардов пар изображений и текста, предназначенный для исследования многомодального ИИ. В отличие от традиционных скрейпинговых усилий, он применяет методы фильтрации, подчеркивает прозрачность и включает участие сообщества в его разработке. Хотя он остается предметом обсуждения, CommonPool указывает на попытку построить более ответственные и аудиторские практики для обучающих данных ИИ. Такие инициативы подчеркивают необходимость этических стандартов в будущем искусственного интеллекта.
Роль веб-скрейпинговых данных в развитии искусственного интеллекта
Данные являются центральными для ИИ, а производительность системы тесно связана с количеством и разнообразием информации, доступной для обучения. В последние годы веб-скрейпинг стал стандартным методом для сборки больших наборов данных в масштабе. Собирая публично доступный онлайн-контент, исследователи и разработчики получили огромные и разнообразные ресурсы данных.
Популярным примером является Common Crawl, который к 2025 году хранил петабайты текста, собранного через ежемесячные скрейпинги более 250 терабайт каждый. Этот набор данных широко используется для обучения текстовых моделей ИИ. Другим примером является LAION-5B, который содержит около 5,85 миллиарда пар изображений и текста. Он был важен для таких приложений, как Stable Diffusion, который может создавать реалистичные изображения из написанных подсказок.
Эти наборы данных ценны, потому что они увеличивают точность модели, улучшают обобщение через разнообразный контент и позволяют меньшим группам, включая университеты, участвовать в разработке ИИ. Индекс ИИ Стэнфорда 2025 года показывает, что большинство передовых моделей все еще полагаются на скрейпинговые данные, а наборы данных растут быстро в размере. Этот спрос также привел к значительным инвестициям, достигшим более 57 миллиардов долларов в 2024 году для центров данных и вычислительной мощности.
В то же время веб-скрейпинг не свободен от проблем. Он вызывает вопросы о конфиденциальности, владении и правовых правах, поскольку большая часть собранного контента не была создана для использования машин. Судебные дела и обсуждения политики показывают, что эти проблемы становятся все более срочными. Будущее сбора данных ИИ будет зависеть от нахождения баланса между прогрессом и этической ответственностью.
Проблема конфиденциальности со скрейпинговыми данными
Инструменты веб-скрейпинга собирают информацию без явного разделения между общим контентом и чувствительными деталями. Вместе с текстом и изображениями они часто захватывают личную идентифицирующую информацию (PII), такую как имена, адреса электронной почты и фотографии лиц.
Аудит набора данных CommonPool в июле 2025 года показал, что даже после фильтрации 0,1% образцов все еще содержали идентифицируемые лица, государственные идентификаторы и документы, такие как резюме и паспорта. Хотя процент кажется небольшим, на масштабе миллиардов записей это переводится в сотни миллионов затронутых лиц. Обзоры и аудиты безопасности подтверждают, что присутствие такого материала не является необычным, а риски включают кражу личности, целенаправленную преследование и непреднамеренное раскрытие конфиденциальных данных.
Правовые споры также увеличиваются, поскольку проблемы с владением данными и добросовестным использованием переходят в суды. Между 2023 и 2024 годами компании, такие как OpenAI и Stability AI, столкнулись с судебными исками за использование личных и защищенных авторским правом данных без согласия. В феврале 2025 года федеральный суд США постановил, что обучение ИИ на нелицензированных личных данных является нарушением. Это решение привело к увеличению количества коллективных исков. Авторское право также является серьезной проблемой. Многие скрейпинговые наборы данных содержат книги, статьи, искусство и код. Писатели и художники утверждают, что их работа используется без одобрения или оплаты. Продолжающийся судебный процесс New York Times против OpenAI ставит под вопрос, законно ли системы ИИ воспроизводят защищенный контент. Художники также выдвинули аналогичные претензии, утверждая, что ИИ копирует их индивидуальный стиль. В июне 2025 года один суд США поддержал компанию ИИ на основании добросовестного использования, но эксперты говорят, что решения остаются не последовательными, а правовая база все еще неясна.
Отсутствие согласия при обучении ИИ ослабило общественное доверие. Многие люди обнаруживают, что их блоги, творческая работа или код включены в наборы данных без их ведома. Это вызвало этические проблемы и призывы к большей прозрачности. В ответ правительства переходят к более строгому надзору через законы, которые способствуют справедливому развитию моделей ИИ и осторожному использованию данных.
Почему скрейпинговые наборы данных трудно заменить
Даже с проблемами конфиденциальности и согласия скрейпинговые наборы данных остаются необходимыми для обучения ИИ. Причина заключается в масштабе. Современные модели ИИ требуют триллионов токенов из текста, изображений и других медиа. Создание таких наборов данных только через лицензированные или курированные источники обошлось бы в сотни миллионов долларов. Это не является практичным для большинства стартапов или университетов.
Высокая стоимость не является единственной проблемой с курированными наборами данных. Они часто лишены разнообразия и сосредоточены на конкретных языках, регионах или сообществах. Это узкое освещение делает модели ИИ менее сбалансированными. Напротив, скрейпинговые данные, несмотря на то, что они шумные и несовершенные, отражают более широкий спектр культур, тем и взглядов. Это разнообразие позволяет системам ИИ работать лучше, когда они применяются к реальным задачам.
Риск, однако, заключается в том, что строгие правила могут ограничить доступ к скрейпинговым данным. Если это произойдет, меньшие организации могут столкнуться с трудностями. Большие компании с частными или проприетарными наборами данных, такие как Google или Meta, продолжат совершенствоваться. Это несоответствие может уменьшить конкуренцию и замедлить открытую инновацию в ИИ.
На данный момент скрейпинговые наборы данных являются центральными для исследований ИИ. В то же время проекты, такие как CommonPool, исследуют способы построения обширных, этически полученных коллекций. Эти усилия необходимы для поддержания экосистемы ИИ более открытой, справедливой и ответственной.
CommonPool: к ответственной крупномасштабной инженерии данных
CommonPool является одним из наиболее технически амбициозных усилий по созданию открытого, крупномасштабного многомодального набора данных. С примерно 12,8 миллиардами пар изображений и текста он соответствует масштабу LAION-5B, но включает более сильные механизмы инженерии данных и управления. Основной целью проектирования было не только максимизировать масштаб, но и соответствовать принципам воспроизводимости, происхождения данных и соблюдения правил.
Строительство набора данных CommonPool следует структурированному трехэтапному конвейеру. Первый этап включает в себя извлечение сырых образцов из снимков Common Crawl, собранных между 2014 и 2022 годами. Собираются как изображения, так и связанный с ними текст, такой как подписи или окружающие отрывки. Для оценки семантической выравнивания применяется оценка подобия на основе CLIP, отбрасывающая пары с слабой связью между изображением и текстовыми вложениями. Этот ранний этап фильтрации существенно уменьшает шум по сравнению с наивными скрейпинговыми конвейерами.
На втором этапе набор данных проходит крупномасштабную дедупликацию. Техники перцептивного хеширования и MinHash используются для выявления и удаления почти дубликатов изображений, предотвращая доминирование избыточности в обучении модели. Дополнительные фильтры применяются для исключения поврежденных файлов, сломанных ссылок и изображений низкого разрешения. На этом этапе конвейер также включает нормализацию текста и автоматическое определение языка, позволяя создавать доменно-специфические или языково-специфические подмножества для целевого исследования.
Третий этап фокусируется на безопасности и соблюдении правил. Применяется автоматическое обнаружение и размытие лиц, а также удаляются личные идентификаторы, такие как имена, адреса электронной почты и почтовые адреса. Конвейер также пытается обнаружить защищенные авторским правом материалы. Хотя никакой автоматизированный метод не может гарантировать идеальную фильтрацию на уровне Веба, эти меры безопасности представляют собой значительное техническое улучшение по сравнению с LAION-5B, где фильтрация в основном ограничивалась контентом для взрослых и токсичными эвристиками.
Помимо обработки данных, CommonPool вводит модель управления, которая отличает его от статических выпусков наборов данных. Он поддерживается как живой набор данных с версионными выпусками, структурированными метаданными и задокументированными циклами обновления. Каждый образец включает информацию о лицензировании, где это возможно, поддерживая соблюдение правил авторского права. Протокол удаления позволяет лицам и учреждениям запрашивать удаление чувствительного контента, решая проблемы, поставленные актом ИИ ЕС и связанными нормативными рамками. Метаданные, такие как исходные URL-адреса и баллы фильтрации, улучшают прозрачность и воспроизводимость, позволяя исследователям отслеживать решения об включении и исключении.
Результаты бенчмаркинга инициативы DataComp иллюстрируют технические эффекты этих проектных решений. Когда идентичные архитектуры видения и языка были обучены на LAION-5B и CommonPool, последний произвел модели с более стабильной производительностью, особенно на задачах извлечения и классификации с нулевым выстрелом. Эти результаты предполагают, что более высокое качество выравнивания CommonPool компенсирует некоторые преимущества масштаба менее отфильтрованных наборов данных. Тем не менее, независимые аудиты в 2025 году показали остаточные риски: около 0,1% набора данных все еще содержали неразмытые лица, чувствительные личные документы и медицинские записи. Это подчеркивает пределы даже самых передовых автоматизированных фильтров.
В целом, CommonPool представляет собой сдвиг в инженерии наборов данных от приоритета сырого масштаба к балансу масштаба, качества и соблюдения правил. Для исследователей он предоставляет воспроизводимую и сравнительно более безопасную основу для крупномасштабной предварительной подготовки. Для регулирующих органов он демонстрирует, что механизмы конфиденциальности и подотчетности могут быть встроены непосредственно в процесс создания набора данных. В отличие от LAION, CommonPool иллюстрирует, как конвейеры фильтрации, практики управления и рамки бенчмаркинга могут преобразовать крупномасштабные веб-данные в более технически прочный и этически ответственный ресурс для многомодального ИИ.
Сравнение CommonPool с традиционными веб-скрейпинговыми наборами данных
В отличие от более ранних крупномасштабных веб-скрейпинговых наборов данных, таких как LAION-5B (5,85 миллиарда образцов), COYO-700M (700 миллионов образцов) и WebLI (400 миллионов образцов), CommonPool подчеркивает структуру, воспроизводимость и управление. Он сохраняет метаданные, такие как URL-адреса и метки времени, что поддерживает прослеживаемость и частичные проверки лицензий. Кроме того, он применяет фильтрацию на основе CLIP для удаления пар изображений и текста с низким качеством или слабой связью, что приводит к улучшению качества данных.
По сравнению с LAION-5B и COYO, которые были собраны из Common Crawl с ограниченной фильтрацией и без подробной документации лицензирования, эти наборы данных часто содержат чувствительный материал, включая медицинские записи, документы идентификации и неразмытые лица. WebLI, используемый внутренне OpenAI, также лишен прозрачности, поскольку он никогда не выпускался для внешнего обзора или репликации.
CommonPool стремится решить эти проблемы, исключая личную идентифицирующую информацию (PII) и контент, не подлежащий распространению (NSFW), а также признавая, что полное согласие пользователей остается нерешенной проблемой. Это делает его сравнительно более надежным и этически выровненным, чем более ранние альтернативы.
Основной вывод
Разработка CommonPool отражает важный переход в том, как крупномасштабные наборы данных ИИ концептуализируются и поддерживаются. Хотя более ранние коллекции, такие как LAION-5B и COYO, отдали приоритет масштабу с ограниченным надзором, CommonPool демонстрирует, что прозрачность, фильтрация и управление могут быть интегрированы в процесс создания набора данных без ущерба для его применимости для исследований.
Сохраняя метаданные, применяя проверки семантического выравнивания и встраивая меры безопасности, он предлагает более воспроизводимый и ответственный ресурс. В то же время независимые аудиты напоминают нам, что автоматические меры безопасности не могут полностью исключить риски, подчеркивая необходимость постоянной бдительности.












