Искусственный интеллект

Являются ли недооцененные гипермасштабные наборы данных ИИ хуже, чем сам Интернет?

Published October 6, 2021

Updated April 28, 2026

Martin Anderson

Исследователи из Ирландии, Великобритании и США предупредили, что рост гипермасштабных наборов данных для обучения ИИ угрожает распространить худшие аспекты их источников в Интернете, утверждая, что недавно выпущенный академический набор данных содержит ‘проблемные и явные изображения и текстовые пары изнасилования, порнографии, злых стереотипов, расистских и этнических оскорблений, а также другие крайне проблемные содержания’.

Исследователи считают, что новая волна огромных недооцененных или неправильно отфильтрованных многомодальных (например, изображений и картинок) наборов данных можно считать более вредными в их способности усиливать эффекты такого негативного содержания, поскольку наборы данных сохраняют изображения и другое содержание, которое может быть удалено из онлайн-платформ через жалобы пользователей, местную модерацию или алгоритмы.

Они также отмечают, что может потребоваться годы – в случае с могущественным набором данных ImageNet, целое десятилетие – чтобы устранить давние жалобы о содержании набора данных, и что эти поздние пересмотры не всегда отражаются даже в новых наборах данных, полученных из них.

Статья названа Многомодальные наборы данных: мисогиния, порнография и злые стереотипы, и исходит от исследователей Университета колледжа Дублина и Lero, Университета Эдинбурга, и главного ученого платформы аутентификации UnifyID.

Хотя работа фокусируется на недавнем выпуске CLIP-фильтра LAION-400M набора данных, авторы выступают против общей тенденции бросать все больше данных на框ки машинного обучения, такие как нейронная языковая модель GPT-3, и утверждают, что результаты-ориентированная тенденция к лучшему выводу (и даже к искусственному общему интеллекту [AGI]), приводит к использованию вредных источников данных с халатным контролем авторских прав; потенциал вызвать и продвигать вред; и способность не только распространять незаконные данные, которые могли бы иначе исчезнуть из публичной сферы, но и фактически включать такие данные моральных моделей в реализацию ИИ.

LAION-400M

В прошлом месяце был выпущен набор данных LAION-400M, добавившийся к растущему числу многомодальных лингвистических наборов данных, которые полагаются на репозиторий Common Crawl, который скрапит Интернет без разбора и передает ответственность за фильтрацию и курирование проектам, которые используют его. Полученный набор данных содержит 400 миллионов текстово-изображенных пар.

LAION-400M – это открытая версия закрытого набора данных Google AI WIT (WebImageText) набора данных, выпущенного в марте 2021 года, и содержит текстово-изображенные пары, где изображение в базе данных было связано с сопровождающим явным или метаданными текстом (например, альтернативным текстом изображения в веб-галерее). Это позволяет пользователям выполнять текстовый поиск изображений, раскрывая ассоциации, которые сформировал основной ИИ о этих доменах (т.е. ‘животное’, ‘велосипед’, ‘человек’, ‘мужчина’, ‘женщина’).

Эта связь между изображением и текстом, и косинусная подобие, которая может внедрить предвзятость в результаты запросов, являются сердцем призыва статьи к улучшению методологий, поскольку очень простые запросы к базе данных LAION-400M могут раскрыть предвзятость.

Например, изображение пионерского астронавта Илин Коллинз в библиотеке scitkit-image возвращает два связанных подписи в LAION-400M: ‘Это портрет астронавта с американским флагом’ и ‘Это фотография улыбающейся домохозяйки в оранжевом комбинезоне с американским флагом’.

Американский астронавт Илин Коллинз получает два очень разных взгляда на свои достижения как первая женщина в космосе под LAION-400M. Источник: https://arxiv.org/pdf/2110.01963.pdf

Отчетные косинусные подобия, которые делают либо подпись вероятной, очень близки друг к другу, и авторы утверждают, что такие близость сделает системы ИИ, которые используют LAION-400M, относительно вероятными для представления либо в качестве подходящей подписи.

Порнография вновь поднимается на вершину

LAION-400M сделал доступным поисковый интерфейс доступным, где снятие флажка “безопасный поиск” раскрывает степень, в которой порнографические изображения и текстовые ассоциации доминируют в метках и классах. Например, поиск за ‘монахиню’ (NSFW, если вы последовательно отключите безопасный режим) в базе данных возвращает результаты, в основном связанные с ужасом, косплеем и костюмами, с очень немногими реальными монахинями.

Отключение безопасного режима в том же поиске раскрывает множество порнографических изображений, связанных с термином, которые толкают любые непорнографические изображения вниз по странице результатов поиска, раскрывая степень, в которой LAION-400M присвоил больший вес порнографическим изображениям, потому что они распространены для термина “монахиня” в онлайн-источниках.

По умолчанию включенный безопасный режим является обманчивым в онлайн-интерфейсе поиска, поскольку он представляет собой особенность интерфейса, фильтр, который не только не обязательно будет активирован в полученных системах ИИ, но и который был обобщен в домене “монахиня” таким образом, что не так легко отфильтровать или различить от (относительно) безопасных результатов в плане алгоритмического использования.

Статья содержит размытые примеры по различным поисковым терминам в дополнительных материалах в конце. Они не могут быть представлены здесь из-за языка в тексте, который сопровождает размытые фотографии, но исследователи отмечают нагрузку, которую осмотр и размытие изображений оказали на них, и признают проблему курирования такого материала для человеческого надзора за большими базами данных:

‘Мы (а также наши коллеги, которые помогали нам) испытали различные уровни дискомфорта, тошноты и головной боли во время процесса исследования набора данных. Кроме того, эта работа непропорционально встречает значительную негативную критику по всей академической сфере ИИ при выпуске, что не только добавляет дополнительную эмоциональную нагрузку к уже тяжелой задаче изучения и анализа таких наборов данных, но и отпугивает подобную будущую работу, во многом к ущербу области ИИ и обществу в целом.’

Исследователи утверждают, что хотя человеческий надзор за курированием является дорогим и имеет связанные с этим личные затраты, автоматические системы фильтрации, предназначенные для удаления или решения таких материалов, явно неадекватны для этой задачи, поскольку системы NLP испытывают трудности в изоляции или дисконтировании оскорбительного материала, который может доминировать в скрапированном наборе данных, и впоследствии восприниматься как значимый из-за чистого объема.

Укрепление запрещенного контента и снятие защиты авторских прав

Статья утверждает, что недооцененные наборы данных этого типа ‘высокой вероятности’ распространить эксплуатацию отдельных лиц из меньшинств, и решает, имеет ли подобный открытый источник данных право, юридически или морально, передать ответственность за материал на конечного пользователя:

‘Отдельные лица могут удалить свои данные из веб-сайта и предположить, что они исчезли навсегда, хотя они могут все еще существовать на серверах нескольких исследователей и организаций. Есть вопрос о том, кто отвечает за удаление этих данных из использования в наборе данных? Для LAION-400M создатели делегировали эту задачу пользователю набора данных. Учитывая, что такие процессы намеренно делаются сложными и что средний пользователь не обладает техническими знаниями для удаления своих данных, является ли это разумным подходом?’

Они также утверждают, что LAION-400M может не подходить для выпуска под его принятой лицензионной моделью Creative Common CC-BY 4.0, несмотря на потенциальные выгоды для демократизации крупномасштабных наборов данных, ранее эксклюзивной области хорошо финансируемых компаний, таких как Google и OpenAI.

Домен LAION-400M утверждает, что изображения в наборе данных ‘находятся под их собственной авторской правой’ – ‘пропуска’ механизм, в значительной степени обусловленный судебными решениями и правительственными рекомендациями последних лет, которые в целом одобряют веб-скрапинг для исследовательских целей. Источник: https://rom1504.github.io/clip-retrieval/

Авторы предлагают, что корневые (т.е. добровольческие) усилия могли бы решить некоторые проблемы набора данных, и что исследователи могли бы разработать улучшенные методы фильтрации.

‘Тем не менее, права субъекта данных остаются нерешенными здесь. Это безрассудно и опасно преуменьшать вред, присущий таким крупномасштабным наборам данных, и поощрять их использование в промышленных и коммерческих условиях. Ответственность схемы лицензирования, под которой предоставляется набор данных, лежит исключительно на создателе набора данных.’

Проблемы демократизации гипермасштабных данных

Статья утверждает, что визио-лингвистические наборы данных, такие как LAION-400M, ранее были недоступны вне крупных технологических компаний, и ограниченного числа исследовательских учреждений, которые обладают ресурсами для сбора, курирования и обработки их. Они также приветствуют дух нового выпуска, критикуя его выполнение.

Авторы утверждают, что принятая дефиниция ‘демократизации’, применяемая к открытым гипермасштабным наборам данных, слишком ограничена и ‘не учитывает права, благополучие и интересы уязвимых отдельных лиц и сообществ, многие из которых, вероятно, пострадают хуже от последующего воздействия этого набора данных и моделей, обученных на нем’.

Поскольку разработка моделей GPT-3 масштаба открытых моделей в конечном итоге предназначена для распространения среди миллионов (и, возможно, миллиардов) пользователей во всем мире, и поскольку исследовательские проекты могут принять наборы данных до их последующего редактирования или даже удаления, распространяя любые проблемы, которые были предназначены для решения в модификациях, авторы утверждают, что беззаботные выпуски недооцененных наборов данных не должны стать привычной особенностью в открытом машинном обучении.

Помещение джинна обратно в бутылку

Некоторые наборы данных, которые были подавлены давно после того, как их содержание прошло, возможно, неразделимо, в долгосрочные проекты ИИ, включали набор данных Duke MTMC (Multi-Target, Multi-Camera), который в конечном итоге был отозван из-за повторяющихся опасений правозащитных организаций вокруг его использования репрессивными властями в Китае; Microsoft Celeb (MS-Celeb-1M), набор данных из 10 миллионов изображений ‘знаменитостей’, который оказался включать журналистов, активистов, политиков и писателей, чья экспозиция биометрических данных в выпуске была сильно раскритикована; и набор данных Tiny Images, отозванный в 2020 году за ‘предвзятости, оскорбительные и предвзятые изображения, и уничижительные термины’.

Что касается наборов данных, которые были изменены, а не отозваны после критики, примеры включают чрезвычайно популярный набор данных ImageNet, который, как отмечают исследователи, потребовалось десять лет (2009-2019), чтобы решить повторяющуюся критику вокруг конфиденциальности и неклассифицируемых классов.

Статья отмечает, что LAION-400M фактически отменяет даже эти поздние улучшения, ‘в значительной степени игнорируя’ вышеуказанные пересмотры представления ImageNet в новом выпуске, и подозревает более широкую тенденцию в этом отношении*:

‘Это подчеркивается в появлении более крупных наборов данных, таких как набор данных изображений Tencent ML (в феврале 2020 года), который охватывает большинство этих неклассифицируемых классов, продолжающейся доступности моделей, обученных на полном наборе данных ImageNet-21k, в репозиториях, таких как TF-hub, продолжающемся использовании нефильтрованного набора данных ImageNet-21k в последних моделях SotA (таких как последние модели EfficientNetV2 и CoAtNet) и явными объявлениями, разрешающими использование нефильтрованного набора данных ImageNet-21k для предварительной подготовки в авторитетных конкурсах, таких как конкурс LVIS 2021.

‘Мы подчеркиваем это важное наблюдение: команда такого уровня, как ImageNet, управляющая менее чем 15 миллионами изображений, боролась и не справилась с этими попытками детоксикации на данный момент.

‘Масштаб тщательных усилий, необходимых для тщательной детоксикации этого огромного многомодального набора данных и моделей, обученных на этом наборе данных, охватывающих потенциально миллиарды изображений-пар, будет, безусловно, астрономическим.’

* Мое преобразование встроенных цитат автора в гиперссылки.

Related Topics:AI bias Bias data analysis research