Artificial Intelligence

Являются ли гипермасштабируемые наборы данных искусственного интеллекта хуже, чем сам Интернет?

обновленный on 9 декабря 2022

Исследователи из Ирландии, Великобритании и США предупредили, что рост гипермасштабных наборов данных для обучения ИИ угрожает распространением худших аспектов их интернет-источников, утверждая, что недавно выпущенный академический набор данных содержит «неприятные и откровенные изображения и текстовые пары изнасилований, порнографии, злонамеренных стереотипов, расистских и этнических оскорблений и другого чрезвычайно проблематичного контента».

Исследователи считают, что новая волна массовых недостаточно отобранных или неправильно отфильтрованных мультимодальных наборов данных (например, изображений и картинок), возможно, более разрушительна в своей способности усиливать эффекты такого негативного контента, поскольку наборы данных сохраняют изображения и другой контент. которые с тех пор могли быть удалены с онлайн-платформ из-за жалоб пользователей, локальной модерации или алгоритмов.

Они также отмечают, что могут потребоваться годы — в случае с мощным набором данных ImageNet, целое десятилетие — для рассмотрения давних жалоб на содержание набора данных, и что эти более поздние версии не всегда отражаются даже в новых наборах данных, полученных из них. .

Ассоциация бумаги, Под названием Мультимодальные наборы данных: женоненавистничество, порнография и злокачественные стереотипы, исходит от исследователей из Университетского колледжа Дублина и Леро, Эдинбургского университета и главного научного сотрудника платформы аутентификации UnifyID.

Хотя работа сосредоточена на недавнем выпуске CLIP-фильтрованный Набор данных ЛАИОН-400М, авторы выступают против общей тенденции использования растущих объемов данных в системах машинного обучения, таких как модель нейронного языка GPT-3, и утверждают, что ориентированность на результаты ведет к лучшему выводу (и даже к искусственному общему интеллекту [AGI]). ), приводит к нерегулярному использованию источников данных, наносящих ущерб, при небрежном надзоре за авторскими правами; потенциальная возможность причинения и усиления вреда; и способность не только увековечивать незаконные данные, которые в противном случае могли бы исчезнуть из общественного достояния, но и фактически включать моральные модели таких данных в последующие реализации ИИ.

ЛАИОН-400М

В прошлом месяце был выпущен набор данных LAION-400M, пополнивший растущее число мультимодальных лингвистических наборов данных, основанных на Обыкновенный обход репозиторий, который без разбора очищает Интернет и передает ответственность за фильтрацию и курирование проектам, которые его используют. Производный набор данных содержит 400 миллионов пар текст/изображение.

LAION-400M — это вариант с открытым исходным кодом закрытого WIT от Google AI (WebImageText). Набор данных выпущен в марте 2021 года и включает пары текст-изображение, где изображение в базе данных связано с сопровождающим явным текстом или текстом метаданных (например, альтернативный текст изображения в веб-галерее). Это позволяет пользователям выполнять текстовый поиск изображений, выявляя ассоциации, которые базовый ИИ сформировал в отношении этих доменов (т. е. 'животное', 'велосипед', 'человек', 'мужчина', 'женщина').

Эта взаимосвязь между изображением и текстом, а также косинусное сходство, которое может внести погрешность в результаты запроса, лежат в основе призыва к улучшению методологий, поскольку очень простые запросы к базе данных LAION-400M могут выявить погрешность.

Например, изображение женщины-космонавта-первопроходца Эйлин Коллинз в библиотеке scitkit-image содержит две связанные подписи в LAION-400M: «Это портрет астронавта с американским флагом» и «Это фотография улыбающейся домохозяйки в оранжевом комбинезоне с американским флагом».

Американская астронавт Эйлин Коллинз получает два совершенно разных взгляда на свои достижения в качестве первой женщины в космосе под управлением LAION-400M. Источник: https://arxiv.org/pdf/2110.01963.pdf

Сообщаемые сходства косинусов, которые делают любую подпись вероятно применимой, очень близки друг к другу, и авторы утверждают, что такая близость сделает системы ИИ, использующие LAION-400M, относительно вероятными для представления любой из них в качестве подходящей подписи.

Порнография снова поднимается на вершину

ЛАИОН-400М сделал поисковый интерфейс доступен, где отключение кнопки «безопасный поиск» показывает, в какой степени порнографические изображения и текстовые ассоциации преобладают над ярлыками и классами. Например, поиск 'монахиня' (NSFW, если вы впоследствии отключите безопасный режим) в базе данных возвращает результаты, в основном связанные с ужасами, косплеем и костюмами, с очень небольшим количеством доступных монахинь.

Отключение безопасного режима в том же поиске показывает множество порнографических изображений, связанных с этим термином, которые отодвигают любые непорнографические изображения вниз по странице результатов поиска, показывая, в какой степени LAION-400M присваивает больший вес порнографическим изображениям, потому что они преобладают для термина «монахиня» в онлайн-источниках.

Активация безопасного режима по умолчанию обманчива в интерфейсе онлайн-поиска, поскольку представляет собой причуду пользовательского интерфейса, фильтр, который не только не обязательно будет активирован в производных системах ИИ, но и в некотором смысле был обобщен в домене «монахини». который не так легко отфильтровать или отличить от (относительно) результатов SFW с точки зрения алгоритмического использования.

В конце статьи в дополнительных материалах приведены размытые примеры по различным поисковым запросам. Они не могут быть представлены здесь из-за языка в тексте, который сопровождает размытые фотографии, но исследователи отмечают потери, связанные с изучением и размытием изображений, и признают сложность обработки таких материалов для человеческого надзора за большими объемами. -масштабные базы данных:

«Мы (а также наши коллеги, которые нам помогали) испытывали различные степени дискомфорта, тошноты и головной боли в процессе исследования набора данных. Кроме того, такого рода работа непропорционально сталкивается со значительной негативной критикой в академической сфере ИИ после выпуска, что не только добавляет дополнительную эмоциональную нагрузку к и без того тяжелой задаче изучения и анализа таких наборов данных, но и препятствует проведению подобной работы в будущем, во многом в ущерб области ИИ и общества в целом».

Исследователи утверждают, что, хотя курирование с участием человека является дорогостоящим и сопряжено с личными расходами, автоматизированные системы фильтрации, предназначенные для удаления или иного обращения с такими материалами, явно не подходят для этой задачи, поскольку системам НЛП трудно изолировать или игнорировать оскорбительные материалы. материал, который может доминировать в извлеченном наборе данных и впоследствии восприниматься как значительный из-за огромного объема.

Закрепление запрещенного контента и снятие защиты авторских прав

В документе утверждается, что недооцененные наборы данных такого рода «весьма вероятно» будут увековечивать эксплуатацию лиц из числа меньшинств, и рассматривается вопрос о том, имеют ли подобные проекты данных с открытым исходным кодом право, юридическое или моральное, перекладывать ответственность за материал на конечный пользователь:

«Люди могут удалить свои данные с веб-сайта и считать, что они исчезли навсегда, в то время как они могут все еще существовать на серверах нескольких исследователей и организаций. Возникает вопрос, кто несет ответственность за удаление этих данных из использования в наборе данных? Для LAION-400M создатели делегировали эту задачу пользователю набора данных. Учитывая, что такие процессы намеренно усложняются, а среднему пользователю не хватает технических знаний для удаления своих данных, разумен ли такой подход?»

Они также утверждают, что LAION-400M может не подходить для выпуска в соответствии с принятой моделью лицензии Creative Common CC-BY 4.0, несмотря на потенциальные преимущества демократизации крупномасштабных наборов данных, ранее принадлежавших исключительно хорошо финансируемым компаниям, таким как Google и OpenAI.

Домен LAION-400M утверждает, что изображения набора данных «защищены собственными авторскими правами» — «сквозной» механизм, в значительной степени разрешенный судебными решениями и правительственными директивами последних лет, которые широко одобряют просмотр веб-страниц в исследовательских целях. Источник: https://rom1504.github.io/clip-retrieval/

Авторы предполагают, что рядовые специалисты (т. е. добровольцы из краудсорсинга) могли бы решить некоторые проблемы с наборами данных, а исследователи могли бы разработать улучшенные методы фильтрации.

«Тем не менее, права субъекта данных здесь остаются без внимания. Безрассудно и опасно недооценивать вред, присущий таким крупномасштабным наборам данных, и поощрять их использование в промышленных и коммерческих условиях. Ответственность за схему лицензирования, по которой предоставляется набор данных, ложится исключительно на создателя набора данных».

Проблемы демократизации гипермасштабируемых данных

В документе утверждается, что такие большие визуально-лингвистические наборы данных, как LAION-400M, ранее были недоступны за пределами крупных технологических компаний и ограниченного числа исследовательских институтов, располагающих ресурсами для их сопоставления, отбора и обработки. Они также приветствуют дух нового релиза, критикуя его исполнение.

Авторы утверждают, что общепринятое определение «демократизации» применительно к гипермасштабируемым наборам данных с открытым исходным кодом слишком ограничено. «не учитывает права, благополучие и интересы уязвимых лиц и сообществ, многие из которых, вероятно, больше всего пострадают от последующих воздействий этого набора данных и моделей, обученных на нем».

Поскольку разработка моделей с открытым исходным кодом в масштабе GPT-3 в конечном итоге предназначена для распространения среди миллионов (и через доверенных лиц, возможно, миллиардов) пользователей по всему миру, и поскольку исследовательские проекты могут использовать наборы данных до того, как они будут впоследствии отредактированы или даже удалены, увековечивая любые проблемы были разработаны для решения в модификациях, авторы утверждают, что небрежные выпуски недооцененных наборов данных не должны становиться привычной чертой машинного обучения с открытым исходным кодом.

Возвращаем джина в бутылку

Некоторые наборы данных, которые были скрыты спустя долгое время после того, как их содержимое, возможно, неразрывно перешло в долгосрочные проекты ИИ, включены набор данных Duke MTMC (Multi-Target, Multi-Camera), который в конечном итоге был отозван из-за повторяющиеся опасения от правозащитных организаций вокруг его использования репрессивными властями Китая; Microsoft Celeb (MS-Celeb-1M), набор данных из 10 миллионов изображений лиц «знаменитостей», которые выяснилось, включить журналистов, активистов, политиков и писателей, чье раскрытие биометрических данных в выпуске подверглось резкой критике; и набор данных Tiny Images, отозван в 2020 г. за самопровозглашенные «предвзятости, оскорбительные и предвзятые образы и уничижительную терминологию».

Что касается наборов данных, которые были изменены, а не отозваны после критики, примеры включают чрезвычайно популярный набор данных ImageNet, который, как отмечают исследователи, заняло десять лет (2009–2019), чтобы реагировать на неоднократную критику в отношении конфиденциальности и классов без изображений.

В документе отмечается, что LAION-400M эффективно отбрасывает даже эти запоздалые улучшения, «в значительной степени игнорируя» вышеупомянутые изменения в представлении ImageNet в новой версии, и отслеживает более широкую тенденцию в этом отношении *:

«Это подчеркивается появлением больших наборов данных, таких как Набор данных изображений Tencent ML (в феврале 2020 г.), который охватывает большинство из этих неизображаемые классы, постоянная доступность моделей, обученных на полном наборе данных ImageNet-21k, в репозиториях. такие как TF-концентратор, продолжающееся использование нефильтрованного ImageNet-21k в последних моделях SotA (таких как последний EfficientNetV2 от Google). и модели CoAtNet) и явные объявления, разрешающие использование предварительной подготовки unfiltered-ImageNet-21k в авторитетных конкурсах. например, вызов LVIS 2021.

«Мы подчеркиваем это важное наблюдение: команда уровня ImageNet, управляющая менее чем 15 миллионами изображений, до сих пор боролась и терпела неудачу в этих попытках детоксикации.

«Масштаб тщательных усилий, необходимых для тщательной детоксикации этого массивного мультимодального набора данных и последующих моделей, обученных на этом наборе данных, охватывающем потенциально миллиарды пар изображений и подписей, будет, несомненно, астрономическим».

* Мое преобразование встроенных цитат автора в гиперссылки.

Gartner признает ведущую платформу данных Weka провидцем

Не пропустите

Согласно исследованию, Amazon Mechanical Turk платит менее 40% от минимальной заработной платы в США

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai

Unite.ИИ

Являются ли гипермасштабируемые наборы данных искусственного интеллекта хуже, чем сам Интернет?

Artificial Intelligence