Штучний інтелект

Чи гірші недооцінені гіпермасштабні набори даних штучного інтелекту, ніж сам Інтернет?

Published October 6, 2021

Updated April 28, 2026

Martin Anderson

Дослідники з Ірландії, Великої Британії та США попередили, що зростання гіпермасштабних навчальних наборів даних штучного інтелекту загрожує поширювати найгірші аспекти їхніх джерел в Інтернеті, стверджуючи, що недавно випущений академічний набір даних містить ‘проблемні та явні зображення та текстові пари зґвалтування, порнографії, злих стереотипів, расових та етнічних лайок та інших дуже проблемних контентів’.

Дослідники вважають, що нова хвиля величезних недооцінених або неправильно відфільтрованих багатомодальних (наприклад, зображень та картинок) наборів даних є, ймовірно, більш шкідливими у своїй здатності посилювати ефекти такого негативного контенту, оскільки набори даних зберігають зображення та інші контенти, які можуть бути видалені з онлайн-платформ через скарги користувачів, місцеву модерацію або алгоритми.

Вони далі спостерігають, що може знадобитися роки – у випадку могутнього набору даних ImageNet, ціле десятиліття – для того, щоб звернутися до тривалих скарг про контент набору даних, і що ці пізніші зміни не завжди відображаються навіть у нових наборах даних, отриманих з них.

Папера папера, озаглавлена Багатомодальні набори даних: мізогінія, порнографія та злі стереотипи, походить від дослідників Університету Коледжу Дубліна та Lero, Університету Единбурга, а також головного науковця платформи автентифікації UnifyID.

Хоча робота зосереджена на недавньому випуску набору даних CLIP-фільтра LAION-400M, автори висувають аргументи проти загальної тенденції використання все більшої кількості даних у рамках штучного інтелекту, таких як нейронна мова модель GPT-3, і стверджують, що результати-орієнтована тенденція до кращого висновку (і навіть до штучного загального інтелекту [AGI]), призводить до використання шкідливих джерел даних з недбалим дотриманням авторських прав; потенційною можливістю спричинення та поширення шкоди; і можливістю не тільки поширювати незаконні дані, які могли б інакше зникнути з публічної сфери, але й фактично включати такі дані у подальші реалізації штучного інтелекту.

LAION-400M

Минулого місяця був випущений набір даних LAION-400M, який додався до зростаючої кількості багатомодальних лінгвістичних наборів даних, що покладаються на Common Crawl репозиторій, який безрозбірно сканує Інтернет і передає відповідальність за фільтрацію та кураторство проектам, які використовують його. Похідний набір даних містить 400 мільйонів текстово-образових пар.

LAION-400M є відкритим варіантом закритого набору даних Google AI WIT (WebImageText) набору даних, випущеного у березні 2021 року, і містить текстово-образові пари, де зображення в базі даних було пов’язано з супутнім явним або метаданими текстом (наприклад, альтернативним текстом зображення у веб-галереї). Це дозволяє користувачам виконувати текстовий пошук зображень, розкриваючи асоціації, які сформував підлеглий штучний інтелект щодо цих доменів (тобто ‘тварина’, ‘велосипед’, ‘особа’, ‘чоловік’, ‘жінка’).

Ця взаємозв’язок між зображенням та текстом, а також косинусна подібність, яка може вбудувати упередженість у результати запиту, становлять серце заклику папери до вдосконалення методологій, оскільки дуже прості запити до бази даних LAION-400M можуть розкрити упередженість.

Наприклад, зображення першої жінки-астронавта Ілін Коллінз у бібліотеці scitkit-image повертає дві пов’язані підписи у LAION-400M: ‘Це портрет астронавта з американським прапором’ і ‘Це фотографія усміхненої домогосподарки в оранжевому костюмі з американським прапором’.

Американський астронавт Ілін Коллінз отримує два дуже різні погляди на свої досягнення як першої жінки в космосі під LAION-400M. Джерело: https://arxiv.org/pdf/2110.01963.pdf

Згідно з повідомленнями, косинусна подібність, яка робить будь-який підпис ймовірним, є дуже близькою один до одного, і автори стверджують, що така близькість зробить системи штучного інтелекту, які використовують LAION-400M, відносно ймовірними для представлення будь-якого з них як підходящого підпису.

Порнографія знову піднімається на вершину

LAION-400M зробив пошуковий інтерфейс доступним, де відміна кнопки “безпечний пошук” розкривається масштабом, у якому порнографічні зображення та текстові асоціації домінують у мітках та класах. Наприклад, пошук за ‘черниця’ (NSFW, якщо ви згодом вимкнете безпечний режим) у базі даних повертає результати, в основному пов’язані з жахом, косплеєм та костюмами, з дуже少кими справжніми черницями, доступними.

Вимкнення Безpečного режиму на тому ж пошуку розкривають ряд порнографічних зображень, пов’язаних з терміном, які витісняють будь-які не-порнографічні зображення внизу сторінки результатів пошуку, розкриваючи масштаб, у якому LAION-400M призначив більшу вагу порнографічним зображенням, оскільки вони поширені для терміна “черниця” в онлайн-джерелах.

За замовчуванням активація Безпечного режиму є оманливою в онлайн-інтерфейсі пошуку, оскільки це представляє собою UI-штрих, фільтр, який не обов’язково буде активований у похідних системах штучного інтелекту, але який був узагальнений у домені “черниця” таким чином, що не легко фільтрується або відрізняється від (відносно) безпечних результатів у термінах алгоритмічного використання.

Папера містить розмиті приклади по різних пошуковим термінам у додаткових матеріалах у кінці. Їх не можна представити тут через мову у тексті, який супроводжує розмиті фотографії, але дослідники відзначають витрати, яких зазнали вони та їхні колеги під час дослідження та аналізу таких наборів даних:

‘Ми (а також наші колеги, які допомогли нам) відчували різний рівень дискомфорту, нудоти та головного болю під час процесу дослідження набору даних. Крім того, така робота непропорційно зустрічає значну негативну критику по всьому академічному штучному інтелекту при випуску, що не тільки додає додатковий емоційний тягар до вже важкої задачі вивчення та аналізу таких наборів даних, але також відштовхує подібну майбутню роботу, що суттєво шкодить галузі штучного інтелекту та суспільству загалом.’

Дослідники стверджують, що хоча кураторство людини у циклі є дорогим і має пов’язані з ним особисті витрати, автоматичні системи фільтрації, призначені для видалення або іншого звернення до такого матеріалу, явно не достатні для виконання завдання, оскільки системи обробки природної мови мають труднощі ізоляції або дисконтування образливого матеріалу, який може домінувати у наборі даних, і згодом сприйматися як значимий через чисту кількість.

Усічення забороненого контенту та позбавлення авторських прав

Папера стверджує, що недооцінені набори даних цього типу є “високою ймовірністю” поширювати експлуатацію окремих осіб меншин, і звертаються до питання про те, чи мають подібні відкриті джерельні дані право, юридично чи морально, передавати відповідальність за матеріал на кінцевого користувача:

‘Особи можуть видалити свої дані з веб-сайту та вважати, що вони зникли назавжди, тоді як вони можуть ще існувати на серверах декількох дослідників та організацій. Є питання про те, хто відповідає за видалення цих даних з використання у наборі даних? Для LAION-400M творці делегували цю задачу користувачеві набору даних. Враховуючи, що такі процеси зроблені складними та що середній користувач не володіє технічними знаннями для видалення своїх даних, це є розумним підходом?’

Вони далі стверджують, що LAION-400M може не бути підходящим для випуску під його прийнятим ліцензійним моделем Creative Common CC-BY 4.0, незважаючи на потенційні вигоди для демократизації великомасштабних наборів даних, які раніше були виключною сферою діяльності добре фінансованих компаній, таких як Google та OpenAI.

Домен LAION-400M стверджує, що зображення набору даних ‘знаходяться під їхньою власною авторською правами’ – ‘пас-трху’ механізм, який у значній мірі дозволений судовими рішеннями та урядовими директивами останніх років, які загалом схвалюють веб-скрепінг для дослідницьких цілей. Джерело: https://rom1504.github.io/clip-retrieval/

Автори пропонують, що волонтери з народного рівня (тобто спільноти волонтерів) могли б звернутися до деяких питань набору даних, і що дослідники могли б розробити вдосконалені техніки фільтрації:

‘Незважаючи на це, права суб’єкта даних залишаються невирішеними. Це безрозсудно та небезпечно занижувати шкоди, закладені у таких великомасштабних наборах даних, та заохочувати їх використання в промислових та комерційних умовах. Відповідальність схеми ліцензії, під якою надається набір даних, лежить виключно на творці набору даних’.

Проблеми демократизації гіпермасштабних даних

Папера стверджує, що візуально-лінгвістичні набори даних такого масштабу, як LAION-400M, раніше були недоступні поза великими технологічними компаніями та обмеженою кількістю дослідницьких інститутів, які володіють ресурсами для збору, кураторства та обробки їх. Вони далі вітують дух нового випуску, одночасно критикуючи його виконання.

Автори стверджують, що прийняте визначення “демократизації”, як воно застосовується до відкритих джерельних гіпермасштабних наборів даних, є занадто обмеженим, і ‘не враховує права, добробут та інтереси вразливих осіб та спільнот, багатьох з яких, ймовірно, будуть страждати найгірше від подальших впливів цього набору даних та моделей, навчених на ньому’.

Оскільки розробка моделей GPT-3 масштабу відкритих джерельних моделей в кінцевому підсумку призначена для розповсюдження мільйонам (і, можливо, мільярдам) користувачів по всьому світу, і оскільки дослідницькі проекти можуть прийняти набори даних до того, як вони будуть згодом редаговані або навіть видалені, поширюючи будь-які проблеми, які були призначені для вирішення у модифікаціях, автори стверджують, що бездумне випускання недооцінених наборів даних не повинно стати звичайною особливістю відкритого джерельного машинного навчання.

Поміщення джина назад у лампові

Деякі набори даних, які були придушені давно після того, як їхній контент пройшов, можливо, нерозривно, у довгострокові проекти штучного інтелекту, включали включали набір даних Duke MTMC (Багатоцільовий, багатокамерний), який був у кінцевому підсумку відкликаний через постійні скарги від організацій з прав людини щодо його використання репресивними органами влади в Китаї; Microsoft Celeb (MS-Celeb-1M), набір даних з 10 мільйонів “знаменитих” зображень обличчя, який виявився містити журналістів, активістів, посадових осіб та письменників, чиє викриття біометричних даних у випуску було сильно розкритиковано; і набір даних Tiny Images, відкликаний у 2020 році через самі визнані “упередженості, образливі та упереджені зображення, а також принизливі термінології”.

Відносно наборів даних, які були змінені, а не відкликані після критики, прикладами є дуже популярний набір даних ImageNet, який, як відзначають дослідники, взяв десять років (2009-2019), щоб звернутися до повторюваних скарг щодо приватності та необразних класів.

Папера спостерігає, що LAION-400M фактично встановлює навіть ці повільні поліпшення назад, “в основному ігноруючи” вищезгадані зміни у представленні ImageNet у новому випуску, і підозрює ширшу тенденцію в цьому відношенні*:

‘Це підкреслюється появою більших наборів даних, таких як набір даних зображень Tencent ML (у лютому 2020 року), який охоплює більшість цих необразних класів, подальша доступність моделей, навчених на повному наборі даних ImageNet-21k, у репозиторіях таких як TF-hub, подальше використання нефільтрованого набору даних ImageNet-21k у останніх моделях SotA (таких як остання модель EfficientNetV2 та CoAtNet) і явні оголошення про дозвіл використання нефільтрованого набору даних ImageNet-21k для попередньої підготовки у відомих конкурсах таких як конкурс LVIS 2021.

‘Ми підкреслюємо це важливе спостереження: Команда такого рівня, як ImageNet, керуюча менше 15 мільйонами зображень, боролася та зазнала невдачі у цих спробах детоксикації до цього часу.

‘Масштаб ретельних зусиль, необхідних для彻ної детоксикації цього масивного багатомодального набору даних та подальших моделей, навчених на цьому наборі даних, що охоплює потенційно мільярди пар зображень та підписів, буде безсумнівно астрономічним.’

* Моє перетворення авторських цитат у гіперпосилання.

Related Topics:AI bias Bias data analysis research