Зв'язатися з нами

Зміна статі та раси в результатах пошуку зображень за допомогою машинного навчання

Штучний Інтелект

Зміна статі та раси в результатах пошуку зображень за допомогою машинного навчання

mm

Дослідницька співпраця між Каліфорнійським університетом у Сан-Дієго та Adobe Research запропонувала інноваційне та проактивне рішення проблеми відсутності расового та гендерного різноманіття в результатах пошуку зображень для професій, де традиційно домінували антропогенні протестувальники (WASP): використання генеративно-змагальних мереж (GAN) для створення нереальних зображень «упереджених» професій, де змінюється стать та/або раса суб'єкта дослідження.

У цьому прикладі з нової статті дослідники мають вхідні характеристики для бажаної фотографії, яка або не представлена ​​в типовому масиві доступного матеріалу зображення, або представлена ​​неналежним чином (тобто сексуалізована або в іншому невідповідному представленні). Джерело

У цьому прикладі з нової статті дослідники мають вхідні характеристики для бажаної фотографії, яка або не представлена ​​в типовому масиві доступного матеріалу зображення, або представлена ​​неналежним чином (тобто сексуалізована або в іншому невідповідному представленні). Source

У новому папір під назвою Створення та контроль різноманітності в пошуку зображень, автори припускають, що існує обмеження на те, що повторне рейтингування може виправити дисбаланс упереджених класів зображень/функцій, таких як водопровідник, машиніст, Розробник програмного забезпечення, та багато інших – і що збільшення расової та гендерної різноманітності за допомогою синтетичних даних може бути шляхом уперед для вирішення цієї проблеми.

«Прагнення до утопічного світу вимагає надання користувачам контенту можливості представити будь-яку професію з різними расовими та гендерними характеристиками. Обмежений вибір існуючого вмісту для певних поєднань професії, раси та статі є проблемою для постачальників контенту. Сучасні дослідження, пов’язані з упередженням у пошуку, здебільшого зосереджені на алгоритмах переранжування.

«Однак ці методи не можуть створити новий вміст або змінити загальний розподіл захищених атрибутів у фотографіях. Щоб усунути ці проблеми, ми пропонуємо нове завдання генерації високоякісних зображень на основі кількох атрибутів із незбалансованих наборів даних. '

З цією метою автори експериментували з різними системами синтезу зображень на основі GAN, нарешті висвітливши архітектуру, засновану на StyleGan2.

З додаткових матеріалів до статті наведено два приклади «зрівняльних» уявлень про упереджені професії, у цих випадках «столяр» і «оператор верстатів». Джерело

З додаткових матеріалів до статті наведено два приклади «зрівнювальних» образних репрезентацій упереджених професій, у цих випадках «тесляр» та «механік». Source

Неадекватно або невідповідно представлено

Дослідники формулюють завдання в термінах реального світу результат пошуку за запитом «сантехнік»* у пошуку зображень Google, спостерігаючи, що серед результатів пошуку переважають молоді білі чоловіки.

З паперу виберіть результати за запитом «сантехнік» у Пошуку зображень Google, січень 2021 р.

Зі статті виберіть результати для запиту «сантехнік» у пошуку зображень Google за січень 2021 року.

Автори зазначають, що подібні ознаки упередженості спостерігаються для низки професій, таких як «адміністративний помічник», «прибиральник» та «оператор машин», з відповідними упередженнями за віком, статтю та расою.

«Не дивно, що через таку суспільну упередженість деякі комбінації раси та статі можуть мати мало або взагалі не мати зображень у сховищі вмісту. Наприклад, коли ми шукали «жінка-чорношкіра (або афроамериканка) оператор машини» або «чоловік-азіат, адміністративний помічник», ми не знайшли відповідних зображень у [пошуку зображень Google].

Крім того, у рідкісних випадках певні комбінації статі та раси можуть призвести до того, що люди будуть зображені неналежним чином. Ми спостерігали таку поведінку для таких пошукових запитів, як «жінка-азіатський сантехнік» або «жінка-чорношкіра (або афроамериканка) охоронець».

Газета згадує ще одну наукову співпрацю від 2014, де дослідники зібрали 400 найкращих результатів пошуку зображень за 96 професіями. Ця робота показала, що жінки представляють лише 37% результатів, а антистереотипні образи лише 22%. А 2019 дослідження Єльського університету виявили, що за п’ять років ці відсотки зросли лише до 45% і 30% відповідно.

Крім того, дослідження 2014 року класифікувало сексуалізацію осіб певних професій у результатах пошуку зображень як Проблема сексуального тесляра, оскільки така невідповідна класифікація може призвести до спотворення результатів для визнання професій.

The Big Picture

Основним завданням для авторів було створення системи синтезу зображень на основі GAN, здатної виводити роздільну здатність 1024 × 1024, оскільки за поточного рівня техніки в системах синтезу зображень на основі GAN і кодерів/декодерів 512 × 512 досить. розкішний. Усе, що є вищим, як правило, буде отримано шляхом масштабування кінцевого результату з деякими витратами часу та ресурсів обробки та з певним ризиком для автентичності створених зображень.

Однак автори стверджують, що нижча роздільна здатність не може розраховувати на збільшення популярності в пошуку зображень, і експериментували з різними фреймворками GAN, які могли б виводити зображення високої роздільної здатності на вимогу з прийнятним рівнем автентичності.

Коли було прийнято рішення прийняти StyleGan2, стало очевидним, що проект потребуватиме більшого контролю над суб-функціями згенерованого результату (такими як раса, професія та стать), ніж це дозволяє розгортання за замовчуванням. Тому автори використовували багатокласове кондиціонування, щоб збільшити процес генерації.

Архітектура специфікаційного генератора зображень, яка, як стверджують автори, не є специфічною для StyleGAN2, але може бути застосована в ряді фреймворків генератора.

Архітектура специфікаційного генератора зображень, яка, як стверджують автори, не є специфічною для StyleGAN2, але може бути застосована в ряді фреймворків генератора.

Щоб контролювати такі фактори, як раса, стать і професія, архітектура вводить одноразове кодування цих об’єднаних характеристик у y вектор. Після цього для вбудовування цих функцій використовується мережа прямого зв’язку, щоб вони не ігнорувалися під час створення.

Автори зауважують, що існують жорсткі обмеження щодо того, наскільки можна таким чином маніпулювати StyleGAN2, і що більш детальні спроби змінити результати призвели до погіршення якості зображення та навіть згортання режиму.

Ці засоби, однак, не вирішують проблеми неявного зміщення в архітектурі, які дослідники мали вирішувати шляхом надмірної вибірки недостатньо представлених об’єктів із набору даних, але без ризику перепідбору, що вплинуло б на гнучкість створених потоків зображень.

Тому автори адаптувалися СтильGAN2-ADA, який використовує адаптивне розширення дискримінатора (ADA), щоб запобігти переобладнанню дискримінатора.

Генерація та оцінка даних

Оскільки метою проекту є отримання нових, синтезованих даних, дослідники перейняли методологію проекту 2014 року, обравши низку цільових професій, які демонструють високі расові та гендерні упередження. Були обрані професії «виконавчий менеджер», «помічник адміністратора», «медсестра», «фермер», «військовослужбовець», «охоронець», «водій вантажівки», «прибиральник», «столяр», «сантехнік», оператор машини», «спеціаліст технічної підтримки», «інженер-програміст» і «письменник».

Автори вибрали ці професії не лише на основі ступеня передбачуваної упередженості в результатах пошуку зображень, а й тому, що більшість із них містять певний візуальний компонент, кодифікований для професії, наприклад уніформа або наявність спеціального обладнання чи середовища. .

Набір даних був доповнений 10,000 95 зображень із бібліотеки Adobe Stock, які, як правило, отримували XNUMX% результатів або вище під час спроби класифікувати професію.

Оскільки багато зображень не були корисними для цільового завдання (тобто вони не містили людей), було необхідно ручне фільтрування. Після цього а ResNet32попередньо навчений класифікатор FairFace було використано для маркування зображень за статтю та расою, отримавши середню точність 95.7% для статі та 81.5% для раси. Таким чином дослідники отримали мітки зображення для атрибутів Стать: чоловік, жінка, раса: білі, чорні, азіати та інші раси.

Моделі були побудовані в TensorFlow з використанням StyleGAN2 та StyleGAN2-ADA як основних мереж. Попереднє навчання було проведено з використанням попередньо навчених вагових коефіцієнтів StyleGAN2 на базі даних Flickr-Faces-HQ від NVIDIA (FFHQ) набір даних, доповнений 34,000 XNUMX зображеннями професії, які автори зібрали в окремий набір даних, який вони назвали Uncocurated Stock-Occupation HQ (U-SOHQ).

Зразок HIT з оцінки людей Amazon Mechanical Turk.

Зразок HIT з оцінки людей Amazon Mechanical Turk.

Зображення були створені за чотирма конфігураціями архітектури, зрештою Uniform+ отримав найкращі бали як у FID (автоматизоване оцінювання), так і під час подальшого оцінювання працівниками Amazon Mechanical Turk. У поєднанні з точністю класифікації автори використовували це як основний показник для власної метрики під назвою Оцінка відповідності атрибутів.

Людська оцінка зображень, створених різними методами, причому метод Uniform+ виявився найпереконливішим і згодом став основою для нового набору даних.

Людська оцінка зображень, створених різними методами, причому метод Uniform+ виявився найпереконливішим і згодом став основою для нового набору даних.

У документі не зазначено, чи буде Stock-Occupation-HQ, повний набір даних, отриманий від Uniform+, опублікований, але зазначено, що він містить 8,113 зображень HQ (1024 × 1024).

радіомовлення

У новій статті прямо не розглядається спосіб введення в обіг синтезованих, «перебалансованих» зображень. Ймовірно, заповнення нових (безкоштовних) наборів даних комп'ютерного зору скоригованими зображеннями такого типу, як створені авторами, вирішило б проблему упередженості, але також могло б створити перешкоди для інших видів досліджень, спрямованих на оцінку гендерної та расової інклюзії в «реальних» сценаріях, за обставин, коли синтетичні зображення змішуються з реальними зображеннями.

Синтетичні бази даних, подібні створеній дослідниками, можна було б, імовірно, безкоштовно надати у вигляді стокових зображень із досить високою роздільною здатністю, використовуючи цей стимул для економії коштів як механізм поширення.

У проекті не розглядаються вікові упередження, що, імовірно, є потенційною темою для майбутніх досліджень.

 

* Пошук за захопленими даними проведено 5 січня 2022 року, пошук авторів, згаданий у статті, проведено у січні 2021 року.

 

Вперше опубліковано 5 січня 2022 р.

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai