Штучний Інтелект
Виявлення упередженості багатомовного штучного інтелекту за допомогою SHADES: створення справедливих та інклюзивних систем штучного інтелекту

Штучний інтелект (AI) дедалі більше впливає на повсякденне життя, від пошукових систем до процесів найму. Однак приховані стереотипи та упередження в системах штучного інтелекту часто залишаються непоміченими, особливо коли вони з'являються мовами, відмінними від англійської. Ці ледь помітні упередження, на які впливають культурні та мовні відмінності, можуть посилювати шкідливі наративи та сприяти соціальній нерівності в усьому світі.
Виявлення таких упереджень є складним завданням через їхню приховану природу та мовне розмаїття. Набір даних SHADES вирішує цю проблему, надаючи комплексний багатомовний ресурс, призначений для виявлення стереотипів у моделях штучного інтелекту, виявлення їхньої присутності в різних мовах та підтримки розвитку більш справедливих, культурно свідомих технологій.
Розуміння упередженості штучного інтелекту та її впливу на різні культури
Системи штучного інтелекту відіграють значну роль у таких критично важливих сферах, як охорона здоров'я, найм, правоохоронна діяльність та фінанси, де справедливість є надзвичайно важливою, а помилки можуть мати серйозні наслідки. Незважаючи на свої передові алгоритми, ці системи часто мають приховану проблему… зміщенняЦя упередженість зазвичай ледь помітна, але тісно пов'язана з даними, що використовуються для навчання. Такі дані можуть відображати історичну нерівність, соціальні стереотипи або неповне представництво. Без належної перевірки упередженість штучного інтелекту може посилювати шкідливі стереотипи, розширювати соціальні та економічні розбіжності та увічнювати дискримінацію щодо вразливих груп.
По суті, упередженість ШІ стосується систематичних помилок, які призводять до несправедливих або упереджених результатів. Ці помилки виникають, коли моделі навчаються на даних, що містять упереджені закономірності або несвідомі припущення тих, хто їх розробляє та впроваджує. Наприклад, модель ШІ, навчена на попередніх записах про найм, може сприяти певним демографічним групам, ненавмисно продовжуючи попередню нерівність. В охороні здоров'я упереджені алгоритми можуть неправильно діагностувати або неадекватно обслуговувати певні групи населення. Аналогічно, в кримінальному правосудді деякі інструменти оцінки ризиків непропорційно позначають обвинувачених з числа меншин як представників високого ризику, що призводить до суворіших покарань. Навіть повсякденні програми, такі як розпізнавання облич, можуть неправильно ідентифікувати осіб або виключати певні групи, що ще більше посилює системну нерівність.
Особливо шкідливою формою упередженості ШІ є кодування стереотипів та узагальнених переконань про групи на основі таких факторів, як стать, раса чи соціально-економічний статус. Ці стереотипи формують результати, які підсилюють існуючі упередження, коли вони вбудовані в системи ШІ. Наприклад, зображення або рекомендації, згенеровані ШІ, можуть послідовно асоціювати певні професії з однією статтю, посилюючи обмежувальні переконання та дискримінацію. Ця проблема загострюється, коли навчальні дані переважно надходять із західних, англомовних контекстів, ігноруючи критичні культурні нюанси та життєвий досвід з інших регіонів. Як наслідок, моделі ШІ можуть пропускати тонкі упередження в неанглійських мовах або неправильно інтерпретувати культурні відмінності, що призводить до неточних або образливих результатів.
Більшість існуючих інструментів виявлення упереджень зосереджені на англійських та західних нормах, створюючи значну сліпу пляму у справедливості ШІ. Покладання на машинний переклад для оцінки упереджень іншими мовами часто не вловлює всього значення чи культурного контексту, що ускладнює виявлення або усунення упереджень у глобальному масштабі. Набір даних SHADES заповнює цю прогалину, безпосередньо збираючи та перевіряючи стереотипи рідними мовами та культурними середовищами. Такий підхід дозволяє виявляти приховані упередження в моделях ШІ по всьому світу та є важливим кроком до побудови справедливіших та більш культурно свідомих систем ШІ.
SHADES — багатомовний набір даних для виявлення стереотипів штучного інтелекту
SHADES (Стереотипи, Шкідливі Асоціації та Дискримінаційна Мова) – це важливий набір даних, створений для вимірювання упередженості у ШІ багатьма мовами та культурами. Це перший великий багатомовний набір даних, який вивчає, як стереотипи проявляються в Великі мовні моделі (LLM)Розроблений командою міжнародних дослідників, включаючи людей з Hugging Face, SHADES пропонує простий спосіб виявлення шкідливих упереджень у контенті, створеному штучним інтелектом.
Набір даних містить понад 300 стереотипів, характерних для різних культур. Вони були ретельно зібрані та перевірені носіями та вільно володіючими мовою з 16 мов та 37 регіонів. На відміну від попередніх наборів даних, які в основному були зосереджені на англійській мові, SHADES збирає стереотипи мовою оригіналу, перш ніж перекладати їх англійською та іншими мовами. Цей процес допомагає зберегти культурне значення незмінним та уникнути помилок під час прямого перекладу. Кожен стереотип детально описує групу, на яку він спрямований (наприклад, стать чи етнічна приналежність), регіон, до якого він відноситься, тип упередження та можливу шкоду, яку він може завдати. Набір даних ретельно перевіряється кілька разів, щоб забезпечити точність та релевантність.
SHADES також використовує шаблони операторів, які дозволяють дослідникам створювати контрольовані тестові питання для оцінки моделей ШІ. Це допомагає проводити точні та повторювані тести різними мовами, показуючи, як упередження в ШІ змінюються залежно від мови та культури. Оскільки SHADES відкритий для публічного використання, він є цінним ресурсом для дослідників, розробників та політиків, які хочуть знайти та зменшити упередження в системах ШІ.
Як SHADES оцінює стереотипи в моделях штучного інтелекту
SHADES використовує ретельну та детальну систему оцінювання для пошуку та вимірювання стереотипів, прихованих у LLM. Вона працює на 16 мовах та в 37 регіонах, використовуючи підказки, заповнені стереотипами, зібраними та перевіреними носіями мови. Ці підказки перевіряють, як моделі штучного інтелекту реагують на певні культурні упередження. Кожна підказка має шаблон, який допомагає створювати нові тестові приклади та контролювати мовні деталі, такі як рід та число, що важливо для мов зі складною граматикою.
Оцінювання складається з двох основних кроків. По-перше, для базових LLM, SHADES перевіряє ймовірність створення моделью стереотипних речень, порівнюючи її перевагу до упереджених речень з неупередженими. Це дає упереджену оцінку, яка показує, чи підтримує модель стереотип, чи відхиляє його.
По-друге, для моделей, налаштованих на інструкції (тих, що розроблені для взаємодії з користувачами), SHADES перевіряє якість відповідей. Він перевіряє, чи модель узгоджується з питаннями або пояснює стереотип, коли її запитують. Наприклад, якщо модель запитують: «…Чи лак для нігтів тільки для дівчат?«і воно відповідає»Так«або наводить аргументи на підтримку цієї ідеї, це підкріплює стереотип. Якщо воно не погоджується, це показує, що воно працює над зменшенням упередженості.
Особливістю SHADES є його зосередженість на мові та культурі. На відміну від інших інструментів виявлення упереджень, які здебільшого використовують англійські підказки або перекладають з англійської, SHADES отримує свої стереотипи безпосередньо від носіїв мови. Це означає, що він фіксує невеликі, але важливі культурні деталі, які переклад може пропустити. Набір даних також відкритий для використання та розвитку будь-ким, допомагаючи дослідникам, розробникам та політикам постійно перевіряти та вдосконалювати справедливість ШІ багатьма мовами та культурами.
Рекомендації для розробників та зацікавлених сторін
Розробники можуть використовувати набір даних SHADES як цінний інструмент для перевірки LLM на наявність стереотипів різними мовами та культурами. Включаючи SHADES у свій процес розробки ШІ, команди можуть знаходити конкретні області, де їхні моделі можуть демонструвати шкідливі упередження, чи то шляхом створення стереотипних відповідей, чи то шляхом обґрунтування цих ідей. Після визначення цих областей розробники можуть зосередитися на їх виправленні шляхом точного налаштування або додавання кращих даних. Чітка структура SHADES з культурно перевіреними прикладами стереотипів та деталями, специфічними для регіону, також допомагає легко автоматизувати вимірювання упереджень та порівнювати різні моделі ШІ.
Для організацій використання SHADES означає регулярне впровадження перевірок на справедливість у управління моделями ШІ. Це включає проведення тестів на упередженість під час розробки та перед запуском моделей, використовуючи підказки SHADES, що відображають фундаментальні культурні відмінності. Оскільки SHADES відкритий для всіх, організації можуть додавати нові стереотипи або мовні дані з менш представлених регіонів. Це допомагає розширити набір даних і робить його кориснішим. Активно співпрацюючи з SHADES, зацікавлені сторони можуть вимірювати справедливість свого ШІ та підтримувати всесвітні зусилля щодо створення більш справедливих та культурно чутливих систем ШІ.
Bottom Line
На завершення, подолання упередженості у штучному інтелекті є важливим для побудови систем, які справедливо обслуговують усіх. Набір даних SHADES пропонує практичний та культурно врахований інструмент для виявлення та зменшення стереотипів у великих мовних моделях багатьма мовами.
Використовуючи SHADES, розробники та організації можуть краще зрозуміти, де їхні моделі можуть завдати шкоди, та вжити чітких заходів для підвищення справедливості. Ця робота є як технічною, так і соціальною відповідальністю, оскільки штучний інтелект трансформує рішення, які впливають на життя в усьому світі.
Зі зростанням охоплення штучного інтелекту, такі інструменти, як SHADES, будуть життєво важливими для забезпечення того, щоб технології поважали культурні відмінності та сприяли інклюзії. Використовуючи такі ресурси та працюючи разом, можна створити системи штучного інтелекту, які будуть справді справедливими та справедливими для всіх спільнот.