Connect with us

Ми більше не вирівнюємо ІІ. Ми вирівнюємо цивілізації

Штучний інтелект

Ми більше не вирівнюємо ІІ. Ми вирівнюємо цивілізації

mm

Багато років основним питанням у сфері штучного інтелекту (ІІ) було те, як вирівняти моделі ІІ з людськими цінностями. Дослідники намагалися визначити правила безпеки, етичні принципи та механізми контролю, які керують рішеннями ІІ. Ця робота досягла значного прогресу. Але тепер, коли ці системи ІІ стають все більш потужними та поширеними, фокус вирівнювання починає зсуватися. Що розпочалося як виклик вирівнювання однієї моделі з однією сукупністю інструкцій, тепер стало набагато більшим викликом вирівнювання цілих цивілізацій, які використовують ці системи на глобальному рівні. ІІ вже не просто інструмент. Він еволюціонує в середовище, де суспільства працюють, спілкуються, ведуть переговори та конкурують. Як наслідок, вирівнювання вже не залишається технічною проблемою. Воно стало цивілізаційною проблемою. У цій статті я поясню, чому вирівнювання вже не тільки про моделі, і чому нам потрібно почати думати в термінах цивілізацій, а не машин. Я також обговорюю, як цей зсув впливає на наші відповідальності та що це означає для глобальної співпраці.

Чії цінності ІІ справді представляє?

Якщо ви запитаєте ІІ про чутливу історичну подію, його відповідь залежить від даних, які він вивчив. Якщо ці дані походять переважно з західного інтернету, відповідь матиме західний упередження. Вона буде пріоритезувати індивідуалізм, відкриту мову та демократичні ідеали. Це хороші цінності для багатьох людей. Але вони не єдині цінності у світі.

Користувач у Сінгапурі, користувач у Ер-Ріяді та користувач у Сан-Франциско мають різні визначення того, що є “корисним” і що є “шкідливим”. У деяких культурах соціальна гармонія важливіша за абсолютну свободу слова. У інших, повага до ієрархії важливіша за порушення.

Коли компанія з Кремнієвої долини використовує “Reinforcement Learning from Human Feedback” (RLHF), вони наймають людей, щоб оцінити відповіді ІІ. Але хто ці люди? Які їхні переконання? Якщо вони вирівнюють модель з американськими стандартами, вони випадково будують американський культурний експорт. Вони будують цифрового дипломата, який застосовує правила однієї конкретної цивілізації до решти світу.

Поява петель зворотного зв’язку

Виклик полягає не тільки в тому, що ІІ відображає переконання однієї культури. Це те, як ці переконання можуть змінити нас. Сучасні системи ІІ мають потенціал формувати поведінку окремих осіб, організацій та навіть націй. Вони можуть впливати на те, як ми думаємо, працюємо, довіряємо та конкуруємо. Це створює петлі зворотного зв’язку між системами ІІ та людськими суспільствами; ми тренуємо ІІ, а ІІ формує, як ми думаємо та діємо. Ці петлі стають сильнішими, оскільки ІІ стає все більш поширеним. Щоб побачити, як працює ця петля зворотного зв’язку, ось два приклади:

  • Широке розгортання ІІ змінює соціальну поведінку, а соціальна поведінка змінює дані, які тренують нові системи. Наприклад, алгоритм рекомендацій може формувати те, що люди дивляться, читають та вірять. Інструменти продуктивності змінюють, як команди співпрацюють та як студенти вчаться. Ці зрушення в поведінці змінюють дані у вигляді різних звичок перегляду, патернів спілкування на робочому місці або стилів письма. Коли ці дані потрапляють у майбутні навчальні набори даних, моделі调整 свої припущення та виводи відповідно. Поведінка людини формує моделі, а моделі, в свою чергу, формують поведінку людини.
  • Автоматизовані інструменти прийняття рішень впливають на державну політику, а державна політика впливає на майбутнє тренування моделей. Наприклад, багато урядів зараз використовують ІІ, щоб запропонувати, де виділити ресурси, такі як визначення тих районів, які потребують більшої підтримки охорони здоров’я чи тих районів, які можуть бачити вищий ризик злочинності. Коли політики діють на основі цих рекомендацій, результати цих рішень пізніше стають частиною нових наборів даних. З часом політичні рішення, сформовані ІІ, стають частиною наступного покоління моделей ІІ.

Як тільки ви визнаєте цю петлю зворотного зв’язку, стає ясно, що ІІ поступово формує та вирівнює цивілізації. Як наслідок, нації починають запитувати: Як вони можуть захистити свої цінності, інтегруючи ІІ у свої суспільства та інститути?

Поява суверенного ІІ

Цей виклик вирівнювання спровокував значну реакцію урядів усього світу. Нації зрозуміли, що залежність від імпортованого ІІ є ризиком для їх суверенітету. Вони не можуть дозволити собі мати своїх громадян, яких освітує, інформує та радить чорна скринька, яка думає як іноземець.

Ця реалізація привела до появи “суверенного ІІ“. Франція інвестує великі кошти, щоб побудувати моделі, які говорять французькою та розуміють французьке право та культуру. Індія будує корінні моделі ІІ, щоб забезпечити свої культурні цінності. Об’єднані Арабські Емірати та Китай будують моделі ІІ, вирівняні з їхніми національними баченнями.

Це нова гонка озброєння. Це гонка за контроль над нарративом. Цивілізація, яка не має свого ІІ, врешті-решт втратить свою пам’ять. Якщо ваші діти запитують у машини питання, а машина відповідає логікою іншої культури, ваша культура починає руйнуватися. Ця реалізація, однак, може привести до формування окремих цифрових блоків. Ми можемо закінчити з західним ІІ, китайським ІІ, індійським ІІ та іншим. Ці системи працюватимуть з різними фактами та різними моральними компасами. Ці розробки роблять ясним, що якщо ми хочемо створити одну, справді вирівняну модель ІІ, ми повинні спочатку знайти спосіб вирівняти цивілізації.

Потрібен дипломатичний ІІ

Традиційне вирівнювання припускає, що модель можна вирівняти за допомогою ретельного тренування, підказок та охорони. Це мислення походить з технічної свідомості раннього дослідження безпеки ІІ. Але навіть досконале вирівнювання моделі не може вирішити виклики вирівнювання цивілізацій. Вирівнювання не може залишатися стабільним, коли суспільства тягнуть у протилежні боки. Якщо країни, компанії та спільноти мають конфліктні цілі, вони будуть штовхати системи ІІ, щоб вони відображали ці конфлікти. Ці обмеження показують, що вирівнювання не тільки технічна проблема. Це проблема управління, культури та координації. І ці проблеми вимагають не тільки експертів чи розробників. Вони включають цілі цивілізації.

Як ми рухаємось далі? Якщо ми приймаємо, що універсальне вирівнювання неможливе, ми повинні змінити свою стратегію. Ми повинні зупинитися у пошуках технічного рішення філософської проблеми. Ми повинні почати думати як дипломати. Нам потрібно будувати протоколи для “Цивілізаційного вирівнювання”. Нам потрібно розібратися, як ІІ може поважати переконання та цінності суспільства без застосування до нього переконань інших культур. Інакше кажучи, нам потрібно цифрове Об’єднане Королівство для наших алгоритмів.

Це вимагає прозорості. Наразі ми не знаємо, які цінності ховаються у глибоких шарах нейронної мережі. Ми бачимо тільки вивід. Щоб вирівняти цивілізації, нам потрібно бути ясними щодо “Конституції” кожної моделі. Модель повинна бути здатна оголосити свій упередження. Вона повинна бути здатна сказати: “Я тренуюся на цих даних, з цими правилами безпеки, пріоритезуючи ці цінності”. тільки коли упередження видно, ми можемо довіряти системі. Користувач повинен бути здатний перемикатися між перспективами. Ви повинні бути здатні запитати питання та побачити, як “західна” модель відповідає порівняно з тим, як “східна” модель відповідає. Це перетворить ІІ на інструмент для розуміння, а не на інструмент для індоктринації.

Основне

Ми витратили занадто багато часу, турбуючись про Термінатора. Реальний ризик полягає не в тому, що робот знищить нас. Реальний ризик полягає в тому, що робот робить нас забувати, хто ми є. Вирівнювання не є кодом, який ми можемо написати один раз і забути. Воно є постійним переговором з моделями ІІ, щоб тримати їх вирівняними з нашими переконаннями та цінностями. Воно є політичним актом. Коли ми рухаємось у цю наступну фазу епохи інтелекту, нам потрібно дивитися за межі екрана. Нам потрібно розглядати, як ІІ інтерпретує нашу історію, наші кордони та наші переконання. Ми будуємо розуми, які допоможуть нам керувати світом. Нам потрібно забезпечити, щоб ці розуми поважали різниці між цивілізаціями.

Доктор Техсін Зія є доцентом COMSATS University Islamabad, який має ступінь PhD з штучного інтелекту у Віденському технічному університеті, Австрія. Спеціалізується на штучному інтелекті, машинному навчанні, науці про дані та комп'ютерному баченні, він зробив значний внесок з публікаціями в авторитетних наукових журналах. Доктор Техсін також очолював різні промислові проекти як головний дослідник і служив консультантом з штучного інтелекту.