Інтерв’ю
Нора Петрова, інженер з машинного навчання та консультант з штучного інтелекту в Prolific – Серія інтерв’ю

Нора Петрова – інженер з машинного навчання та консультант з штучного інтелекту в Prolific. Prolific було засновано у 2014 році, і вже налічує серед своїх клієнтів організації, такі як Google, Стенфордський університет, Оксфордський університет, Королівський коледж Лондона та Європейська комісія, які використовують свою мережу учасників для тестування нових продуктів, навчання систем штучного інтелекту в галузі, наприклад, відстеження очей, та визначення того, чи працюють їхні додатки, орієнтовані на людей, так, як їх творці мали на меті.
Чи можете Ви поділитися інформацією про свій досвід роботи в Prolific та свою кар’єру на даний момент? Що Вас цікавить у штучному інтелекті?
Моя роль в Prolific розділена між консультуванням щодо випадків використання штучного інтелекту та можливостей, та більш практичною роботою інженера з машинного навчання. Я розпочала свою кар’єру в галузі програмної інженерії та поступово перейшла до машинного навчання. Останні 5 років я присвятила в основному випадкам використання обробки природної мови.
Те, що спочатку цікавило мене в штучному інтелекті, – це здатність навчатися на даних та зв’язок із тим, як ми, люди, вчимося, та як устроєний наш мозок. Я вважаю, що машинне навчання та нейробіологія можуть доповнювати одна одну та допомогти глибше зрозуміти, як будувати системи штучного інтелекту, які здатні орієнтуватися у світі, проявляти творчість та приносити користь суспільству.
Які з найбільших проблем біасу штучного інтелекту Ви особисто знаєте?
Біас закладений у дані, які ми вводимо в моделі штучного інтелекту, і повністю видалити його дуже складно. Однак важливо, щоб ми були свідомі біасів, присутніх у даних, та знайшли способи пом’якшити шкідливі види біасів, перш ніж довірити моделям важливі завдання в суспільстві. Найбільші проблеми, з якими ми стикаємося, – це моделі, які підтримують шкідливі стереотипи, системні упередження та несправедливості в суспільстві. Ми повинні бути обережними щодо того, як ці моделі штучного інтелекту будуть використовуватися та якого впливу вони матимуть на своїх користувачів, та đảmуритися, що вони безпечні, перш ніж схвалити їх для чутливих випадків використання.
Деякі видатні області, де моделі штучного інтелекту продемонстрували шкідливі біаси, включають дискримінацію малопредставлених груп у шкільних та університетських прийманнях, а також негативний вплив гендерних стереотипів на працевлаштування жінок. Крім того, алгоритм кримінальної справедливості було виявлено, що він помилково позначав афроамериканських обвинувачених як “високий ризик” майже у два рази частіше, ніж помилково позначав білих обвинувачених у США, тоді як технологія розпізнавання облич все ще страждає від високих помилок для меншин через відсутність репрезентативних навчальних даних.
Приклади вище охоплюють лише малий підсекцію біасів, продемонстрованих моделями штучного інтелекту, та ми можемо передбачити більші проблеми, які виникнуть у майбутньому, якщо ми не зосередимося на пом’якшенні біасу зараз. Важливо пам’ятати, що моделі штучного інтелекту вчаться на даних, які містять ці біаси через прийняття рішень людьми, під впливом неперевірених та несвідомих біасів. У багатьох випадках звернення до людського прийняття рішень може не усунути біас. Справжнє пом’якшення біасів буде涉нювати розуміння того, як вони присутні в даних, які ми використовуємо для навчання моделей, ізоляцію чинників, які сприяють упередженим прогнозам, та колективне рішення про те, на чому ми хочемо базувати важливі рішення. Розробка набору стандартів, щоб ми могли оцінювати моделі на безпеку перед їхнім використанням для чутливих випадків використання, буде важливим кроком вперед.
Галюцинації штучного інтелекту – це величезна проблема будь-якого типу генеративного штучного інтелекту. Чи можете Ви обговорити, як навчання з людиною в циклі (HITL) може пом’якшити ці проблеми?
Галюцинації в моделях штучного інтелекту проблематичні в певних випадках використання генеративного штучного інтелекту, але важливо відзначити, що вони не є проблемою самі по собі. У певних творчих випадках використання генеративного штучного інтелекту галюцинації є бажаними та сприяють більш творчому та цікавому відповіді.
Вони можуть бути проблематичними у випадках використання, де залежність від фактичної інформації висока. Наприклад, у сфері охорони здоров’я, де надійне прийняття рішень є ключовим, надання медичним фахівцям надійної фактичної інформації є важливим.
HITL відноситься до систем, які дозволяють людям надавати прямий відгук моделі для прогнозів, які нижче певного рівня впевненості. У контексті галюцинацій HITL можна використовувати для того, щоб допомогти моделям вивчити рівень впевненості, який вони повинні мати для різних випадків використання перед виведенням відповіді. Ці пороги будуть варіюватися залежно від випадку використання, і навчання моделей різниці в суворості, необхідній для відповіді на питання з різних випадків використання, буде важливим кроком у пом’якшенні проблематичних видів галюцинацій. Наприклад, у юридичному випадку люди можуть продемонструвати моделям штучного інтелекту, що фактологічна перевірка є необхідним кроком при відповіді на питання, засновані на складних юридичних документах з багатьма пунктами та умовами.
Як працівники штучного інтелекту, такі як аннотатори даних, допомагають зменшити потенційні проблеми біасу?
Працівники штучного інтелекту можуть спочатку допомогти з ідентифікацією біасів, присутніх у даних. Як тільки біас буде ідентифікований, стає легше розробити стратегії пом’якшення. Аннотатори даних також можуть допомогти з розробкою способів зменшення біасу. Наприклад, для завдань обробки природної мови вони можуть допомогти, надавши альтернативні способи формулювання проблемних уривків тексту таким чином, щоб біас, присутній у мові, був зменшений. Крім того, різноманітність працівників штучного інтелекту може допомогти пом’якшити проблеми з біасом у маркуванні.
Як Ви забезпечуєте, щоб працівники штучного інтелекту не ненавмисно вводили свій власний людський біас у систему штучного інтелекту?
Це, безумовно, складна проблема, яка вимагає ретельного розгляду. Видалення людського біасу майже неможливо, і працівники штучного інтелекту можуть ненавмисно вводити свій власний біас у моделі штучного інтелекту, тому важливо розробити процеси, які направляють працівників до найкращих практик.
Деякі кроки, які можна зробити для мінімалізації людського біасу, включають:
- Комплексне навчання працівників штучного інтелекту щодо несвідомих біасів та надання їм інструментів для ідентифікації та управління своїм власним біасом під час маркування.
- Переліки, які нагадують працівникам штучного інтелекту перевірити свої власні відповіді перед їхнім надсиланням.
- Проведення оцінки, яка перевіряє рівень розуміння, який мають працівники штучного інтелекту, де їм показують приклади відповідей на різні види біасів, та запитують їх обрати найменш упереджену відповідь.
Регулятори по всьому світу мають намір регулювати вихід штучного інтелекту, що, на Вашу думку, регулятори не розуміють, а що вони роблять правильно?
Важливо почати з того, що це дуже складна проблема, якій ніхто ще не знайшов рішення. Суспільство та штучний інтелект будуть еволюціонувати та впливати один на одного способами, які дуже складно передбачити. Частина ефективної стратегії пошуку надійних та корисних регуляторних практик полягає в уважному ставленні до того, що відбувається в галузі штучного інтелекту, як люди реагують на нього, та яких ефектів він має на різні галузі.
Я вважаю, що значною перешкодою для ефективного регулювання штучного інтелекту є відсутність розуміння того, що можуть і не можуть робити моделі штучного інтелекту, та як вони працюють. Це, в свою чергу, робить складніше точно передбачити наслідки цих моделей для різних секторів та верств суспільства. Іншою областю, яка потребує уваги, є лідерство у сфері визначення того, як моделі штучного інтелекту повинні відповідати людським цінностям, та що означає безпека в більш конкретних термінах.
Регулятори шукали співробітництво з експертами у сфері штучного інтелекту, були обережні, щоб не загальмувати інновації надмірно суворими правилами щодо штучного інтелекту, та почали розглядати наслідки штучного інтелекту на зміну зайнятості, які є дуже важливими областями уваги. Важливо крокувати обережно, оскільки наші думки щодо регулювання штучного інтелекту прояснюються з часом, та залучати якомога більше людей, щоб підходити до цієї проблеми демократичним шляхом.
Як рішення Prolific можуть допомогти підприємствам у зменшенні біасу штучного інтелекту та інших проблем, які ми обговорювали?
Збір даних для проектів штучного інтелекту не завжди був ретельним та обдуманим процесом. Ми раніше бачили випадки збору, аутсорсингу та інших методів. Однак те, як ми тренуємо штучний інтелект, є важливим, і наступне покоління моделей повинно бути побудовано на намеренно зібраних, високоякісних даних, від реальних людей та тих, з ким у вас є прямий контакт. Саме тут Prolific робить свій внесок.
Інші області, такі як опитування, ринок дослідження чи наукові дослідження, довідалися цього давно. Аудиторія, з якої ви робите вибірку, має великий вплив на результати, які ви отримуєте. Штучний інтелект починає наздоганяти, і ми зараз перебуваємо на розі шляхів.
Зараз час почати дбати про використання кращих вибірок та працювати з більш репрезентативними групами для тренування та доопрацювання штучного інтелекту. Обидва ці аспекти є критичними для розробки безпечних, необізнаних та відповідних моделей.
Prolific може допомогти надати підприємства інструментами для проведення експериментів зі штучним інтелектом у безпечній спосіб та зібрати дані від учасників, де біас перевіряється та пом’якшується на кожному етапі. Ми можемо допомогти надати рекомендації щодо найкращих практик щодо збору даних, відбору, компенсації та справедливого поводження з учасниками.
Які Ваші погляди на прозорість штучного інтелекту, чи повинні користувачі бачити, на яких даних тренується алгоритм штучного інтелекту?
Я вважаю, що є переваги та недоліки прозорості, і добра рівновага ще не була знайдена. Компанії утримують інформацію щодо даних, які вони використовували для тренування своїх моделей штучного інтелекту, через страх перед судовими позовами. Інші працювали над тим, щоб зробити свої моделі штучного інтелекту публічно доступними, та випустили всю інформацію щодо даних, які вони використовували. Повна прозорість відкриває багато можливостей для використання уразливостей цих моделей. Повна секретність не сприяє довірі та участі суспільства у створенні безпечного штучного інтелекту. Добра середня позиція забезпечила б достатню прозорість, щоб заслужити довіру, що моделі штучного інтелекту були треновані на добрій якості відповідних даних, на які ми дали згоду. Ми повинні уважно стежити за тим, як штучний інтелект впливає на різні галузі, та розпочати діалог з зацікавленими сторонами, щоб розробити практики, які працюють для всіх.
Я вважаю, що також важливо враховувати, що користувачі будуть вважати задовільним щодо пояснюваності. Якщо вони хочуть зрозуміти, чому модель видає певну відповідь, надання їм сирих даних, на яких модель була тренована, наймовірніше, не допоможе у відповіді на їхнє питання. Таким чином, створення добрих інструментів пояснюваності та інтерпретації є важливим.
Дослідження зіставлення штучного інтелекту спрямоване на спрямування систем штучного інтелекту до цілей, переваг чи етичних принципів людини. Чи можете Ви обговорити, як працівників штучного інтелекту тренують та як це використовується для забезпечення того, що штучний інтелект є зіставленим якнайкраще?
Це активна область дослідження, і ще немає консенсусу щодо того, які стратегії ми повинні використовувати для зіставлення моделей штучного інтелекту з людськими цінностями або навіть яких цінностей ми повинні намагатися зіставити їх з.
Працівників штучного інтелекту зазвичай просять аутентично представляти свої переваги та відповідати на питання щодо своїх переваг правдиво, а також дотримуватися принципів щодо безпеки, відсутності біасу, безшкідливості та корисності.
Відносно зіставлення з цілями, етичними принципами чи цінностями, є кілька підходів, які виглядають перспективними. Одним з помітних прикладів є робота Інституту зіставлення значень щодо демократичного доопрацювання. Є відмінний пост, який вводить цю ідею тут.
Дякую за велике інтерв’ю та за те, що Ви поділилися своїми поглядами на біас штучного інтелекту. Читачам, які бажають дізнатися більше, слід відвідати Prolific.












