Інтерв’ю

Доктор Джудіт Бішоп, старший директор спеціалістів з штучного інтелекту в Appen – Серія інтерв’ю

Published May 20, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Доктор Джудіт Бішоп є старшим директором спеціалістів з штучного інтелекту для регіону APAC/US в Appen. Вона очолює і розширює команду висококваліфікованих і досвідчених лінгвістів, комп’ютерних лінгвістів і експертів у всіх режимах людської комунікації (мовлення, письмо і жест), щоб доставити навчальні дані штучного інтелекту з неперевершеною комбінацією якості і швидкості.

Що спочатку привернуло вас до лінгвістики?

Я вперше дізналася про лінгвістику від улюбленого вчителя англійської мови в школі. Я була однією з тих дітей, які однаково приваблюються іноземними мовами та гуманітарними науками, і математикою та природничими науками. Лінгвістика – це наука про те, як працює мова, тому вона об’єднала мої інтереси. Як і багато людей, як тільки я дізналася про це, я була абсолютно захоплена. Що може бути більш цікавим, ніж те, як ми спілкуємося своїми думками і почуттями один з одним? Лінгвістика досліджує мовні структури, які, попри всі відмінності в звуках і системах письма, часто схожі під поверхнею, оскільки всі вони є продуктом, в кінцевому підсумку, нашого спільного людського існування.

Чи можете ви поділитися історією про те, як ви опинилися працювати в галузі штучного інтелекту?

Я працюю в Appen з 2004 року, підтримуючи розвиток мовних технологій та послуг. За цей час штучний інтелект виник як комплексна основа, місія і бачення технологій для模імікрії та розширення людських можливостей комунікації, розуміння та сприйняття. У 2019 році моя команда ребрендилася як спеціалісти з штучного інтелекту, визнаючи, що наші лінгвістичні та мовні знання мають критичне значення для підприємства штучного інтелекту. Наші анотовані дані забезпечують необхідну підтримку для успіху взаємодії людини з продуктами та послугами штучного інтелекту.

Ви працюєте в галузі штучного інтелекту понад 16 років, які з найбільших змін ви бачили?

Основною зміною стало розширення фокусу з розвитку основних технологій до довгого хвоста випадків використання та застосунків. На більшій частині моєї кар’єри основним напрямком мовного штучного інтелекту було розроблення та удосконалення основної серії моделей, які імітують людське сприйняття та вироблення мови, а саме: розпізнавання мовлення, синтез мовлення та обробку природної мови. Дані зазвичай відповідали загальним стандартам маркування та збору даних, таким як ті, які були розроблені консорціумом Speecon (Інтерфейси, керовані мовою, для споживчих пристроїв). Ці стандарти дозволили розробникам основних технологій оцінити свою продуктивність на загальних структурах даних і підтримали швидку еволюцію штучного інтелекту.

Розширення випадків використання штучного інтелекту в останні роки, однак, привело до визнання того, що основні, загальні моделі штучного інтелекту, побудовані з цими даними, не працюють належним чином на більш спеціалізованих типах даних без подальшого налаштування. Крім того, оскільки ці моделі були розроблені на даних, які були навмисно чистими та “стандартними”, їм тепер потрібно тренування або оновлення, щоб зрозуміти та відреагувати на всі різноманітності людських входів: всі діалекти, всі акценти, всі етнічні групи, всі статі та всі інші виміри людської різноманітності.

Чи можете ви обговорити важливість необмежених даних у машинному навчанні?

Моделі машинного навчання, незалежно від того, чи це моделі з наглядом, без нагляду чи з підкріпленням, відображатимуть упередження, присутні в даних, на яких вони тренуються. Alyssa Simpson Rochwerger і Wilson Pang надають кілька чудових прикладів цієї проблеми у своїй недавній книзі Real World AI. Якщо для певного сегмента населення недостатньо навчальних даних, модель штучного інтелекту буде menos точною для цього сегмента.

У іншому загальному випадку представництво населення може бути достатнім, але якщо навчальні дані містять кореляції між точками даних, які відображають фактичні, але нежелані, умови у світі (наприклад, нижчу ставку повної зайнятості жінок або вищу ставку ув’язнення афроамериканців), результатом можуть бути програми штучного інтелекту, які посилюють і підтримують ці умови.

Асоціації, присутні в мові в цілому, можуть створювати упередження в додатках обробки природної мови, які залежать від статистичних відносин, відомих як вкладення слів. Якщо “вона” і “медсестра” більш часто асоціюються в обраних навчальних даних, ніж “вони” або “він” і “медсестра”, то результатом буде застосування, яке використовуватиме “вона”, коли буде змушене обирати одINU числі для медсестри. Щоб вирішити цю конкретну проблему, дослідники недавно розробили гендерно-нейтральну варіант часто використовуваної алгоритму вкладення слів, GN-GloVe.

У чутливих додатках проблеми упередженості, такі як ці, можуть мати руйнівний вплив на користувачів і можуть знецінити бізнес-інвестиції. Добра новина полягає в тому, що, крім розроблення нових, більш прозорих і інклюзивних наборів даних, зростаюча кількість додатків науки про дані розробляється для перевірки наявності упередженості в існуючих навчальних наборах даних і додатках штучного інтелекту.

Appen недавно запустив нові різноманітні навчальні набори даних для ініціатив з обробки природної мови (NLP). Чи можете ви поділитися деякими деталями про те, як ці набори даних дозволять кінцевим користувачам отримувати однаковий досвід незалежно від мовної різноманітності, діалекту, етнолекти, акценту, раси чи статі?

Через причини, згадані вище, потрібні набори даних для виправлення існуючих упереджень у виробничих системах штучного інтелекту, а також більш інклюзивні набори даних для тренування майбутніх систем. Набори даних Appen, про які ви згадуєте, підтримуватимуть виправлення упереджень, пов’язаних з етнічною приналежністю та асоційованими з нею етноλεκтами, такими як афроамериканський варіант англійської мови. Вони забезпечать додаткові навчальні дані для підвищення представництва цього населення в моделях мови штучного інтелекту.

Етнічна приналежність стає критичним демографічним виміром для явного маркування в даних штучного інтелекту. Лінгвісти називають мовні різновиди, асоційовані з певними етнічними групами, “етноλεκтами”. Доставці даних штучного інтелекту, такі як Appen, тепер визнають, що якщо ключові різноманітні та меншини не будуть явно представлені в навчальних наборах даних штучного інтелекту, ми не можемо гарантувати, що результатні системи працюватимуть однаково добре для цих населення.

Однакові результати означають, що система розпізнає з однаковою точністю слова та наміри користувача (їхні значення або дії, які вони хочуть виконати) і в деяких випадках настрій; і що вона реагує способами, які однаково задовольняють потреби користувача, і не створюють більш негативного впливу на певне населення користувачів, як практично, так і психологічно.

Тривалий підхід до збору даних полягав у тому, щоб зосередитися на географічно та діалектально репрезентативному вибірці в базах даних – припускаючи, що це забезпечить те, що технологія буде узагальнюватися для всього населення мовців. Однак відносно гірша продуктивність мовних технологій, недавно задокументована для афроамериканського варіанту англійської мови, показала, що це не так. Населення, яке різноманітне за етнічною приналежністю, расою, статтю та акцентом, серед інших вимірів, потрібно активно включати до навчальних наборів даних, щоб забезпечити, що їхні голоси будуть чуті та зрозумілі продуктами та послугами штучного інтелекту. Різноманітні навчальні набори даних Appen для штучного інтелекту відповідають на цю потребу.

Поза штучним інтелектом ви також поет з кількома вашими віршами, які виграли різні галузеві нагороди. Які ваші погляди на майбутнє штучного інтелекту, який буде демонструвати такий тип творчості, включаючи написання віршів?

Це цікаве питання. Поезія та інші форми людської творчості використовують усі наші людські ресурси пам’яті, сприйняття, чутливості та емоцій, а також структури та нюанси мови та зображення, щоб створити прозріння, які резонують з сучасними проблемами. Емілі Дікінсон написала: “Якщо я прочитав книгу і вона зробила моє все тіло так холодно, що жоден вогонь не може мене зігріти, я знаю, що це поезія. Якщо я відчуваю фізично, ніби верхівка моєї голови знята, я знаю, що це поезія”. Там повинна бути частина перцептивного, сенсорного або емоційного визнання, але також справжнє здивування.

Розширені моделі штучного інтелекту, такі як GPT-3, статистично моделюють ймовірність появи слів разом у різних жанрах, включаючи поезію. Це означає, що вони можуть створювати щось, що ми розпізнаємо як “поетичну” мову, таку як використання підвищеної дикції, рими та несподіваних або сюрреалістичних комбінацій слів. Але ці генеративні мовні моделі не мають більшості ресурсів, згаданих вище, які потрібні для створення твору мистецтва, яке просвітлює, що означає бути людиною в сучасний час.

Що я знаходжу переконливим у штучному інтелекті в творчому контексті, це його потенціал створити абсолютно нові прозріння – прозріння, які відрізняються за своїм характером і виходять за межі можливостей будь-якого окремого людського розуму, навіть найбільш поліглотного чи глибоко прочитаного та досвідченого людського розуму. Як тільки штучний інтелект буде мати постійний доступ до сенсорних та перцептивних даних для аналізу в широкому діапазоні людських доменів (візуального, тактильного, аудіо, фізіологічного, емоційного), немає жодного уявлення про те, що ми дізнаємося про себе та світ. Аналітичні можливості штучного інтелекту можуть створити плідну нову основу для творчої людської експлуатації.

У вас була феноменальна кар’єра до цього моменту, на вашу думку, що утримує більше жінок від приєднання до STEM та конкретно штучного інтелекту?

Відсутність моделей для наслідування може бути потужним фактором (і порочним колом). Існує справжня трудність – культурна, соціальна та практична – у вході в галузі, де жінки та люди інших різноманітних статей ще не мають глибоко усталеної присутності, і де повага до того, що ми можемо đóngрати, часто бракує. Мій власний досвід лідера показав мені знову і знову, як стійкі, творчі та успішні команди можуть бути, коли вони інклюзивні щодо різноманітних досвідів та орієнтацій. Лідери повинні бути сміливими у своїй роботі та сміливими у своїй впевненості, що вони можуть впоратися з викликами до свого способу мислення, які різноманітні перспективи приносять, знаючи, що ця сміливість також була показана як сильно корельована з фінансовим та корпоративним успіхом.

Чи є щось інше, що ви хотіли б поділитися про Appen чи штучний інтелект загалом?

Постачальники даних, такі як Appen, мають потужний потенціал впливати на результати штучного інтелекту на краще, забезпечуючи інклюзивні навчальні дані.

Однак досягнення мети інклюзивного штучного інтелекту буде вимагати участі всіх. Покупці даних також повинні визнати свою відповідальність за явне запитування – і оплату – інклюзивних даних, які забезпечать оптимальну продуктивність їхніх систем для всіх користувачів у реальному світі. І ті, хто з різноманітних спільнот постачає свої дані для розробки штучного інтелекту, повинні мати можливість довіряти використанню цих даних. Будування цього довіри буде вимагати сильної прозорості та етичної практики з боку всіх, хто обробляє чутливі дані.

Дякую за велике інтерв’ю, мені було цікаво дізнатися більше про ваші погляди на штучний інтелект і лінгвістику. Читачам, які бажають дізнатися більше, слід відвідати Appen.

Antoine Tardif, CEO & Founder of Unite.AI

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.

Unite.AI

Доктор Джудіт Бішоп, старший директор спеціалістів з штучного інтелекту в Appen – Серія інтерв’ю

You may like