Connect with us

Вілсон Панг, співавтор книги “Дійсний світ штучного інтелекту” – Серія інтерв’ю

Інтерв’ю

Вілсон Панг, співавтор книги “Дійсний світ штучного інтелекту” – Серія інтерв’ю

mm

Вілсон Панг приєднався до Appen у листопаді 2018 року як технічний директор і відповідає за продукти та технології компанії. Вілсон має понад дев’ятнадцять років досвіду в галузі програмної інженерії та науки про дані. До того, як приєднатися до Appen, Вілсон був головним офіцером з даних компанії Ctrip в Китаї, другої за величиною компанії з онлайн-туризму у світі, де він керував інженерами з даних, аналітиками, менеджерами даних та вченими, щоб покращити досвід користувачів і підвищити операційну ефективність, що сприяло зростанню бізнесу. Перед тим він був старшим директором з інженерії в eBay у Каліфорнії і забезпечував лідерство в різних галузях, включаючи дані та рішення, наукові дослідження, технології маркетингу та системи оплати. Він працював архітектором в IBM до того, як перейшов в eBay, створюючи технологічні рішення для різних клієнтів. Вілсон здобув магістрський і бакалаврський ступені з електротехніки в університеті Чжецзян у Китаї.

Ми обговорюємо його нову книгу: Дійсний світ штучного інтелекту: Практичний посібник для відповідального машинного навчання

Ви описуєте, як коли ви керували командами наукових досліджень eBay, однією з ваших перших уроків зі штучним інтелектом було розуміння важливості знання того, які метрики вимірювати. Прикладом було те, як метрика “покупки за сесію” не враховувала грошової вартості предмета. Як компанії можуть найкраще зрозуміти, які метрики потрібно вимірювати, щоб уникнути подібних проблем?

Почніть з цілей, яких ваша команда приписує моделі штучного інтелекту – у нашому випадку ми хотіли збільшити доходи за допомогою машинного навчання. Коли ви прикріплюєте метрики до цілей, подумайте про те, які механіки ці метрики вироблять, коли ви випускаєте модель і люди починають взаємодіяти з нею, але також зверніть увагу на свої припущення. У нашому випадку ми припускали, що модель буде оптимізована для доходу, але кількість покупок за сесію не переводилася на це, оскільки модель була оптимізована для великої кількості низьковартісних продажів, і в кінцевому підсумку ми не заробляли більше грошей. Коли ми зрозуміли це, ми змогли змінити метрики і направити модель у правильному напрямку. Тому визначення детальних метрик, а також звернення уваги на припущення є критично важливими для успіху проекту.

Що ви особисто дізналися з дослідження та написання цієї книги?

У нас є багато різних проблем, які можна вирішити за допомогою штучного інтелекту з різних компаній і галузей. Варіанти використання можуть бути дуже різними, рішення штучного інтелекту можуть бути різними, дані для навчання цього рішення штучного інтелекту можуть бути різними. Однак, незважаючи на всі ці відмінності, помилки, які люди робили під час свого шляху штучного інтелекту, досить схожі. Ці помилки траплялися знову і знову в усіх видах компаній з усіх галузей.

Ми поділилися деякими загальними найкращими практиками при реалізації проектів штучного інтелекту з надією допомогти більшій кількості людей і компаній уникнути цих помилок і набути впевненості у розгортанні відповідального штучного інтелекту.

Які з найбільш важливих уроків ви сподіваєтеся, що люди візьмуть з прочитання цієї книги?

Ми переконані, що ретельне, відповідальне і етичне використання технологій машинного навчання може зробити світ більш справедливим, чесним і інклюзивним. Технологія машинного навчання обіцяє змінити все у світі бізнесу, але це не повинно бути складним. Є перевірені методи і процеси, яких можуть слідувати команди і здобути впевненість у розгортанні у виробництві.

Іншим ключовим уроком є те, що власники лінії бізнесу (як менеджери продукту) і члени команди з більш технічної сторони (як інженери і вчені-дані) повинні говорити однією мовою. Для успішного розгортання штучного інтелекту лідери повинні звузити розрив між командами, забезпечуючи фахівцям бізнесу і керівникам достатній контекст для ефективного спілкування з технічними виконавцями.

Багато людей спочатку думають про код, коли думають про штучний інтелект. Одним з ключових уроків у книзі є те, що дані є критично важливими для успіху моделі штучного інтелекту. Є багато того, що пов’язано з даними, від збору до маркування, зберігання та кожного кроку, який вплине на успіх моделі. Найбільш успішні розгортання штучного інтелекту – це ті, які надають велике значення даним і прагнуть безперервно покращувати цей аспект своєї моделі машинного навчання.

Усі реальні завдання штучного інтелекту вимагають跨функціональної команди і інноваційного духу.

Обговорюється визначення того, коли точність моделі штучного інтелекту достатньо висока, щоб підтримувати використання штучного інтелекту. Що є найлегшим способом оцінити тип точності, який потрібен?

Це залежить від ваших випадків використання і толерантності до ризику. Команди, які розробляють штучний інтелект, повинні завжди мати фазу тестування, під час якої вони визначають рівні точності і прийнятні пороги для своїх організацій і зацікавлених сторін. Для випадків використання “життя чи смерті” – де є потенційний шкода, якщо штучний інтелект помиляється, як у випадку програмного забезпечення для винесення вироків, самохідних автомобілів, медичних випадків використання, планка дуже висока – і команди повинні встановити заходи на випадок, якщо моделі будуть неправильними. Для більш терпимих випадків використання – де є багато суб’єктивності – як вміст, пошук або актуальність реклами, команди можуть покладатися на відгуки користувачів, щоб продовжувати коригувати свої моделі навіть під час виробництва. Звичайно, є деякі високоризиковані випадки використання тут, де незаконний або аморальний матеріал може бути показаний користувачам, тому заходи безпеки і механізми відгуків повинні бути встановлені тут теж.

Чи можете ви визначити важливість визначення успіху проекту заздалегідь?

Це так само важливо, як і початок з бізнес-проблеми, так і визначення успіху заздалегідь, оскільки ці два аспекти тісно пов’язані. За прикладом з книги про автомобільного дилера, який використовував штучний інтелект для маркування зображень, вони не визначили, що таке успіх, оскільки вони не визначили бізнес-проблему, яку потрібно вирішити. Успіх для них міг бути чимось зовсім іншим, що робить його складним для вирішення проблеми, навіть для команд людей, не кажучи вже про модель машинного навчання з фіксованим обсягом. Якщо б вони встановили мету маркувати всі транспортні засоби з вдавленнями, щоб створити список транспортних засобів, які потребують ремонту, і визначили успіх як точне маркування 80% всіх транспортних засобів з вдавленнями на складі вживаних автомобілів, то коли б вони точно промаркували 85%, команда б назвала це успіхом. Але якщо цей успіх не пов’язаний з бізнес-проблемою і безпосереднім впливом на бізнес, то складно оцінити проект поза фокусованою визначенням точності маркування в цьому прикладі. Тут бізнес-проблема була більш складною, і маркування вдавлень було лише складовою частиною її. У їхньому випадку вони могли б бути краще, якщо б визначили успіх як економію часу/грошей на процесі подачі претензій або оптимізацію процесу ремонту на X% і потім переклали вплив маркування на реальні бізнес-результати.

Як важливо забезпечити, щоб приклади навчальних даних покривали всі випадки використання, які трапляються під час розгортання у виробництві?

Це дуже важливо, щоб модель була навчена на всіх випадках використання, щоб уникнути упередженості. Але також важливо звернути увагу на те, що, хоча неможливо покрити абсолютно всі випадки використання у виробництві, команди, які будують штучний інтелект, повинні зрозуміти свої дані виробництва, а також свої навчальні дані, щоб навчити штучний інтелект на те, з чим він зустрінеся у виробництві. Доступ до навчальних даних, які походять з великих різноманітних груп з різними випадками використання, буде критично важливим для успіху моделі. Наприклад, модель, яка навчається розпізнавати домашніх тварин на завантаженому зображенні, повинна бути навчена на всіх видах домашніх тварин; собак, котів, птахів, дрібних ссавців, ящірок тощо. Якщо модель навчається лише на собаках, котах і птахах, то коли хтось завантажує зображення зі своїм морською свинкою, модель не зможе її ідентифікувати. Хоча це дуже простий приклад, він показує, наскільки важливо навчити модель на якомога більше ймовірних випадків використання.

У книзі обговорюється необхідність розвитку добрих звичок гігієни даних зверху донизу, які є першими кроками для культивування цієї звички?

Добрі звички гігієни даних збільшать придатність внутрішніх даних і підготують їх для випадків використання машинного навчання. Уся компанія повинна стати хорошою в організації і відстежуванні своїх наборів даних. Одним з способів досягнення цього є зробивши це бізнес-вимогою і відстеженням реалізації, так що залишається дуже мало звітів, які стають індивідуальними завданнями, і команди працюють все більше і більше з даними, каналізованими в центральний репозиторій, з чіткою онтологією. Іншою хорошою практикою є зберігання запису про те, коли і де дані були зібрані і що з ними сталося до того, як вони були розміщені в базі даних, а також встановлення процесів для очищення неіснуючих або застарілих даних періодично.

Дякуємо за велике інтерв’ю, для читачів, які цікавляться дізнатися більше, ми рекомендуємо їм прочитати книгу Дійсний світ штучного інтелекту: Практичний посібник для відповідального машинного навчання.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.