Інтерв’ю
Честер Леунг, співзасновник і керівник платформи штучного інтелекту в OPAQUE – Серія інтерв’ю

Честер Леунг є співзасновником і керівником архітектури платформи в OPAQUE, стартапі серії А, який будує платформу конфіденційних даних і штучного інтелекту, що дозволяє командам розширити свої корпоративні потоки даних за допомогою конфіденційного шару, забезпечуючи швидші висновки з меншими зусиллями та верифікованою приватністю та контролем.
Раніше Честер був аспірантом кафедри комп’ютерних наук у Університеті Каліфорнії в Берклі, де він опублікував рецензовані статті на топ-конференціях і також служив головним розробником відкритого проекту MC2 для безпечної спільної аналітики та машинного навчання.
Ви заснували OPAQUE після вашого часу в RISELab Університету Каліфорнії в Берклі, де ваша робота поєднувала штучний інтелект і безпечні системи. Яка конкретна прогалина в корпоративній інфраструктурі даних ви бачили, що призвела до створення OPAQUE, і як ваш академічний досвід сформував напрямок компанії?
На той час існувала величезна увага, як в академії, так і в промисловості, до використання машинного навчання для конкретних випадків використання. У лабораторії ми були надзвичайно щасливі мати великих корпоративних спонсорів, які допомогли нам дослідникам сформувати нашу роботу для вирішення більш насущних проблем, з якими вони стикалися в своїх організаціях. Наша група, зокрема, мала унікальну можливість працювати в тісній співпраці з технологічними та банківськими, фінансовими послугами та страхуванням (BFSI) компаніями, співпрацюючи для вирішення складних проблем конфіденційності навколо використання чутливих, але цінних даних для машинного навчання. Як і всі області штучного інтелекту, машинне навчання залежить від великих кількостей високоякісних даних для отримання цінних і надійних висновків.
Ми зустрічали одну й ту ж саму закономірність знову і знову під час співпраці з командами таких компаній, як Amazon, Scotiabank і Ant Group (тоді Ant Financial): їхні проекти, що використовують машинне навчання, зупинялися до досягнення виробництва через проблеми з використанням чутливих, але критичних даних для цих випадків використання. Інакше кажучи, ці команди не могли використовувати штучний інтелект у проектах, які вони знали, що можуть генерувати цінність для компанії, не через технічну проблему зі штучним інтелектом, а через те, що вони не могли отримати доступ до правильних даних.
В OPAQUE ми розв’язуємо одну й ту ж саму проблему. Допомагаємо командам отримати доступ до правильних даних, дозволяючи їм розблокувати або підвищити свої можливості штучного інтелекту. Єдина зміна з наших дослідницьких днів полягає в тому, що проблема стала ще більш нагальною: ми зараз постійно бачимо, що прийняття та інтеграція штучного інтелекту стають корпоративним стратегічним імперативом.
У ландшафті, де підприємства вкладають великі кошти в моделі висновків і агентський штучний інтелект, чому ви вважаєте, що безпечні потоки даних більш важливі, ніж будь-коли раніше?
Безпечні потоки даних є основою, на якій підприємства будують моделі висновків і агентський штучний інтелект. Все, від навчання цих моделей висновків до розгортання агентського штучного інтелекту, включає чутливі дані і залежить від безпечних потоків даних.
Наприклад, ми зараз бачимо зростаючі інвестиції в генерацію високоякісних даних для навчання цих моделей. Деякі звіти навіть передбачали, що інвестиції в генерацію високоякісних даних незабаром перевищать інвестиції в навчання самих моделей. Очевидно, що генерація даних є багатоступінчатим процесом, який працює за допомогою потоків, що виробляють найбільш цінну інтелектуальну власність підприємства: високоякісні доменні дані, які можуть навчати моделей, що генерують величезну цінність вниз по течії. Інвестиції в генерацію цих даних є величезними, і згенеровані дані, враховуючи їх походження, ефективно відрізняють одну компанію від її конкурентів, служачи її ровом. Підприємство повинно зробити все можливе, щоб зберегти ці потоки безпечними.
Платформа конфіденційного обчислення OPAQUE дозволяє проводити аналіз на зашифрованих даних. Які основні технічні проблеми полягають у тому, щоб зробити це масштабованим і зручним для розробників у корпоративних середовищах?
Наша платформа штучного інтелекту не тільки дозволяє проводити аналіз, машинне навчання і генерацію штучного інтелекту на зашифрованих даних, але також забезпечує верифіковані докази того, що ваші дані були використані тільки тим чином, яким ви очікуєте і дозволяєте.
Основні проблеми, пов’язані з масштабованістю, розробкою і управлінням, полягають у тому, щоб зробити оркестрацію робочого навантаження безпечною і верифікованою у масштабі. Особливо багато підприємств сьогодні використовують керовані хмарні послуги, коли їм потрібно масштабувати. Це може бути як економічно вигідно, так і зручно. Однак деяка частина програмного забезпечення, яке живить керовані хмарні послуги, є внутрішньо керованим хмарним провайдером. Тому проблема полягає в тому, як організація може забезпечити безпеку і верифікованість програмного забезпечення, яке не перебуває під її контролем? Якщо організація поверне собі контроль над усім програмним забезпеченням, то що вони повинні пожертвувати, не використовуючи керовану послугу, і що вони втрачають, роблячи це?
Ви сказали, що архітектура, безпечна за проектом, може забезпечити тривалу конкурентну перевагу. Чи можете ви роз’яснити, як цей принцип реалізується на практиці для команд штучного інтелекту підприємств?
Є два погляди на це: продукт і інженерний.
З погляду продукту, кожен розуміє, що його дані є радіоактивними, ровом або обома. Підприємства стають все більш зрілими в оцінці рішень щодо конфіденційності даних, безпеки та суверенітету. Отже, будь-яка команда, яка будує будь-який продукт, який обробляє корпоративні дані, повинна забезпечити гарантії того, що оброблені дані є видимими і використовуються тільки авторизованими сторонами та сутностями. Архітектура, безпечна за проектом, забезпечує впевненість у тому, що конфіденційність даних, безпека і суверенітет були першими класами у проектуванні продукту, і дозволяє продукту забезпечити ці гарантії.
З інженерного погляду, архітектура, безпечна за проектом, є більш розширеною і майбутньою. Юридичні, ризикові та нормативні команди стають все більш суворими у відповідь на нові ризики та нормативні акти. Отже, інженерні організації повинні побудувати безпечну систему штучного інтелекту підприємства з самого початку, щоб вони не мали переконструювати і/або заплатити за свою систему, коли вони зрозуміють, що їхня поточна система є недостатньо безпечною і ризико-незахищеною. Переконструювання і заплата за систему займає місяці, якщо не роки, цінного інженерного потенціалу.
Як організації повинні переосмислити роль даних – як захищеного рову – за межами ресурсу?
Є зростаюча згода в галузі щодо того, що дані можуть незабаром стати єдиним ровом, який має організація. Ми бачимо дослідження і інженерний талант, і чудові технології та продукти, які вони будують, переходять з організації в організацію. В результаті багато організацій можуть пропонувати одні й ті ж самі продукти, підтримувані одними й тими ж технологіями.
Що не може легко перейти з організації в організацію, однак, це дані організації – якщо вони не витекають. Крім того, саме ці дані можуть зробити продукт більш привабливим, ніж його конкуренти – більш персоналізованим, підлаштованим і доменно-специфічним. Організації повинні зробити все можливе, щоб захистити свої дані, дозволяючи їм використовувати свої дані як конкурентну перевагу.
Як виглядає стійкий потік штучного інтелекту на практиці, і як він допомагає компаніям уникнути прихованих витрат або ризиків при розгортанні штучного інтелекту?
Стійкий потік штучного інтелекту є тим, який є надійним, витримуваним, але найважливіше – верифіковано безпечним з кінця в кінець. До обробки компанії повинні верифікувати дані, які надходять у потік, а також сам потік, щоб забезпечити, що немає можливості неправильного використання даних. Під час обробки потік штучного інтелекту повинен бути запобіжним проти порушення, щоб ніхто не міг викрасти будь-які дані, які він обробляє, або викривити висновки, які він надає. Після обробки потік штучного інтелекту повинен бути верифіковано аудитованим, щоб команда могла спостерігати і пояснювати прийняття рішень і траєкторію потоку штучного інтелекту, і щоб команда могла побачити, що пішло не так, коли щось пішло не так.
Це важливо розглянути, як нестійкий, дефектний потік штучного інтелекту може витекти дані організації або пропрієтарну модель, і які наслідки це має на різницю компанії або її репутацію. Що ще важливіше, однак, це те, що при розгортанні штучного інтелекту в більш критичні і впливаючі випадки використання ризик нестійкого, необ’яснимого потоку штучного інтелекту зростає експоненціально. У світі, де рішення про кредитування і прийняття на роботу вже доповнюються штучним інтелектом, впливаючи на все, від особистих фінансів до кар’єри, умисний або неумисний помилка в потоці штучного інтелекту може мати драматичний ефект на життя людини.
Багато підприємств зосереджуються на точності моделі або затримці. Що вони пропускають, коли йдеться про цілісність даних і довгострокові операційні ризики?
Хоча багато підприємств зосереджуються на моделі або технології штучного інтелекту, я завжди вважав, що дані є фундаментальною瓶нем для впровадження цінних рішень штучного інтелекту.
Мати модель, яка дуже швидко генерує точну відповідь на тему, яка не цікавить кінцевого користувача, генерує нульову цінність. Чтобы побудувати унікально привабливий продукт, підприємства повинні забезпечити, щоб їхні моделі, і продукти, які вони живлять, були навчені високоякісними, релевантними даними. Проблеми гігієни даних, які виникають через відсутність високоякісних вхідних даних, можуть не проявитися до місяців пізніше.
Другою річчю, яку ми виявили, є те, що підприємства загалом не мають хорошої історії щодо виявлення дрейфу даних, забруднення або витоку, що ставить під загрозу цілісність моделі. Це тісно пов’язано з моєю першою точкою, і хоча це більш реакційна рішення, воно робить оцінки і спостережливість ще важливішими.
OPAQUE інтегрується в існуючі хмарні стеки. Що ви дізналися про балансування легкості прийняття з сильними гарантіями безпеки в корпоративних розгортаннях?
Ми провели майже десятиліття, починаючи з наших дослідницьких днів, розв’язуючи цю проблему. Доведена безпека систем штучного інтелекту, особливо в корпоративному середовищі, є дуже складною проблемою. Це вимагає систем, безпеки, криптографії та штучного інтелекту. В результаті більшість систем, з якими ми стикалися, не були фундаментально безпечними – оскільки безпека дуже важко реалізувати.
В OPAQUE ми побудували продукт, який є найкращим з обох світів – внутрішньо і верифіковано безпечним з самого початку, але легко розгортається через хмарні ринки і достатньо гнучкий, щоб інтегруватися в нові і існуючі додатки штучного інтелекту.
Які види загроз або уразливості виникають навколо потоків штучного інтелекту і спільного використання даних, яких лідери підприємств можуть ще не повністю оцінити?
Що ми бачимо в цій агентській золотій лихоманці, це сліпа терміновість щодо розгортання агентів штучного інтелекту, які взаємодіють з різними системами реєстрації. Хоча ці агенти можуть забезпечити цінність, вони також становлять величезні ризики, оскільки вони торкаються багатьох систем з цінними даними. Агенти є внутрішньо недетермінірованими, і ми бачили безліч випадків, коли вони йдуть і роблять щось, чого ми не очікуємо. У світі, де ваші дані є вашим єдиним ровом, лідери підприємств повинні завжди ставити під сумнів, чи можуть вони довіряти і покладатися на агентів штучного інтелекту, які мають доступ до всіх їхніх даних, щоб не випадково або навіть умисно неправильно використовувати їх.
Як регулювання штучного інтелекту набуває форми глобально, як ви бачите взаємодію між безпечною інфраструктурою даних, відповідальністю моделі і дотриманням законодавства, що розвивається в наступні роки?
Верифіковано безпечна інфраструктура даних дозволяє відповідальність моделі і агента. Зокрема, без верифікованих доказів рішення або використання інструментів моделі чи агента ми не можемо бути певними в нічого, тому ми не зможемо слідкувати за відповідальністю. Коли штучний інтелект стає все більш інтегрованим у нашу повсякденну життя, нам хочеться більшої пояснюваності і спостережливості у штучному інтелекті. Однак, коли штучний інтелект може працювати з швидкістю машини, а ми не можемо, зловмисний штучний інтелект може легко обманути нас, створивши фальшиву історію. Нам потрібна верифікація, щоб утримувати штучний інтелект під відповідальністю.
Для мене нормативне дотримання законодавства є дуже реакційним. Розробка і прийняття нормативних актів рухаються значно повільніше, ніж технологічні інновації. Це буде все більш вірним, коли штучний інтелект допоможе нам збільшити темп інновацій. Хоча дотримання законодавства в кінцевому підсумку буде стимулювати відсталіх прийняти безпечну інфраструктуру даних, ранні приймачі і рання більшість розуміють, що це критично важливо для безпеки штучного інтелекту, і приймуть це значно раніше, ніж дотримання законодавства зробить це обов’язковим. Вони розуміють, що відповідальність агента, забезпечена безпечною інфраструктурою даних, є критично важливою для прийняття власних продуктів, що живляться штучним інтелектом.
Дякую за велике інтерв’ю, читачам, які бажають дізнатися більше, слід відвідати OPAQUE.












