заглушки Як упередженість знищить вашу стратегію AI/ML і що з цим робити - Unite.AI
Зв'язатися з нами

Лідери думок

Як упередженість знищить вашу стратегію AI/ML і що з цим робити

mm

опублікований

 on

«Упередження» в моделях будь-якого типу описує ситуацію, коли модель неточно реагує на підказки або вхідні дані, оскільки її не було навчено достатньою кількістю різноманітних високоякісних даних, щоб забезпечити точну відповідь. Одним із прикладів може бути Функція Apple для розблокування телефону за допомогою розпізнавання обличчя, яка значно частіше виявляла невдачу для людей із темнішою шкірою, ніж зі світлішими тонами. Модель недостатньо тренувалася на зображеннях темношкірих людей. Це був приклад упередженості з відносно низьким ризиком, але саме тому Закон ЄС про штучний інтелект висунув вимоги щодо підтвердження ефективності моделі (і засобів контролю) перед виходом на ринок. Моделям із результатами, які впливають на бізнес, фінанси, здоров’я чи особисті ситуації, слід довіряти, інакше вони не використовуватимуться.

Боротьба з упередженнями за допомогою даних

Великі обсяги високоякісних даних

Серед багатьох важливих практик управління даними, a ключовим компонентом для подолання та мінімізації упередженості в моделях AI/ML є отримання великих обсягів високоякісних різноманітних даних. Це вимагає співпраці з кількома організаціями, які мають такі дані. Традиційно збір даних і співпраця викликаються проблемами конфіденційності та/або захисту IP – конфіденційні дані не можуть бути надіслані власнику моделі, і власник моделі не може ризикувати витоком своєї IP власнику даних. Загальним обхідним шляхом є робота з фіктивними або синтетичними даними, які можуть бути корисними, але також мають обмеження порівняно з використанням реальних повноконтекстних даних. Саме тут технології підвищення конфіденційності (PET) дають такі необхідні відповіді.

Синтетичні дані: близько, але не зовсім

Синтетичні дані створено штучно для імітації реальних даних. Це важко зробити, але з інструментами штучного інтелекту стає трохи легше. Синтетичні дані хорошої якості повинні мати такі самі відстані, що й реальні дані, інакше вони не будуть корисними. Якісні синтетичні дані можна використовувати для ефективного збільшення різноманітності навчальних даних, заповнюючи прогалини для менших, маргіналізованих груп населення або для груп, для яких постачальник штучного інтелекту просто не має достатньо даних. Синтетичні дані також можна використовувати для розгляду граничних випадків, які може бути важко знайти в належних обсягах у реальному світі. Крім того, організації можуть генерувати синтетичний набір даних, щоб задовольнити вимоги щодо постійності та конфіденційності даних, які блокують доступ до реальних даних. Звучить чудово; однак синтетичні дані — це лише частина головоломки, а не рішення.

Одним із очевидних обмежень синтетичних даних є відрив від реального світу. Наприклад, автономні транспортні засоби, навчені виключно на синтетичних даних, будуть боротися з реальними, непередбаченими дорожніми умовами. Крім того, синтетичні дані успадковують зміщення від даних реального світу, які використовуються для їх створення, що значною мірою перешкоджає меті нашого обговорення. Підсумовуючи, синтетичні дані є корисним варіантом для тонкого налаштування та розгляду граничних ситуацій, але значні покращення в ефективності моделі та мінімізації зміщення все ще залежать від доступу до реальних даних.

Кращий спосіб: реальні дані через робочі процеси з підтримкою PET

PET захищають дані під час використання. Що стосується моделей штучного інтелекту/ML, вони також можуть захистити IP-адресу моделі, що запускається – «одним пострілом два зайці». Рішення, що використовують PET, надають можливість навчати моделі на реальних конфіденційних наборах даних, які раніше були недоступні через проблеми конфіденційності даних і безпеки. Це розблокування потоків даних до реальних даних є найкращим варіантом для зменшення зміщення. Але як би це насправді працювало?

Наразі провідні варіанти починаються з конфіденційного обчислювального середовища. Потім інтеграція з програмним рішенням на основі PETs, що робить його готовим до використання з коробки, одночасно задовольняючи вимоги до керування даними та безпеки, які не входять до стандартного довіреного середовища виконання (TEE). За допомогою цього рішення всі моделі та дані шифруються перед надсиланням у захищене комп’ютерне середовище. Середовище можна розмістити де завгодно, що важливо при виконанні певних вимог до локалізації даних. Це означає, що як IP моделі, так і безпека вхідних даних зберігаються під час обчислення – навіть постачальник довіреного середовища виконання не має доступу до моделей або даних у ньому. Потім зашифровані результати надсилаються назад для перегляду, а журнали доступні для перегляду.

Цей потік відкриває найякісніші дані незалежно від того, де вони знаходяться чи хто їх має, створюючи шлях до мінімізації упередженості та високоефективних моделей, яким ми можемо довіряти. Цей потік також описує Закон ЄС про штучний інтелект у своїх вимогах до нормативної пісочниці ШІ.

Сприяння дотриманню етичних і правових норм

Отримати якісні реальні дані важко. Вимоги до конфіденційності даних і локалізації негайно обмежують набори даних, до яких організації можуть отримати доступ. Для інновацій і зростання дані повинні надходити до тих, хто може отримати з них цінність.

Стаття 54 Закону ЄС про штучний інтелект містить вимоги до типів моделей «високого ризику» щодо того, що має бути доведено, перш ніж їх можна буде вивести на ринок. Коротше кажучи, командам потрібно буде використовувати дані реального світу всередині AI Regulatory Sandbox щоб продемонструвати достатню ефективність моделі та відповідність усім елементам керування, описаним у розділі III, розділі 2. Елементи керування включають моніторинг, прозорість, пояснюваність, безпеку даних, захист даних, мінімізацію даних і захист моделі – подумайте про DevSecOps + Data Ops.

Першим завданням буде знайти реальний набір даних для використання, оскільки це за своєю суттю конфіденційні дані для таких типів моделей. Без технічних гарантій багато організацій можуть вагатися довіряти свої дані постачальнику моделі або не матиме дозволу це робити. Крім того, те, як закон визначає «регуляторну пісочницю штучного інтелекту», сам по собі є проблемою. Деякі вимоги включають гарантію видалення даних із системи після запуску моделі, а також контроль управління, забезпечення виконання та звітність, щоб підтвердити це.

Багато організацій намагалися використовувати готові чисті кімнати для даних (DCR) і довірені середовища виконання (TEE). Але самі по собі ці технології вимагають значного досвіду та роботи, щоб ввести в дію та відповідати нормативним вимогам щодо даних і ШІ.
DCR простіші у використанні, але ще не корисні для більш надійних потреб AI/ML. TEE — це захищені сервери, які все ще потребують інтегрованої платформи для співпраці, щоб швидко бути корисними. Це, однак, визначає можливість інтеграції технологічних платформ для підвищення конфіденційності з TEE, щоб усунути цю роботу, спростивши налаштування та використання нормативної пісочниці ШІ, а отже, отримання та використання конфіденційних даних.

Забезпечуючи використання більш різноманітних і повних наборів даних із збереженням конфіденційності, ці технології допомагають забезпечити відповідність AI та ML етичним стандартам і юридичним вимогам, пов’язаним із конфіденційністю даних (наприклад, GDPR та Закон ЄС про AI в Європі). Підводячи підсумок, хоча вимоги часто задовольняються звуковим бурчанням і зітханнями, ці вимоги просто спрямовують нас до створення кращих моделей, яким ми можемо довіряти та на які можна покладатися для прийняття важливих рішень на основі даних, одночасно захищаючи конфіденційність суб’єктів даних, які використовуються для розробки моделі. і налаштування.

Аді Хірштейн є віце-президентом із продуктів у Технології подвійності. Аді має більш ніж 20-річний досвід роботи на посаді керівника, менеджера з продукції та підприємця, який створює та просуває інновації в технологічних компаніях, які в основному зосереджені на B2B-стартапах у сфері даних та ШІ. До Duality Аді працював віце-президентом із продуктів для Iguazio (компанія MLOps), яку придбала McKinsey, а до цього він обіймав посаду директора з продуктів у EMC після придбання іншого стартапу під назвою Zettapoint (компанія з баз даних і зберігання даних), де він працював. як віце-президент із продукту, який веде продукт від початку до проникнення на ринок і зростання.