Лідери думок
Ділема даних штучного інтелекту: конфіденційність, регулювання та майбутнє етичного штучного інтелекту

Рішення на основі штучного інтелекту швидко приймаються в різних галузях, послугах і продуктах кожен день. Однак їх ефективність залежить повністю від якості даних, на яких вони тренуються – аспект, часто неправильно зрозумілий або проігнорований у процесі створення набору даних.
Як органи захисту даних збільшують увагу до того, як технології штучного інтелекту відповідають вимогам конфіденційності та захисту даних, компанії стикаються з зростаючим тиском на пошук, анотацію та доопрацювання наборів даних у відповідності з вимогами законодавства та етики.
Чи існує真正нє етичне підходи до створення наборів даних штучного інтелекту? Які найбільші етичні виклики стоять перед компаніями, і як вони їх вирішують? І як зміни юридичних рамок впливають на доступність та використання тренувальних даних? Давайте розглянемо ці питання.
Конфіденційність даних та штучний інтелект
За своєю суттю, штучний інтелект вимагає великої кількості персональних даних для виконання завдань. Це викликало занепокоєння щодо збору, збереження та використання цих даних. Багато законів у світі регулюють та обмежують використання персональних даних, від GDPR та нового Закону про штучний інтелект в Європі до HIPAA у США, який регулює доступ до даних пацієнтів у медичній галузі.
Посилання на те, як суворі закони про захист даних у світі / DLA Piper
Наприклад, чотирнадцять штатів США зараз мають комплексні закони про захист даних, а ще шість мають вступити в силу у 2025 та на початку 2026 років. Нова адміністрація сигналізує про зміну підходу до виконання законодавства про захист даних на федеральному рівні. Основна увага приділяється регулюванню штучного інтелекту, підкреслюючи розвиток інновацій, а не введення обмежень. Ця зміна включає в себе скасування попередніх виконавчих наказів щодо штучного інтелекту та введення нових директив для керівництва його розробкою та застосуванням.
Законодавство про захист даних розвивається в різних країнах: у Європі закони суворіші, а в Азії чи Африці вони менш суворі.
Однак, особисто ідентифікована інформація (PII) – така як зображення обличчя, офіційні документи, як паспорти, або будь-які інші чутливі особисті дані – загалом обмежена в більшості країн до певної міри. За даними ЮНКТАД, збір, використання та передача особистої інформації третім особам без повідомлення або згоди споживачів є великою проблемою для більшості світу. 137 із 194 країн мають законодавство, яке забезпечує захист даних та конфіденційність. В результаті більшість глобальних компаній приймають широкі заходи для уникнення використання PII для тренування моделей, оскільки законодавство, як у ЄС, суворо забороняє такі практики, з рідкісними винятками в сильно регульованих галузях, таких як правоохоронна діяльність.
З часом законодавство про захист даних стає все більш повним та глобально застосовним. Компанії адаптують свої практики, щоб уникнути юридичних проблем та відповідати новим юридичним та етичним вимогам.
Які методи компаніями використовуються для отримання даних?
Отже, коли ми вивчаєємо питання захисту даних для тренування моделей, важливо спочатку зрозуміти, де компанії отримують ці дані. Існують три основних джерела даних.
- Збір даних
Цей метод дозволяє зібрати дані з платформ краудсорсингу, медіа-активів та відкритих наборів даних.
Важливо звернути увагу, що публічні медіа-активи підлягають різним ліцензійним угодам. Навіть комерційна ліцензія часто явно зазначає, що вміст не може бути використаний для тренування моделей. Ці очікування відрізняються платформою від платформи та вимагають від бізнесу підтвердження їхньої можливості використовувати вміст у необхідному вигляді.
Навіть коли компанії штучного інтелекту отримують вміст законно, вони все ще можуть зіткнутися з деякими проблемами. Швидкий розвиток тренування моделей штучного інтелекту значно випередив законодавчі рамки, що означає, що правила та регуляції щодо тренувальних даних штучного інтелекту все ще розвиваються. В результаті компанії повинні бути поінформовані про юридичні розробки та ретельно переглянути ліцензійні угоди перед використанням вмісту зі(stock) для тренування штучного інтелекту.
- Створення даних
Одним із найбезпечніших методів підготовки наборів даних є створення унікального вмісту, такого як зйомка людей у контрольованих середовищах, як студії або зовнішні місця. Перед участю особи підписують форму згоди на використання їхніх персональних даних, що вказує, які дані збираються, як і де вони будуть використані, та хто матиме доступ до них. Це забезпечує повний юридичний захист та дає компаніям впевненість, що вони не зіткнуться з вимогами про незаконне використання даних.
Основний недолік цього методу полягає в його вартості, особливо коли дані створюються для країв випадків або великомасштабних проєктів. Однак великі компанії та підприємства все частіше використовують цей підхід принаймні з двох причин. По-перше, це забезпечує повну відповідність усім стандартам та законодавчим вимогам. По-друге, це надає компаніям дані, повністю адаптовані до їхніх конкретних сценаріїв та потреб, гарантуючи найвищу точність тренування моделей.
- Генерація синтетичних даних
Використання програмних інструментів для створення зображень, тексту або відео на основі заданого сценарію. Однак синтетичні дані мають обмеження: вони генеруються на основі попередньо визначених параметрів і не мають природної мінливості реальних даних.
Цей недолік може негативно вплинути на моделі штучного інтелекту. Хоча це не стосується всіх випадків і не завжди відбувається, проте важливо пам’ятати про “колапс моделі” – момент, у якому надмірна залежність від синтетичних даних призводить до погіршення моделі, що призводить до низькоякісних виходів.
Синтетичні дані все ще можуть бути дуже ефективними для базових завдань, таких як розпізнавання загальних закономірностей, ідентифікація об’єктів або розпізнавання фундаментальних візуальних елементів, таких як обличчя.
Однак, це не найкращий варіант, коли компанії потрібно тренувати модель з нуля або мати справу з рідкісними чи дуже специфічними сценаріями.
Найбільш показові ситуації відбуваються в кабінах, таких як водій, відволікнутий дитиною, хтось, хто виглядає втомленим за кермом, або навіть випадки безрозсудної їзди. Ці дані не часто зустрічаються в публічних наборах даних – і не повинні бути – оскільки вони включають реальних осіб у приватних умовах. Оскільки моделі штучного інтелекту покладаються на тренувальні дані для генерації синтетичних виходів, вони мають труднощі з точним представленням сценаріїв, з якими вони ніколи не зустрічалися.
Коли синтетичні дані не справляються, створені дані – зібрані у контрольованих середовищах з реальними акторами – стають рішенням.
Постачальники рішень щодо даних, такі як Keymakr, встановлюють камери в автомобілях, наймають акторів та записують дії, такі як догляд за дитиною, пиття з пляшки або ознаки втоми. Актори підписують контракти, які явно погоджуються на використання їхніх даних для тренування штучного інтелекту, забезпечуючи відповідність вимогам законодавства про конфіденційність.
Відповідальність у процесі створення набору даних
Кожен учасник процесу, від клієнта до компанії-анотатора, має певні обов’язки, визначені в їхній угоді. Перший крок полягає в укладенні договору, який деталізує природу відносин, включаючи пункти про нерозголошення та інтелектуальну власність.
Розглянемо перший варіант роботи з даними, а саме коли вони створюються з нуля. Права інтелектуальної власності зазначають, що будь-які дані, створені постачальником, належать компанії-клієнту, тобто вони створюються від її імені. Це також означає, що постачальник повинен забезпечити, щоб дані були отримані законно та правильно.
Як компанія з рішень щодо даних, Keymakr забезпечує відповідність вимогам законодавства про захист даних, спочатку перевіривши юрисдикцію, в якій дані створюються, отримавши належну згоду від усіх осіб, залучених до процесу, та гарантувавши, що дані можуть бути законно використані для тренування штучного інтелекту.
Важливо також зазначити, що після використання даних для тренування моделі штучного інтелекту стає майже неможливим визначити, які конкретні дані внесли свій внесок у модель, оскільки штучний інтелект змішує все це разом. Тому конкретний вихід не схильний бути його виходом, особливо при обговоренні мільйонів зображень.
Через свою швидку розробку ця галузь все ще встановлює чіткі керівництва щодо розподілу відповідальності. Це подібно до складностей, пов’язаних з самоходними автомобілями, де питання про відповідальність – чи це водій, виробник чи компанія-програміст – все ще потребують чіткого розподілу.
У інших випадках, коли постачальник-анотатор отримує набір даних для анотації, він припускає, що клієнт отримав дані законно. Якщо є явні ознаки того, що дані були отримані незаконно, постачальник повинен повідомити про це. Однак такі явні випадки вкрай рідкісні.
Важливо також зазначити, що великі компанії, корпорації та бренди, які цінують свою репутацію, дуже обережно ставляться до джерел своїх даних, навіть якщо вони не були створені з нуля, а взяті з інших законних джерел.
У підсумку, відповідальність кожного учасника процесу роботи з даними залежить від угоди. Це можна вважати частиною більшої “ланцюга сталості”, де кожен учасник грає важливу роль у підтриманні юридичних та етичних стандартів.
Які забобони існують щодо внутрішньої частини розробки штучного інтелекту?
Одним із найбільших забобонів щодо розробки штучного інтелекту є те, що моделі штучного інтелекту працюють подібно до пошукових систем, збираючи та агрегуючи інформацію для користувачів на основі вивчених знань. Однак моделі штучного інтелекту, особливо мовні моделі, часто функціонують на основі ймовірностей, а не справжнього розуміння. Вони передбачають слова або терміни на основі статистичної ймовірності, використовуючи закономірності, побачені у попередніх даних. Штучний інтелект нічого не “знає”; він екstrapолює, здогадується та коригує ймовірності.
Крім того, багато людей припускають, що тренування штучного інтелекту вимагає величезних наборів даних, але більшість того, що штучний інтелект cần для розпізнавання – наприклад, собак, котів або людей – вже добре встановлено. Тепер увага зосереджена на поліпшенні точності та вдосконаленні моделей, а не на повторному винаході можливостей розпізнавання. Більша частина розробки штучного інтелекту сьогодні полягає у закритті останніх маленьких прогалин у точності, а не у початковому створенні.
Етичні виклики та вплив законодавства Європейського Союзу про штучний інтелект та пом’якшення законодавства США на глобальному ринку штучного інтелекту
Когда ми обговорюємо етику та законність роботи з даними, також важливо чітко зрозуміти, що визначає “етичний” штучний інтелект.
Найбільший етичний виклик, з яким компанії стикаються сьогодні в галузі штучного інтелекту, полягає у визначенні того, що вважається недопустимим для штучного інтелекту робити чи чого він не повинен навчатися. Існує широкий консенсус щодо того, що етичний штучний інтелект повинен допомагати, а не шкодити людям, і уникати обману. Однак системи штучного інтелекту можуть робити помилки або “галюцинувати”, що викликає питання про те, чи ці помилки кваліфікуються як дезінформація чи шкода.
Етика штучного інтелекту – це великий диспут, у якому беруть участь організації, такі як ЮНЕСКО, з ключевими принципами, що оточують auditability і traceability виходів.
Юридичні рамки, пов’язані з доступом до даних та тренуванням штучного інтелекту, відіграють значну роль у формуванні етичного ландшафту штучного інтелекту. Країни з меншими обмеженнями на використання даних дозволяють легший доступ до тренувальних даних, тоді як країни з суворішими законами про дані обмежують доступ до даних для тренування штучного інтелекту.
Наприклад, Європа, яка прийняла Закон про штучний інтелект, та США, які скасували багато регуляцій щодо штучного інтелекту, пропонують контрастні підходи, які вказують на поточний глобальний ландшафт.
Закон Європейського Союзу про штучний інтелект суттєво впливає на компанії, які працюють в Європі. Він вводить суворий регуляторний каркас, що робить важким для підприємств використовувати або розробляти певні моделі штучного інтелекту. Компаніям потрібно отримувати спеціальні ліцензії для роботи з певними технологіями, а в багатьох випадках регуляції фактично роблять важким для малих підприємств дотримуватися цих правил.
В результаті деякі стартапи можуть вирішити покинути Європу або уникати діяльності там зовсім, подібно до впливу, який спостерігається у сфері регулювання криптовалют. Більші компанії, які можуть дозволити собі інвестиції, необхідні для дотримання вимог законодавства, можуть адаптуватися. Однак Закон може витіснити інновації штучного інтелекту з Європи на користь ринків, таких як США або Ізраїль, де регуляції менш суворі.
Рішення США інвестувати великі ресурси у розвиток штучного інтелекту з меншими обмеженнями також може мати недоліки, але запрошує більшу різноманітність на ринку. Хоча Європейський Союз зосереджується на безпеці та регуляторній відповідності, США, ймовірно, сприятимуть більшим ризикам та експериментам на передньому краї.













