Зв'язатися з нами

Дилема даних ШІ: конфіденційність, регулювання та майбутнє етичного ШІ

Лідери думок

Дилема даних ШІ: конфіденційність, регулювання та майбутнє етичного ШІ

Рішення на основі штучного інтелекту щодня швидко впроваджуються в різноманітних галузях, послугах і продуктах. Однак їхня ефективність повністю залежить від якості даних, на яких вони навчаються – аспект, який часто неправильно розуміють або не помічають у процесі створення набору даних.

Оскільки органи захисту даних посилюють контроль за тим, як технології штучного інтелекту відповідають нормам щодо конфіденційності та захисту даних, компанії стикаються з дедалі більшим тиском щодо джерел, анотацій та вдосконалення наборів даних у відповідний та етичний спосіб.

Чи існує справді етичний підхід до створення наборів даних ШІ? Які найбільші етичні проблеми компаній і як вони їх вирішують? І як законодавча база, що розвивається, впливає на доступність і використання навчальних даних? Давайте дослідимо ці питання.

Конфіденційність даних і ШІ

За своєю природою ШІ вимагає багато особисті дані виконувати завдання. Це викликало занепокоєння щодо збору, збереження та використання цієї інформації. Багато законів у всьому світі регулюють і обмежують використання персональних даних, від GDPR і нещодавно введеного Закону про штучний інтелект в Європі до HIPAA в США, який регулює доступ до даних пацієнтів у медичній галузі.

Довідка про те, наскільки суворі закони про захист даних у всьому світі / DLA Piper

Наприклад, чотирнадцять штатів США наразі мають комплексні закони про конфіденційність даних, а ще шість набудуть чинності у 2025 році та на початку 2026 року. Нова адміністрація сповістила про зміну підходу до забезпечення конфіденційності даних на федеральному рівні. Основна увага приділяється регулюванню штучного інтелекту, наголошуючи на сприянні інноваціям, а не накладаючи обмеження. Це зміна включає скасування попередніх розпоряджень виконавчої влади щодо штучного інтелекту та введення нових директив для керівництва його розробкою та застосуванням.

Законодавство про захист даних розвивається в різних країнах: у Європі закони суворіші, а в Азії чи Африці вони, як правило, менш суворі.

Однак інформація, яка дозволяє ідентифікувати особу (PII), як-от зображення обличчя, офіційні документи, як-от паспорти, або будь-які інші конфіденційні персональні дані, як правило, певною мірою обмежена в більшості країн. За даними ООН з питань торгівлі та розвитку, збір, використання та передача особистої інформації третім сторонам без попередження або згоди споживачів є серйозною проблемою для більшості країн світу. 137 із 194 країн мати правила, що забезпечують захист даних і конфіденційність. У результаті більшість глобальних компаній вживають серйозних заходів, щоб уникнути використання ідентифікаційної інформації для навчання моделей, оскільки нормативні документи, подібні до тих, що діють у ЄС, суворо забороняють таку практику, за рідкісними винятками, які трапляються в жорстко регульованих нішах, таких як правоохоронні органи.

З часом закони про захист даних стають всеохоплюючими та застосовуються в усьому світі. Компанії адаптують свою практику, щоб уникнути юридичних проблем і відповідати новим правовим і етичним вимогам.

Які методи використовують компанії для отримання даних?

Отже, вивчаючи питання захисту даних для навчальних моделей, важливо спочатку зрозуміти, звідки компанії отримують ці дані. Є три основні та основні джерела даних.

  • Збір даних

Цей метод дозволяє збирати дані з платформ краудсорсингу, медіа-запасів і наборів даних з відкритим кодом.

Важливо зазначити, що державні медіа мають різні ліцензійні угоди. Навіть у ліцензії на комерційне використання часто прямо вказується, що вміст не можна використовувати для навчання моделей. Ці очікування відрізняються від платформи до платформи та вимагають від компаній підтверджувати свою здатність використовувати вміст у потрібний для них спосіб.

Навіть якщо компанії штучного інтелекту отримують контент легально, вони все одно можуть зіткнутися з деякими проблемами. Швидкий розвиток навчання моделям штучного інтелекту значно випереджає законодавчі рамки, а це означає, що правила та норми щодо навчальних даних штучного інтелекту все ще розвиваються. Тому компанії повинні бути в курсі правових змін і ретельно переглядати ліцензійні угоди, перш ніж використовувати стандартний вміст для навчання ШІ.

  • Створення даних

Один із найбезпечніших методів підготовки набору даних передбачає створення унікального контенту, наприклад зйомку людей у ​​контрольованому середовищі, як-от студії чи на відкритому повітрі. Перед тим, як взяти участь, особи підписують форму згоди на використання своєї ідентифікаційної інформації, вказуючи, які дані збираються, як і де вони використовуватимуться та хто матиме до них доступ. Це забезпечує повний правовий захист і дає компаніям впевненість, що вони не зіткнуться з претензіями щодо незаконного використання даних.

Головним недоліком цього методу є його вартість, особливо коли дані створюються для крайових випадків або великомасштабних проектів. Однак великі компанії та підприємства все частіше продовжують використовувати цей підхід щонайменше з двох причин. По-перше, це забезпечує повне дотримання всіх стандартів і правових норм. По-друге, він надає компаніям дані, повністю адаптовані до їхніх конкретних сценаріїв і потреб, гарантуючи найвищу точність навчання моделі.

  • Створення синтетичних даних

Використання програмних засобів для створення зображень, тексту або відео на основі заданого сценарію. Однак синтетичні дані мають обмеження: вони генеруються на основі попередньо визначених параметрів і не мають природної мінливості реальних даних.

Цей недолік може негативно вплинути на моделі ШІ. Хоча це актуально не для всіх випадків і не завжди трапляється, все ж важливо пам’ятати:колапс моделі” — момент, коли надмірна залежність від синтетичних даних призводить до погіршення моделі, що призводить до низькоякісних результатів.

Синтетичні дані все ще можуть бути дуже ефективними для основних завдань, таких як розпізнавання загальних шаблонів, ідентифікація об’єктів або розрізнення основних візуальних елементів, таких як обличчя.

Однак це не найкращий варіант, коли компанії потрібно навчити модель повністю з нуля або мати справу з рідкісними чи дуже специфічними сценаріями.

Найбільш показові ситуації трапляються в салоні, наприклад, водій відволікається на дитину, хтось виглядає втомленим за кермом або навіть випадки необережного водіння. Ці точки даних не є загальнодоступними в загальнодоступних наборах даних — і вони не повинні бути — оскільки вони стосуються реальних людей у ​​приватних умовах. Оскільки моделі штучного інтелекту покладаються на навчальні дані для створення синтетичних результатів, їм важко точно представити сценарії, з якими вони ніколи не стикалися.

Коли синтетичні дані виходять з ладу, рішенням стають створені дані, зібрані через контрольоване середовище з реальними акторами.

Постачальникам рішень для обробки даних подобається Кеймакр розміщуйте камери в автомобілях, найміть акторів і знімайте такі дії, як догляд за дитиною, пиття з пляшки або прояв ознак втоми. Учасники підписують контракти, які чітко погоджуються використовувати їхні дані для навчання ШІ, забезпечуючи дотримання законів про конфіденційність.

Обов'язки в процесі створення набору даних

Кожен учасник процесу, від клієнта до анотаційної компанії, має певні обов’язки, викладені в їхній угоді. Першим кроком є ​​укладення контракту, в якому детально описано характер відносин, включаючи положення про нерозголошення та інтелектуальну власність.

Розглянемо перший варіант роботи з даними, а саме коли вони створюються з нуля. Права інтелектуальної власності стверджують, що будь-які дані, створені постачальником, належать компанії-наймальнику, тобто вони створюються від її імені. Це також означає, що постачальник повинен забезпечити отримання даних законним і належним чином.

Як компанія, що займається розробкою даних, Keymakr забезпечує відповідність даних, спочатку перевіряючи юрисдикцію, у якій створюються дані, отримуючи належну згоду від усіх залучених осіб і гарантуючи, що дані можуть бути законно використані для навчання ШІ.

Важливо також зазначити, що коли дані використовуються для навчання моделі штучного інтелекту, стає майже неможливим визначити, які конкретні дані внесли свій внесок у модель, оскільки штучний інтелект поєднує їх усі разом. Отже, конкретний вихід не має тенденції бути його результатом, особливо коли йдеться про мільйони зображень.

Завдяки своєму стрімкому розвитку ця сфера все ще встановлює чіткі орієнтири для розподілу обов'язків. Це схоже на складності, пов’язані з безпілотними автомобілями, де питання про відповідальність — водія, виробника чи компанії-розробника — все ще потребують чіткого розподілу.

В інших випадках, коли постачальник анотацій отримує набір даних для анотацій, він припускає, що клієнт законно отримав дані. Якщо є явні ознаки того, що дані були отримані незаконним шляхом, провайдер повинен повідомити про це. Однак такі явні випадки вкрай рідкісні.

Важливо також зазначити, що великі компанії, корпорації та бренди, які цінують свою репутацію, дуже обережно вибирають джерело своїх даних, навіть якщо вони були створені не з нуля, а взяті з інших легальних джерел.

Таким чином, відповідальність кожного учасника в процесі обробки даних залежить від угоди. Ви можете розглядати цей процес як частину ширшого «ланцюжка сталого розвитку», де кожен учасник відіграє вирішальну роль у дотриманні правових та етичних стандартів.

Які помилкові уявлення існують про задню частину розробки ШІ?

Головне помилкове уявлення про розробку штучного інтелекту полягає в тому, що моделі штучного інтелекту працюють подібно до пошукових систем, збираючи та агрегуючи інформацію для представлення користувачам на основі отриманих знань. Однак моделі ШІ, особливо мовні моделі, часто функціонують на основі ймовірностей, а не справжнього розуміння. Вони передбачають слова чи терміни на основі статистичної ймовірності, використовуючи шаблони, помічені в попередніх даних. ШІ нічого не «знає»; він екстраполює, вгадує та коригує ймовірності.

Крім того, багато хто припускає, що для навчання штучного інтелекту потрібні величезні набори даних, але багато чого з того, що ШІ повинен розпізнавати — наприклад, собак, кішок чи людей — уже добре встановлено. Зараз у центрі уваги – підвищення точності та вдосконалення моделей, а не переосмислення можливостей розпізнавання. Значна частина розробки штучного інтелекту сьогодні зосереджена навколо усунення останніх невеликих прогалин у точності, а не починання з нуля.

Етичні виклики та те, як Закон Європейського Союзу щодо штучного інтелекту та пом’якшення нормативних актів США вплине на світовий ринок штучного інтелекту

Обговорюючи етику та законність роботи з даними, також важливо чітко розуміти, що визначає «етичний» ШІ.

Найбільша етична проблема, з якою сьогодні стикаються компанії у сфері штучного інтелекту, полягає у визначенні того, що вважатиметься неприйнятним для ШІ. Існує широкий консенсус щодо того, що етичний штучний інтелект має допомагати, а не шкодити людям, і уникати обману. Однак системи штучного інтелекту можуть помилятися або «галюцинувати», що ускладнює визначення того, чи кваліфікувати ці помилки як дезінформацію чи шкоду.

Етика штучного інтелекту – це серйозна дискусія, до якої долучаються такі організації, як ЮНЕСКО, з ключовими принципами можливість аудиту та відстеження виходів.

Правові рамки щодо доступу до даних і навчання ШІ відіграють важливу роль у формуванні етичного ландшафту ШІ. Країни з меншими обмеженнями на використання даних забезпечують більш доступні навчальні дані, тоді як країни з суворішими законами щодо даних обмежують доступність даних для навчання ШІ.

Наприклад, Європа, яка прийняла Закон про штучний інтелект, і США, які скасували багато правил щодо штучного інтелекту, пропонують контрастні підходи, які вказують на поточний глобальний ландшафт.

Закон Європейського Союзу про штучний інтелект значно впливає на компанії, що працюють у Європі. Він забезпечує дотримання суворої нормативної бази, що ускладнює для компаній використання або розробку певних моделей ШІ. Компанії повинні отримати спеціальні ліцензії на роботу з певними технологіями, і в багатьох випадках нормативні акти фактично ускладнюють невеликим підприємствам дотримання цих правил.

Як наслідок, деякі стартапи можуть вирішити залишити Європу або взагалі уникати там роботи, подібно до впливу, який спостерігається з регулюванням криптовалют. Більші компанії, які можуть дозволити собі інвестиції, необхідні для виконання вимог відповідності, можуть адаптуватися. Тим не менш, Закон може витіснити інновації штучного інтелекту з Європи на користь таких ринків, як США чи Ізраїль, де правила менш суворі.

Рішення США інвестувати значні ресурси в розробку штучного інтелекту з меншими обмеженнями також може мати недоліки, але сприятиме більшій різноманітності на ринку. У той час як Європейський Союз зосереджується на безпеці та дотриманні нормативних вимог, США, ймовірно, сприятимуть більшому ризику та передовим експериментам.

Генеральний директор та співзасновник Кеймакр — компанія анотації даних, і Keylabs.ai — платформа анотації даних. Майкл — ентузіаст технологій і пристрасний дослідник надзвичайного та інновацій. Він мав багато переваг, зберігаючи при цьому глибокі знання в ключових сферах. Як інженер-програміст із досвідом збору даних і досвідом менеджера з досліджень і розробок, Майкл має міцну основу як у технічних, так і в стратегічних ролях, тісно співпрацюючи з розробкою продуктів і рішеннями на основі ШІ. Майкл підтримує стартапи та підприємства в удосконаленні їхніх бізнес-операцій, досягненні відповідності продукту ринку та стимулюванні прискореного зростання. Робота зі штучним інтелектом і анотаціями дозволяє йому безпосередньо взаємодіяти з різними галузями промисловості — від автомобільної до сільського господарства — і брати участь у просуванні їхнього прогресу та прориву.