Liderzy opinii
Dylemat danych AI: Prywatność, regulacje i przyszłość etycznego AI

Rozwiązania oparte na AI są szybko przyjmowane w różnych branżach, usługach i produktach każdego dnia. Jednak ich skuteczność zależy całkowicie od jakości danych, na których są szkolone – aspekt często niezrozumiany lub pomijany w procesie tworzenia zbiorów danych.
W miarę jak organy ochrony danych zwiększają kontrolę nad tym, jak technologie AI są zgodne z przepisami o ochronie prywatności i danych, firmy stają przed rosnącą presją, aby źródła, adnotować i udoskonalać zbiory danych w sposób zgodny z przepisami i etycznym.
Czy istnieje naprawdę etyczne podejście do budowy zbiorów danych AI? Jakie są największe wyzwania etyczne firm i jak je rozwiązują? I jak ewoluujące ramy prawne wpływają na dostępność i użycie danych szkoleniowych? Przyjrzyjmy się tym pytaniom.
Prywatność danych i AI
Ze swej natury AI wymaga dużej ilości danych osobowych, aby wykonać zadania. To podnosi obawy dotyczące gromadzenia, przechowywania i używania tych informacji. Wiele przepisów na całym świecie reguluje i ogranicza użycie danych osobowych, od GDPR i nowo wprowadzonego Aktu AI w Europie do HIPAA w USA, który reguluje dostęp do danych pacjentów w branży medycznej.
Odnośnik do tego, jak ścisłe są przepisy ochrony danych na całym świecie / DLA Piper
Na przykład, czternaście stanów w USA ma obecnie kompleksowe przepisy o ochronie danych, a sześć kolejnych wejdzie w życie w 2025 i na początku 2026 roku. Nowa administracja sygnalizuje zmianę podejścia do egzekwowania ochrony danych na poziomie federalnym. Kluczowym celem jest regulacja AI, podkreślająca wspieranie innowacji zamiast nakładania ograniczeń. Ta zmiana obejmuje uchylenie poprzednich zarządzeń wykonawczych dotyczących AI i wprowadzenie nowych dyrektyw w celu kierowania jej rozwojem i zastosowaniem.
Prawodawstwo dotyczące ochrony danych ewoluuje w różnych krajach: w Europie przepisy są bardziej ścisłe, podczas gdy w Azji lub Afryce tendencja jest mniej restrykcyjna.
Jednak dane osobowe (PII) – takie jak obrazy twarzy, dokumenty oficjalne, takie jak paszporty, lub jakiekolwiek inne wrażliwe dane osobowe – są ogólnie ograniczone w większości krajów do pewnego stopnia. Zgodnie z UN Trade & Development, gromadzenie, używanie i udostępnianie informacji osobowych stronom trzecim bez powiadomienia lub zgody konsumentów jest głównym problemem dla większości świata. 137 z 194 krajów ma przepisy zapewniające ochronę danych i prywatności. W związku z tym większość globalnych firm podejmuje szerokie środki ostrożności, aby uniknąć używania PII do szkolenia modeli, ponieważ przepisy, takie jak te w UE, surowo zabraniają takich praktyk, z rzadkimi wyjątkami w ściśle uregulowanych dziedzinach, takich jak egzekwowanie prawa.
Z biegiem czasu przepisy o ochronie danych stają się bardziej kompleksowe i są egzekwowane na całym świecie. Firmy dostosowują swoje praktyki, aby uniknąć wyzwań prawnych i spełnić nowe wymagania prawne i etyczne.
Jakie metody stosują firmy, aby uzyskać dane?
Zatem, gdy badamy problemy ochrony danych w procesie szkolenia modeli, ważne jest, aby najpierw zrozumieć, skąd firmy pozyskują te dane. Istnieją trzy główne i podstawowe źródła danych.
- Zbieranie danych
Ta metoda umożliwia gromadzenie danych z platform crowdsourcingowych, mediów i otwartych zbiorów danych.
Ważne jest, aby zauważyć, że publiczne media są objęte różnymi umowami licencyjnymi. Nawet licencja na użytkowanie komercyjne często wyraźnie stwierdza, że zawartość nie może być używana do szkolenia modeli. Oczekiwania te różnią się w zależności od platformy i wymagają od firm potwierdzenia, że mogą używać zawartości w sposób, w jaki potrzebują.
Nawet gdy firmy AI uzyskują treści w sposób legalny, mogą nadal napotkać pewne problemy. Szybki postęp szkolenia modeli AI znacznie wyprzedził ramy prawne, co oznacza, że przepisy i regulacje dotyczące danych szkoleniowych AI są nadal ewoluujące. W związku z tym firmy muszą być na bieżąco z rozwojem prawnym i starannie przeglądać umowy licencyjne przed użyciem zawartości ze źródeł do szkolenia AI.
- Tworzenie danych
Jedna z najbezpieczniejszych metod przygotowania zbiorów danych polega na tworzeniu unikalnej zawartości, takiej jak filmowanie ludzi w kontrolowanych środowiskach, takich jak studia lub miejsca na zewnątrz. Przed udziałem osoby podpisują formularz zgody na użycie ich danych osobowych, określając, jakie dane są gromadzone, w jaki sposób i gdzie będą używane, oraz kto będzie miał do nich dostęp. To zapewnia pełną ochronę prawną i daje firmom pewność, że nie będą musiały stawiać czoła roszczeniom o nielegalne użycie danych.
Główną wadą tej metody jest jej koszt, zwłaszcza gdy dane są tworzone dla przypadków brzegowych lub dużych projektów. Jednak duże firmy i przedsiębiorstwa coraz częściej stosują ten podejście z co najmniej dwóch powodów. Po pierwsze, zapewnia pełną zgodność ze wszystkimi standardami i przepisami prawnymi. Po drugie, zapewnia firmom dane w pełni dostosowane do ich konkretnych scenariuszy i potrzeb, gwarantując najwyższą dokładność w szkoleniu modeli.
- Generowanie danych syntetycznych
Użycie narzędzi oprogramowania do tworzenia obrazów, tekstu lub filmów na podstawie danego scenariusza. Jednak dane syntetyczne mają ograniczenia: są generowane na podstawie określonych parametrów i brakuje im naturalnej zmienności danych rzeczywistych.
Ten brak może negatywnie wpłynąć na modele AI. Chociaż nie jest to istotne we wszystkich przypadkach i nie zawsze się zdarza, jest to nadal ważne, aby pamiętać o „zawale modelu” – punkcie, w którym nadmierne poleganie na danych syntetycznych powoduje, że model ulega degradacji, prowadząc do niskiej jakości danych wyjściowych.
Dane syntetyczne mogą nadal być bardzo skuteczne w podstawowych zadaniach, takich jak rozpoznawanie ogólnych wzorców, identyfikacja obiektów lub rozróżnianie podstawowych elementów wizualnych, takich jak twarze.
Jednak nie jest to najlepsza opcja, gdy firma musi szkolić model od podstaw lub radzić sobie z rzadkimi lub bardzo specyficznymi scenariuszami.
Najbardziej ujawniające sytuacje występują w środowiskach wewnątrz kabiny, takich jak kierowca rozpraszony przez dziecko, ktoś, kto wygląda na sennego za kierownicą, lub nawet przypadki niebezpiecznej jazdy. Te punkty danych nie są powszechnie dostępne w publicznych zbiorach danych – ani nie powinny być – ponieważ obejmują one prawdziwe osoby w prywatnych ustawieniach. Ponieważ modele AI polegają na danych szkoleniowych, aby wygenerować dane wyjściowe syntetyczne, mają trudności z dokładnym przedstawieniem scenariuszy, których nigdy nie spotkały.
Gdy dane syntetyczne zawodzą, stworzone dane – zebrane w kontrolowanych środowiskach z prawdziwymi aktorami – stają się rozwiązaniem.
Dostawcy rozwiązań danych, tacy jak Keymakr, umieszczają kamery w samochodach, zatrudniają aktorów i nagrywają akcje, takie jak opiekowanie się dzieckiem, picie z butelki lub pokazywanie oznak zmęczenia. Aktorzy podpisują umowy, w których wyraźnie wyrażają zgodę na użycie ich danych do szkolenia AI, zapewniając zgodność z przepisami o ochronie prywatności.
Odpowiedzialność w procesie tworzenia zbioru danych
Każdy uczestnik procesu, od klienta do firmy anotującej, ma określone obowiązki określone w umowie. Pierwszym krokiem jest ustanowienie umowy, która określa charakter relacji, w tym klauzule dotyczące nieujawniania i własności intelektualnej.
Rozważmy pierwszą opcję współpracy z danymi, a mianowicie gdy są one tworzone od podstaw. Prawa własności intelektualnej stanowią, że wszystkie dane, które dostawca tworzy, należą do zatrudniającej firmy, co oznacza, że są tworzone na ich rzecz. To również oznacza, że dostawca musi zapewnić, że dane są pozyskiwane w sposób legalny i właściwy.
Jako firma dostarczająca rozwiązania danych, Keymakr zapewnia zgodność danych, najpierw sprawdzając jurysdykcję, w której dane są tworzone, uzyskując odpowiednią zgodę od wszystkich osób zaangażowanych i gwarantując, że dane mogą być legalnie używane do szkolenia AI.
Ważne jest również, aby zauważyć, że gdy dane są używane do szkolenia modelu AI, staje się prawie niemożliwe, aby określić, które konkretnie dane przyczyniły się do modelu, ponieważ AI łączy je wszystkie razem. Zatem konkretny wynik nie ma tendencji do bycia jego wynikiem, zwłaszcza w przypadku dyskusji o milionach obrazów.
Ze względu na szybki rozwój, ta dziedzina nadal tworzy wyraźne wytyczne dotyczące rozdziału odpowiedzialności. Jest to podobne do złożoności otaczających samochody autonomiczne, gdzie pytania o odpowiedzialność – czy to kierowca, producent, czy firma oprogramowania – wciąż wymagają wyraźnego podziału.
W innych przypadkach, gdy dostawca anotacji otrzymuje zbiór danych do anotacji, zakłada, że klient uzyskał dane w sposób legalny. Jeśli istnieją wyraźne oznaki, że dane zostały uzyskane w sposób nielegalny, dostawca musi to zgłosić. Jednak takie oczywiste przypadki są niezwykle rzadkie.
Ważne jest również, aby zauważyć, że duże firmy, korporacje i marki, które cenią swoją reputację, są bardzo ostrożne, skąd pochodzą ich dane, nawet jeśli nie zostały one stworzone od podstaw, ale pobrane z innych legalnych źródeł.
Podsumowując, odpowiedzialność każdego uczestnika procesu pracy z danymi zależy od umowy. Można to uznać za część szerszego „łańcucha zrównoważenia”, w którym każdy uczestnik odgrywa kluczową rolę w utrzymaniu standardów prawnych i etycznych.
Jakie są nieporozumienia dotyczące tyłu AI?
Jednym z głównych nieporozumień dotyczących rozwoju AI jest to, że modele AI działają podobnie do silników wyszukiwania, gromadząc i agregując informacje, aby przedstawić je użytkownikom na podstawie poznanej wiedzy. Jednak modele AI, zwłaszcza modele językowe, często działają na podstawie prawdopodobieństwa, a nie prawdziwego zrozumienia. Przewidują słowa lub terminy na podstawie statystycznego prawdopodobieństwa, używając wzorców widzianych w poprzednich danych. AI nie „wie” niczego; ekstrapoluje, zgaduje i dostosowuje prawdopodobieństwa.
Ponadto wiele osób zakłada, że szkolenie AI wymaga ogromnych zbiorów danych, ale wiele z tego, czego AI potrzebuje do rozpoznania – takich jak psy, koty lub ludzie – jest już dobrze ugruntowane. W związku z tym główny nacisk teraz kładziony jest na poprawę dokładności i udoskonalenie modeli, a nie na odtwarzanie możliwości rozpoznawania. Większość rozwoju AI dzisiaj kręci się wokół zamykania ostatnich małych luk w dokładności, a nie rozpoczynania od zera.
Wyzwania etyczne i wpływ Aktu AI Unii Europejskiej oraz łagodzenia przepisów USA na globalny rynek AI
Gdy dyskutujemy o etyce i legalności pracy z danymi, ważne jest również, aby wyraźnie zrozumieć, co definiuje „etyczny” AI.
Największym wyzwaniem etycznym, przed którym stoją firmy dzisiaj w AI, jest określenie, co jest uważane za niedopuszczalne dla AI, aby to zrobić lub nauczyć. Istnieje szeroki konsensus, że etyczny AI powinien pomagać, a nie szkodzić ludziom i unikać oszustwa. Jednak systemy AI mogą popełniać błędy lub „halucynować”, co stwarza wyzwanie w określeniu, czy te błędy kwalifikują się jako dezinformacja lub szkoda.
Etyka AI jest głównym tematem debaty z organizacjami, takimi jak UNESCO, które angażują się – z kluczowymi zasadami dotyczącymi audytowalności i śledzenia danych wyjściowych.
Ramowe prawne dotyczące dostępu do danych i szkolenia AI odgrywają znaczącą rolę w kształtowaniu etycznego krajobrazu AI. Kraje z mniejszymi ograniczeniami w zakresie korzystania z danych umożliwiają łatwiejszy dostęp do danych szkoleniowych, podczas gdy kraje z bardziej ścisłymi przepisami dotyczącymi danych ograniczają dostęp do danych szkoleniowych AI.
Na przykład Europa, która przyjęła Akt AI, i USA, które wycofały wiele przepisów AI, oferują przeciwstawne podejścia, które wskazują na obecny krajobraz globalny.
Akt AI Unii Europejskiej ma znaczący wpływ na firmy działające w Europie. Wprowadza ścisłą ramę regulacyjną, utrudniając firmom korzystanie z pewnych modeli AI lub ich rozwój. Firmy muszą uzyskać określone licencje, aby pracować z pewnymi technologiami, a w wielu przypadkach przepisy skutecznie utrudniają mniejszym firmom przestrzeganie tych zasad.
W rezultacie niektóre startupy mogą zdecydować się opuścić Europę lub unikać działalności tam. Duże firmy, które mogą pozwolić sobie na inwestycje niezbędne do spełnienia wymogów zgodności, mogą się dostosować. Jednak Akt może wypchnąć innowacje AI z Europy na rzecz rynków, takich jak USA lub Izrael, gdzie przepisy są mniej restrykcyjne.
Decyzja USA o zainwestowaniu dużych środków w rozwój AI z mniejszymi ograniczeniami może również mieć wady, ale również zaprosi więcej różnorodności na rynek. Podczas gdy Unia Europejska koncentruje się na bezpieczeństwie i zgodności regulacyjnej, USA prawdopodobnie będą wspierać więcej ryzyka i eksperymentów na granicy możliwości.













