Vođe misli
Podatkovna dilema umjetne inteligencije: Privatnost, regulacija i budućnost etičke umjetne inteligencije

Rješenja vođena umjetnom inteligencijom svakodnevno se ubrzano usvajaju u različitim industrijama, uslugama i proizvodima. Međutim, njihova učinkovitost u potpunosti ovisi o kvaliteti podataka o kojima se obučavaju – aspektu koji se često pogrešno shvaća ili zanemaruje u procesu stvaranja skupa podataka.
Dok tijela za zaštitu podataka pojačavaju nadzor nad načinom na koji su AI tehnologije usklađene s propisima o privatnosti i zaštiti podataka, tvrtke se suočavaju sa sve većim pritiskom da izvore, komentiraju i pročišćavaju skupove podataka na usklađene i etičke načine.
Postoji li doista etički pristup izgradnji skupova podataka o umjetnoj inteligenciji? Koji su najveći etički izazovi tvrtki i kako ih rješavaju? I kako razvoj pravnih okvira utječe na dostupnost i korištenje podataka za obuku? Istražimo ta pitanja.
Privatnost podataka i AI
Po svojoj prirodi, AI zahtijeva mnogo osobni podaci za izvršavanje zadataka. To je izazvalo zabrinutost oko prikupljanja, spremanja i korištenja ovih informacija. Mnogi zakoni diljem svijeta reguliraju i ograničavaju korištenje osobnih podataka, od GDPR-a i novouvedenog AI Act-a u Europi do HIPAA-e u SAD-u, koji regulira pristup podacima o pacijentima u medicinskoj industriji.
Referenca o tome koliko su strogi zakoni o zaštiti podataka diljem svijeta / DLA Piper
Na primjer, četrnaest američkih saveznih država trenutno ima sveobuhvatne zakone o privatnosti podataka, a još šest treba da stupi na snagu 2025. i početkom 2026. Nova administracija signalizirala je promjenu u svom pristupu provedbi privatnosti podataka na federalnoj razini. Ključni fokus je regulacija umjetne inteligencije, s naglaskom na poticanje inovacija umjesto nametanja ograničenja. Ovaj smjena uključuje ukidanje prethodnih izvršnih naredbi o umjetnoj inteligenciji i uvođenje novih direktiva za usmjeravanje njezina razvoja i primjene.
Zakonodavstvo o zaštiti podataka razvija se u raznim zemljama: u Europi su zakoni stroži, dok su u Aziji ili Africi manje strogi.
Međutim, osobni podaci (PII) — kao što su slike lica, službeni dokumenti poput putovnica ili bilo koji drugi osjetljivi osobni podaci — općenito su ograničeni u većini zemalja u određenoj mjeri. Prema UN Trade & Development, prikupljanje, korištenje i dijeljenje osobnih podataka trećim stranama bez obavijesti ili pristanka potrošača glavna je briga za većinu svijeta. 137 od 194 zemalja imaju propise koji osiguravaju zaštitu podataka i privatnost. Kao rezultat toga, većina globalnih tvrtki poduzima opsežne mjere opreza kako bi izbjegla korištenje PII-a za obuku modela budući da propisi poput onih u EU strogo zabranjuju takve prakse, uz rijetke iznimke koje se mogu naći u strogo reguliranim nišama kao što je provedba zakona.
S vremenom zakoni o zaštiti podataka postaju sveobuhvatniji i globalno se provode. Tvrtke prilagođavaju svoje prakse kako bi izbjegle pravne izazove i ispunile nove pravne i etičke zahtjeve.
Koje metode tvrtke koriste za dobivanje podataka?
Dakle, kada proučavate pitanja zaštite podataka za modele obuke, bitno je prvo razumjeti gdje tvrtke dobivaju te podatke. Postoje tri glavna i primarna izvora podataka.
- Prikupljanje podataka
Ova metoda omogućuje prikupljanje podataka s crowdsourcing platformi, medijskih dionica i skupova podataka otvorenog koda.
Važno je napomenuti da javni mediji podliježu različitim ugovorima o licenciranju. Čak i licenca za komercijalnu uporabu često izričito navodi da se sadržaj ne može koristiti za obuku modela. Ta se očekivanja razlikuju od platforme do platforme i zahtijevaju od tvrtki da potvrde svoju sposobnost korištenja sadržaja na način koji im je potreban.
Čak i kada AI tvrtke dobiju sadržaj legalno, i dalje se mogu suočiti s nekim problemima. Brzi napredak obuke modela umjetne inteligencije daleko je nadmašio zakonske okvire, što znači da se pravila i propisi koji okružuju podatke o obuci AI još uvijek razvijaju. Kao rezultat toga, tvrtke moraju biti informirane o pravnom razvoju i pažljivo pregledati ugovore o licenciranju prije korištenja sadržaja dionica za obuku AI-ja.
- Stvaranje podataka
Jedna od najsigurnijih metoda pripreme skupa podataka uključuje stvaranje jedinstvenog sadržaja, kao što je snimanje ljudi u kontroliranim okruženjima poput studija ili lokacija na otvorenom. Prije sudjelovanja, pojedinci potpisuju obrazac pristanka za korištenje svojih podataka koji otkrivaju identitet, navodeći koji se podaci prikupljaju, kako i gdje će se koristiti i tko će im imati pristup. To osigurava potpunu pravnu zaštitu i daje tvrtkama povjerenje da se neće suočiti s tužbama za nezakonitu upotrebu podataka.
Glavni nedostatak ove metode je njezina cijena, osobito kada se podaci stvaraju za rubne slučajeve ili velike projekte. Međutim, velike tvrtke i poduzeća sve više nastavljaju koristiti ovaj pristup iz najmanje dva razloga. Prvo, osigurava potpunu usklađenost sa svim standardima i zakonskim propisima. Drugo, tvrtkama pruža podatke potpuno prilagođene njihovim specifičnim scenarijima i potrebama, jamčeći najveću točnost u obuci modela.
- Generiranje sintetičkih podataka
Korištenje softverskih alata za stvaranje slika, teksta ili videa na temelju zadanog scenarija. Međutim, sintetički podaci imaju ograničenja: generiraju se na temelju unaprijed definiranih parametara i nedostaje im prirodna varijabilnost stvarnih podataka.
Ovaj nedostatak može negativno utjecati na AI modele. Iako nije relevantan za sve slučajeve i ne događa se uvijek, ipak je važno zapamtiti „kolaps modela” — točka u kojoj pretjerano oslanjanje na sintetičke podatke uzrokuje degradaciju modela, što dovodi do rezultata loše kvalitete.
Sintetički podaci i dalje mogu biti vrlo učinkoviti za osnovne zadatke, kao što je prepoznavanje općih obrazaca, identificiranje objekata ili razlikovanje osnovnih vizualnih elemenata poput lica.
Međutim, to nije najbolja opcija kada tvrtka treba u potpunosti trenirati model od nule ili se baviti rijetkim ili vrlo specifičnim scenarijima.
Situacije koje najviše razotkrivaju događaju se u okruženju u kabini, kao što je vozaču ometeno dijete, netko izgleda umoran za volanom ili čak slučajevi nesmotrene vožnje. Ove podatkovne točke nisu uobičajeno dostupne u javnim skupovima podataka – niti bi trebale biti – budući da uključuju stvarne pojedince u privatnim okruženjima. Budući da se modeli umjetne inteligencije oslanjaju na podatke o obuci za generiranje sintetičkih izlaza, bore se s točnim predstavljanjem scenarija s kojima se nikad nisu susreli.
Kada sintetički podaci zakažu, stvoreni podaci — prikupljeni kroz kontrolirana okruženja sa stvarnim akterima — postaju rješenje.
Pružatelji podatkovnih rješenja poput Keymakr postavite kamere u automobile, angažirajte glumce i snimajte radnje poput brige o bebi, pijenja iz bočice ili pokazivanja znakova umora. Glumci potpisuju ugovore kojima izričito pristaju na korištenje svojih podataka za obuku AI, osiguravajući usklađenost sa zakonima o privatnosti.
Odgovornosti u procesu stvaranja skupa podataka
Svaki sudionik u procesu, od klijenta do tvrtke za označavanje, ima specifične odgovornosti navedene u njihovom ugovoru. Prvi korak je sklapanje ugovora koji detaljno opisuje prirodu odnosa, uključujući klauzule o tajnosti i intelektualnom vlasništvu.
Razmotrimo prvu opciju za rad s podacima, naime kada se stvaraju od nule. Prava intelektualnog vlasništva navode da svi podaci koje pružatelj stvori pripadaju tvrtki koja zapošljava, što znači da su stvoreni u njihovo ime. To također znači da pružatelj usluga mora osigurati da su podaci dobiveni zakonito i ispravno.
Kao tvrtka za podatkovna rješenja, Keymakr osigurava usklađenost podataka tako što prvo provjerava jurisdikciju u kojoj se podaci stvaraju, dobiva odgovarajući pristanak od svih uključenih pojedinaca i jamči da se podaci mogu legalno koristiti za obuku AI.
Također je važno napomenuti da nakon što se podaci iskoriste za obuku AI modela, postaje gotovo nemoguće odrediti koji su specifični podaci doprinijeli modelu jer AI sve to spaja. Dakle, specifični izlaz obično nije njegov izlaz, posebno kada se govori o milijunima slika.
Zbog brzog razvoja, ovo područje još uvijek uspostavlja jasne smjernice za raspodjelu odgovornosti. To je slično složenosti oko autonomnih automobila, gdje pitanja o odgovornosti - bilo da se radi o vozaču, proizvođaču ili softverskoj tvrtki - još uvijek zahtijevaju jasnu raspodjelu.
U drugim slučajevima, kada pružatelj zabilješki primi skup podataka za zabilješku, on pretpostavlja da je klijent legalno dobio podatke. Ako postoje jasni znakovi da su podaci dobiveni nezakonito, davatelj je to dužan prijaviti. Međutim, takvi prividni slučajevi izuzetno su rijetki.
Također je važno napomenuti da velike tvrtke, korporacije i robne marke koje cijene svoju reputaciju vrlo paze na izvor svojih podataka, čak i ako nisu stvoreni od nule, već preuzeti iz drugih legalnih izvora.
Ukratko, odgovornost svakog sudionika u procesu rada s podacima ovisi o sporazumu. Ovaj proces možete smatrati dijelom šireg „lanca održivosti“, gdje svaki sudionik ima ključnu ulogu u održavanju pravnih i etičkih standarda.
Koje zablude postoje o pozadini razvoja umjetne inteligencije?
Velika zabluda o razvoju umjetne inteligencije jest da modeli umjetne inteligencije rade slično tražilicama, prikupljajući i agregirajući informacije koje se prikazuju korisnicima na temelju naučenog znanja. Međutim, modeli umjetne inteligencije, posebno jezični modeli, često funkcioniraju na temelju vjerojatnosti, a ne na istinskom razumijevanju. Oni predviđaju riječi ili izraze na temelju statističke vjerojatnosti, koristeći obrasce viđene u prethodnim podacima. AI ne "zna" ništa; ekstrapolira, pogađa i prilagođava vjerojatnosti.
Nadalje, mnogi pretpostavljaju da obuka umjetne inteligencije zahtijeva ogromne skupove podataka, ali mnogo toga što umjetna inteligencija treba prepoznati - poput pasa, mačaka ili ljudi - već je dobro uspostavljeno. Sada je fokus na poboljšanju točnosti i usavršavanju modela, a ne na ponovnom pronalasku mogućnosti prepoznavanja. Velik dio današnjeg razvoja umjetne inteligencije vrti se oko zatvaranja posljednjih malih nedostataka u točnosti, a ne pokretanja od nule.
Etički izazovi i kako će Zakon Europske unije o umjetnoj inteligenciji i ublažavanje američkih propisa utjecati na globalno tržište umjetne inteligencije
Kada se raspravlja o etici i zakonitosti rada s podacima, također je važno jasno razumjeti što definira "etičku" AI.
Najveći etički izazov s kojim se današnje tvrtke suočavaju u području umjetne inteligencije je određivanje onoga što se smatra neprihvatljivim za AI da radi ili da se podučava. Postoji široki konsenzus da bi etička umjetna inteligencija trebala pomoći, a ne štetiti ljudima i izbjegavati prijevaru. Međutim, sustavi umjetne inteligencije mogu pogriješiti ili "halucinirati", što predstavlja izazov za određivanje hoće li se te pogreške kvalificirati kao dezinformacija ili šteta.
Etika umjetne inteligencije velika je rasprava u koju su uključene organizacije poput UNESCO-a – s ključnim načelima koja je okružuju mogućnost revizije i sljedivosti izlaza.
Pravni okviri koji se odnose na pristup podacima i obuku za umjetnu inteligenciju igraju značajnu ulogu u oblikovanju etičkog krajolika umjetne inteligencije. Zemlje s manje ograničenja u korištenju podataka omogućuju pristupačnije podatke za obuku, dok zemlje sa strožim zakonima o podacima ograničavaju dostupnost podataka za obuku za umjetnu inteligenciju.
Na primjer, Europa, koja je usvojila Zakon o umjetnoj inteligenciji, i SAD, koji je poništio mnoge propise o umjetnoj inteligenciji, nude suprotne pristupe koji ukazuju na trenutno globalno okruženje.
Zakon Europske unije o umjetnoj inteligenciji značajno utječe na tvrtke koje posluju u Europi. Provodi strog regulatorni okvir, što otežava tvrtkama korištenje ili razvoj određenih modela umjetne inteligencije. Tvrtke moraju dobiti posebne licence za rad s određenim tehnologijama, au mnogim slučajevima propisi zapravo otežavaju manjim tvrtkama pridržavanje tih pravila.
Kao rezultat toga, neki startupi mogu odlučiti napustiti Europu ili u potpunosti izbjeći rad tamo, slično učinku koji se vidi s propisima o kriptovalutama. Veće tvrtke koje si mogu priuštiti ulaganja potrebna za ispunjavanje zahtjeva usklađenosti mogu se prilagoditi. Ipak, Zakon bi mogao izbaciti inovacije umjetne inteligencije iz Europe u korist tržišta poput SAD-a ili Izraela, gdje su propisi manje strogi.
Odluka SAD-a da uloži značajna sredstva u razvoj umjetne inteligencije s manje ograničenja mogla bi imati i nedostatke, ali bi mogla poticati veću raznolikost na tržištu. Dok se Europska unija usredotočuje na sigurnost i usklađenost s propisima, SAD će vjerojatno poticati više preuzimanja rizika i najsuvremenije eksperimentiranje.