Tankeledere

AI’s Data Dilemma: Privatliv, Regulering og Fremtiden for Etisk AI

mm

AI-drevne løsninger bliver hurtigt adopteret på tværs af diverse industrier, tjenester og produkter hver dag. Men deres effektivitet afhænger helt af kvaliteten af de data, de er trænet på – et aspekt, der ofte misforstås eller overses i datasset-oprettelsesprocessen.

Som datatilsynsmyndigheder øger deres opmærksomhed på, hvordan AI-teknologier er i overensstemmelse med privatlivs- og dataværnsregler, står virksomheder over for øget pres for at indsamle, annotere og raffinere datasæt på en måde, der er i overensstemmelse med loven og etisk.

Er der virkelig en etisk tilgang til opbygning af AI-datasæt? Hvad er virksomheders største etiske udfordringer, og hvordan løser de dem? Og hvordan påvirker de udviklende lovgivningsrammer tilgængeligheden og brugen af træningsdata? Lad os udforske disse spørgsmål.

Privatliv og AI

Af sin natur kræver AI store mængder personlige data for at udføre opgaver. Dette har rejst bekymringer om indsamling, opbevaring og brug af disse oplysninger. Mange love verden over regulerer og begrænser brugen af personlige data, fra GDPR og den nyintroducerede AI-lov i Europa til HIPAA i USA, som regulerer adgangen til patientdata i sundhedssektoren.

Reference for, hvor strengt data beskyttelseslove er verden over / DLA Piper

For eksempel har fjorten amerikanske stater i øjeblikket omfattende love om dataværn, og seks flere skal træde i kraft i 2025 og begyndelsen af 2026. Den nye administration har signaleret en ændring i sin tilgang til dataværnslov på det føderale niveau. En vigtig fokus er AI-regulering, med vægt på at fremme innovation i stedet for at pålægge begrænsninger. Denne ændring inkluderer ophævelse af tidligere executive ordrer om AI og indførelse af nye direktiver til at guide udviklingen og anvendelsen.

Lovgivningen om data beskyttelse udvikler sig i forskellige lande: i Europa er lovene strengere, mens de i Asien eller Afrika tendere til at være mindre strenge.

Men personligt identificerbare oplysninger (PII) – såsom ansigtsbilleder, officielle dokumenter som pas eller andre følsomme personlige oplysninger – er generelt begrænsede i de fleste lande til en vis grad. Ifølge FN’s handels- og udviklingskonference er indsamling, brug og videregivelse af personlige oplysninger til tredjeparter uden varsel eller samtykke fra forbrugerne en stor bekymring for størstedelen af verden. 137 af 194 lande har love, der sikrer data beskyttelse og privatliv. Derfor tager de fleste globale virksomheder omfattende foranstaltninger for at undgå at bruge PII til modeltræning, da love som dem i EU strengt forbuder sådanne praksisser, med sjældne undtagelser i strengt regulerede nicheområder som loven.

Over tid bliver love om data beskyttelse mere omfattende og globalt gennemført. Virksomheder tilpasser deres praksis for at undgå juridiske udfordringer og opfylde fremvoksende lovgivnings- og etiske krav.

Hvordan Får Virksomheder Data?

Når vi studerer data beskyttelsesproblemer for modeltræning, er det vigtigt at forstå, hvor virksomheder får disse data fra. Der er tre primære kilder til data.

  • Dataindsamling

Denne metode giver mulighed for at indsamle data fra crowdsourcing-platforme, mediestok og åbne datasæt.

Det er vigtigt at bemærke, at offentlige mediestok er underlagt forskellige licensaftaler. Selv en kommerciel brugslicens angiver ofte udtrykkeligt, at indhold ikke kan bruges til modeltræning. Disse forventninger varierer platform for platform og kræver, at virksomheder bekræfter deres mulighed for at bruge indhold på den måde, de har brug for.

Selv når AI-virksomheder erhverver indhold lovligt, kan de stadig stå over for nogle problemer. Den hurtige udvikling af AI-modeltræning har langt overhalet lovgivningsrammerne, hvilket betyder, at reglerne og lovgivningen omkring AI-træningsdata stadig udvikler sig. Derfor må virksomheder holde sig informerede om lovgivningsudviklinger og nøje gennemgå licensaftaler, før de bruger mediestok til AI-træning.

  • Dataoprettelse

En af de sikreste metoder til datasætoprettelse indebærer at oprette unikt indhold, såsom at filme mennesker i kontrollerede miljøer som studier eller udendørslokationer. Før deltagelse underskriver personer en samtykkeerklæring om at bruge deres PII, hvori det specificeres, hvilke data der indsamles, hvordan og hvor de vil blive brugt, og hvem der vil have adgang til dem. Dette sikrer fuld lovgivningsmæssig beskyttelse og giver virksomhederne tillid til, at de ikke vil stå over for krav om ulovlig dataanvendelse.

Den primære ulempe ved denne metode er omkostningerne, især når data oprettes til randtilfælde eller store projekter. Men store virksomheder og virksomheder er mere og mere begyndt at bruge denne tilgang, fordi den sikrer overensstemmelse med alle standarder og lovgivningskrav. For det andet giver den virksomhederne data, der er fuldstændigt tilpasset deres specifikke scenarier og behov, og garanterer dermed den højeste nøjagtighed i modeltræning.

  • Generering af syntetisk data

Brug af softwareværktøjer til at oprette billeder, tekst eller videoer baseret på en given scenarie. Men syntetisk data har begrænsninger: den genereres baseret på foruddefinerede parametre og mangler den naturlige variation af rigtige data.

Denne mangel kan have en negativ indvirkning på AI-modeller. Selv om det ikke er relevant for alle tilfælde, og det ikke altid sker, er det stadig vigtigt at huske ” modelkollaps ” – et punkt, hvor overdrivende afhængighed af syntetisk data får modellen til at degradere, hvilket fører til dårlige udgangspunkter.

Syntetisk data kan stadig være meget effektiv til grundlæggende opgaver, såsom at genkende generelle mønstre, identificere objekter eller skelne fundamentale visuelle elementer som ansigter.

Men det er ikke den bedste mulighed, når en virksomhed har brug for at træne en model helt fra scratch eller beskæftige sig med sjældne eller meget specifikke scenarier.

De mest åbenlyse situationer opstår i kabine-miljøer, såsom en chauffør, der er distraheret af et barn, nogen, der ser træt ud bag rattet, eller endda tilfælde af uforsvarlig kørsel. Disse datapunkter er ikke almindeligt tilgængelige i offentlige datasæt – og bør det heller ikke være – da de involverer rigtige personer i private miljøer. Da AI-modeller afhænger af træningsdata for at generere syntetiske udgangspunkter, kæmper de med at repræsentere scenarier, de aldrig har mødt nøjagtigt.

Når syntetisk data fejler, bliver oprettet data – indsamlet gennem kontrollerede miljøer med rigtige skuespillere – løsningen.

Data-løsningsudbydere som Keymakr placerer kameraer i biler, hyrer skuespillere og optager handlinger såsom at tage sig af et barn, drikke fra en flaske eller vise tegn på træthed. Skuespillerne underskriver kontrakter, der udtrykkeligt samtykker til at bruge deres data til AI-træning, hvilket sikrer overensstemmelse med privatlivslove.

Ansvar i datasset-oprettelsesprocessen

Hver deltager i processen, fra kunden til annotationsvirksomheden, har bestemte ansvar, der er specificeret i deres aftale. Det første skridt er at etablere en kontrakt, der detaljerer naturen af forholdet, herunder klausuler om fortrolighed og immaterielle rettigheder.

Lad os overveje den første mulighed for at arbejde med data, nemlig når det oprettes fra scratch. Immaterielle rettigheder fastslår, at alle data, som udbyderen opretter, tilhører den ansættende virksomhed, hvilket betyder, at det oprettes på deres vegne. Dette betyder også, at udbyderen må sikre, at dataene er erhvervet lovligt og korrekt.

Som en data-løsningsvirksomhed sikrer Keymakr data-overensstemmelse ved først at kontrollere den jurisdiktion, hvori data oprettes, at erhverve ordentlig samtykke fra alle involverede personer og at garantere, at data kan bruges lovligt til AI-træning.

Det er også vigtigt at bemærke, at når dataene bruges til AI-modeltræning, bliver det næsten umuligt at bestemme, hvilke specifikke data bidrog til modellen, da AI blandes sammen. Så det specifikke udgangspunkt tenderer ikke til at være dens udgangspunkt, især når vi diskuterer millioner af billeder.

På grund af sin hurtige udvikling etablerer dette område stadig klare retningslinjer for fordeling af ansvar. Dette ligner kompleksiteterne omkring selv kørende biler, hvor spørgsmål om ansvar – om det er chaufføren, producenten eller software-virksomheden – stadig kræver en klar fordeling.

I andre tilfælde, når en annotationsudbyder modtager et datasæt til annotation, antager han, at kunden har erhvervet data lovligt. Hvis der er tydelige tegn på, at data er erhvervet ulovligt, skal udbyderen rapportere det. Men sådanne åbenlyse tilfælde er ekstremt sjældne.

Det er også vigtigt at bemærke, at store virksomheder, koncerner og mærker, der værdsætter deres rygte, er meget omhyggelige med, hvor de får deres data fra, selv om det ikke er oprettet fra scratch, men hentet fra andre lovlige kilder.

I sammenfattende betydning afhænger hver deltagers ansvar i dataarbejdsprocessen af aftalen. Du kunne betragte denne proces som en del af en bredere “bæredygtighedskæde”, hvor hver deltager har en afgørende rolle i at opretholde lovlige og etiske standarder.

Hvilke Misforståelser Findes Om Bagenden af AI-Udvikling?

En stor misforståelse om AI-udvikling er, at AI-modeller fungerer på samme måde som søgemaskiner, der indsamler og aggregere information for at præsentere den for brugerne på baggrund af erhvervet viden. Men AI-modeller, især sprogmodeller, fungerer ofte på baggrund af sandsynligheder snarere end ægte forståelse. De forudser ord eller termer på baggrund af statistisk sandsynlighed, ved hjælp af mønstre set i tidligere data. AI “ved” ikke noget; det extrapolerer, gætter og justerer sandsynligheder.

Desuden antager mange, at træning af AI kræver enorme datasæt, men meget af det, AI har brug for at genkende – som hunde, katte eller mennesker – er allerede velkendt. Fokus ligger nu på at forbedre nøjagtigheden og raffinere modellerne snarere end at genopfinde genkendelsesevner. Meget af AI-udviklingen i dag handler om at lukke de sidste små huller i nøjagtighed snarere end at starte fra scratch.

Etiske Udfordringer og Hvordan Den Europæiske Unions AI-Loi og Formindskning af US-Reguleringer Vil Påvirke Den Globale AI-Marked

Når vi diskuterer etik og lovlighed i forbindelse med arbejde med data, er det også vigtigt at forstå, hvad der definerer “etisk” AI.

Den største etiske udfordring, som virksomheder står over for i dag i forbindelse med AI, er at bestemme, hvad der anses for uacceptabelt for AI at gøre eller blive undervist i. Der er en bred enighed om, at etisk AI skal hjælpe snarere end skade mennesker og undgå bedrag. Men AI-systemer kan begå fejl eller “hallucinere”, hvilket udfordrer bestemmelsen af, om disse fejl kvalificerer sig som desinformation eller skade.

AI-etik er en stor debat med organisationer som UNESCO involveret – med centrale principper om gennemgang og sporing af udgangspunkter.

Lovgivningsrammer omkring dataadgang og AI-træning spiller en betydelig rolle i formningen af AI’s etiske landskab. Lande med færre begrænsninger på dataanvendelse giver mere tilgængelige træningsdata, mens nationer med strengere data love begrænser data tilgængelighed for AI-træning.

For eksempel tilbyder Europa, som har antaget AI-loven, og USA, som har ophævet mange AI-reguleringer, to modsatrettede tilgange, der indikerer det nuværende globale landskab.

Den Europæiske Unions AI-loi har en betydelig indvirkning på virksomheder, der opererer i Europa. Den fastsætter en streng regulativ ramme, der gør det svært for virksomheder at bruge eller udvikle bestemte AI-modeller. Virksomheder må erhverve specifikke licenser for at arbejde med visse teknologier, og i mange tilfælde gør reguleringerne det effektivt for svært for små virksomheder at overholde disse regler.

Som følge heraf kan nogle startups vælge at forlade Europa eller undgå at operere der overhovedet, ligesom det er set med kryptorereguleringer. Større virksomheder, der kan tilgodese den nødvendige investering for at opfylde overensstemmelseskravene, kan tilpasse sig. Men loven kunne drive AI-innovation ud af Europa til fordel for markeder som USA eller Israel, hvor reguleringerne er mindre strenge.

USAs beslutning om at investere betydelige ressourcer i AI-udvikling med færre begrænsninger kan også have ulemper, men invitere til mere diversitet på markedet. Mens Den Europæiske Union fokuserer på sikkerhed og regulativ overensstemmelse, vil USA sandsynligvis fremme mere risikovillig og banebrydende eksperimentering.

Michael Abramov er grundlægger og administrerende direktør for Introspector, og har mere end 15 års erfaring med softwareudvikling og computer vision AI-systemer til opbygning af virksomhedsklasse-værktøjer til mærkning.

Michael startede sin karriere som softwareingeniør og R&D-chef, hvor han opbyggede skalerbare datasystemer og ledte tværfaglige ingeniørhold. Indtil 2025 har han fungeret som administrerende direktør for Keymakr, et selskab, der tilbyder mærkningstjenester, hvor han har banet vejen for menneske-i-løkken-arbejdsprocesser, avancerede QA-systemer og specialtilpasset værktøj til at understøtte store computersyns- og autonomidatamæssige behov.

Han har en bachelorgrad i datalogi og en baggrund i ingeniørvidenskab og kreative kunstneriske fag, hvilket giver ham en tværfaglig indsigt i løsning af komplekse problemer. Michael befinder sig på skæringen af teknologisk innovation, strategisk produktledelse og virkelystisk impact, og driver fremad mod den næste front i autonome systemer og intelligent automation.