Tankeledere
AI sin datadilemma: Personvern, regulering og fremtiden for etisk AI

AI-drevne løsninger blir raskt tatt i bruk over diverse industrier, tjenester og produkter hver dag. Men deres effektivitet avhenger helt av kvaliteten på dataene de er trent på – et aspekt som ofte misforstås eller oversees i prosessen med å lage datasett.
Ettersom myndighetene for datavern øker sin skarpehet på hvordan AI-teknologier stemmer overens med personvern og datavernregler, står selskapene overfor økende press for å innhente, annotere og forbedre datasett på en måte som er i samsvar med loven og etisk.
Er det virkelig en etisk måte å bygge AI-datasett på? Hva er selskapenes største etiske utfordringer, og hvordan håndterer de dem? Og hvordan påvirker de utviklende lovsammenhengene tilgjengeligheten og bruken av treningsdata? La oss utforske disse spørsmålene.
Personvern og AI
Av sin natur krever AI mye personlig data for å utføre oppgaver. Dette har ført til bekymringer om innhenting, lagring og bruk av denne informasjonen. Mange lover rundt om i verden regulerer og begrenser bruken av personlig data, fra GDPR og den nylig innførte AI-loven i Europa til HIPAA i USA, som regulerer tilgang til pasientdata i medisinske industrien.
Referanse for hvor strenge datavernlovenes er rundt om i verden / DLA Piper
For eksempel har fjorten amerikanske stater i dag omfattende datavernlover, og seks flere skal tre i kraft i 2025 og tidlig 2026. Den nye administrasjonen har signalisert en endring i sin tilnærming til datavernen på føderalt nivå. En viktig fokus er AI-regulering, med vekt på å fremme innovasjon i stedet for å pålegge begrensninger. Denne endringen inkluderer å oppheve tidligere direktiver om AI og innføre nye direktiver for å veilede utviklingen og anvendelsen.
Datavernlovgivningen utvikler seg i ulike land: i Europa er lovene strengere, mens de i Asia eller Afrika tendrer til å være mindre strenge.
Men personlig identifiserbar informasjon (PII) — som ansiktsbilder, offisielle dokumenter som pass eller andre sensitive personlige data — er vanligvis begrenset i de fleste land til en viss grad. Ifølge FN sitt handels- og utviklingsorgan er innhenting, bruk og deling av personlig informasjon til tredjeparter uten varsel eller samtykke fra forbrukerne en stor bekymring for de fleste land. 137 av 194 land har lover som sikrer datavern og personvern. Som følge av dette tar de fleste globale selskaper omfattende forholdsregler for å unngå å bruke PII til modelltrening, ettersom lover som de i EU strengt forbryter slike praksiser, med sjeldne unntak i tungt regulerte nischer som loven.
Over tid blir datavernlovgivningen mer omfattende og globalt gjennomført. Selskapene tilpasser sine praksiser for å unngå juridiske utfordringer og møte nye juridiske og etiske krav.
Hvilke metoder bruker selskapene for å få tak i data?
Så, når vi studerer datavernproblemer for modelltrening, er det essensielt å forstå hvor selskapene henter disse dataene. Det finnes tre hovedkilder for data.
- Datainnsamling
Denne metoden muliggjør innhenting av data fra crowdsourcing-plattformer, mediestokk og åpne datasett.
Det er viktig å merke seg at offentlige mediestokk er underlagt ulike lisensavtaler. Selv en kommersiell lisens kan ofte uttrykkelig angi at innhold ikke kan brukes til modelltrening. Disse forventningene varierer plattform for plattform og krever at bedriftene bekrefter sin evne til å bruke innhold på måter de trenger.
Selv om AI-selskapene får tak i innhold lovlig, kan de likevel møte noen problemer. Den raske utviklingen av AI-modelltrening har langt forbi lovsammenhengene, noe som betyr at reglene og lovene omkring AI-treningsdata fortsatt utvikler seg. Derfor må selskapene holde seg informert om lovgivningsutviklingen og nøye gjennomgå lisensavtaler før de bruker mediestokk til AI-trening.
- Dataopprettelse
En av de tryggeste datasettforberedelsesmetodene innebærer å opprette unikt innhold, som å filme mennesker i kontrollerte miljøer som studioer eller utendørslokasjoner. Før de deltar, signerer personene en samtykkeskjema for å bruke deres PII, som spesifiserer hva slags data som samles inn, hvordan og hvor den skal brukes, og hvem som har tilgang til den. Dette sikrer full lovmessig beskyttelse og gir selskapene tillit til at de ikke vil møte krav om ulovlig databruk.
Hovedulemper ved denne metoden er kostnaden, spesielt når data opprettes for randtilfeller eller store prosjekter. Men store selskaper og bedrifter bruker stadig denne metoden for minst to grunner. Først sikrer den full samsvar med alle standarder og lovsammenhengene. Andre gir den selskapene data som er fullstendig tilpasset deres spesifikke scenarioer og behov, og garanterer dermed den høyeste nøyaktigheten i modelltrening.
- Generering av syntetisk data
Bruke programværktøy til å lage bilder, tekst eller videoer basert på et gitt scenario. Men syntetisk data har begrensninger: den genereres basert på forhåndsdefinerte parametre og mangler den naturlige variasjonen i ekte data.
Denne mangelen kan negativt påvirke AI-modellene. Selv om det ikke er relevant for alle tilfeller og ikke alltid skjer, er det likevel viktig å huske på “modellkollaps” — et punkt der for stor avhengighet av syntetisk data får modellen til å forverre, noe som fører til dårlige utdata.
Syntetisk data kan likevel være svært effektivt for grunnleggende oppgaver, som å gjenkjenne generelle mønster, identifisere objekter eller skille fundamentale visuelle elementer som ansikter.
Men det er ikke det beste valget når et selskap trenger å trene en modell helt fra scratch eller håndtere sjeldne eller svært spesifikke scenarioer.
De mest avslørende situasjonene oppstår i innkabinsmiljøer, som en sjåfør som er distraherende av et barn, noen som ser ut til å være trøtt bak rattet eller til og med eksempler på uansvarlig kjøring. Disse datapunktene er ikke vanlig tilgjengelige i offentlige datasett — og bør heller ikke være det — ettersom de involverer ekte personer i private settinger. Ettersom AI-modellene avhenger av treningsdata for å generere syntetiske utdata, sliter de med å representere scenarioer de aldri har møtt nøyaktig.
Når syntetisk data svikter, blir opprettet data — samlet inn gjennom kontrollerte miljøer med ekte skuespillere — løsningen.
Dataselskaper som Keymakr plasserer kameraer i biler, hyrer skuespillere og recorder handlinger som å ta vare på et barn, drikke fra en flaske eller vise tegn på trøtthet. Skuespillerne signerer kontrakter som uttrykkelig samtykker til å bruke deres data til AI-trening, og sikrer dermed samsvar med personvernlovene.
Ansvar i prosessen med å lage datasett
Hver deltager i prosessen, fra klienten til annoteringsselskapet, har bestemte ansvar som er spesifisert i deres avtale. Første skritt er å etablere en kontrakt, som detaljerer naturen til forholdet, inkludert klausuler om ikke-avsløring og immaterielle rettigheter.
La oss vurdere den første muligheten for å arbeide med data, nemlig når det opprettes fra scratch. Immaterielle rettigheter sier at alle data som leverandøren oppretter tilhører selskapet som hyrer, noe som betyr at det opprettes på deres vegne. Dette betyr også at leverandøren må sikre at dataene hentes inn på en lovmessig måte og at de kan brukes lovmessig til AI-trening.
Som et dataselskap sikrer Keymakr datavernkompensasjon ved å først sjekke jurisdiksjonen hvor dataene opprettes, å få samtykke fra alle involverte personer og å garantere at dataene kan brukes lovmessig til AI-trening.
Det er også viktig å merke seg at når dataene brukes til AI-modelltrening, blir det nær umulig å bestemme hvilke spesifikke data som bidro til modellen, fordi AI blandes sammen. Så, det spesifikke utgangspunktet tenderer ikke til å være dets utgangspunkt, spesielt når det gjelder millioner av bilder.
På grunn av sin raske utvikling, etablerer dette området fortsatt klare retningslinjer for å distribuere ansvar. Dette ligner kompleksitetene rundt selvkjørende biler, hvor spørsmål om ansvar — om det er sjåføren, produsenten eller programvareselskapet — fortsatt krever en klar distribusjon.
I andre tilfeller, når en annoteringsleverandør mottar et datasett for annotering, antar de at klienten har hentet dataene inn på en lovmessig måte. Hvis det er tydelige tegn på at dataene er hentet inn ulovlig, må leverandøren melde det. Men slike åpenbare tilfeller er ekstremt sjeldne.
Det er også viktig å merke seg at store selskaper, konserner og merkevarer som setter pris på sin omdømme, er svært forsiktige med hvor de henter dataene fra, selv om de ikke er opprettede fra scratch, men hentet fra andre lovlige kilder.
I sammenfatning avhenger hver deltakers ansvar i dataprosessen av avtalen. Du kunne vurdere denne prosessen som en del av en større “bærekraftskjede”, hvor hver deltager har en kritisk rolle i å opprettholde lovmessige og etiske standarder.
Hva slags misforståelser finnes om bakenden av AI-utvikling?
En stor misforståelse om AI-utvikling er at AI-modellene fungerer på samme måte som søkemotorer, som samler og aggregatorer informasjon for å presentere den til brukerne basert på lært kunnskap. Men AI-modellene, spesielt språkmodellene, fungerer ofte basert på sannsynlighet i stedet for ekte forståelse. De forutsier ord eller uttrykk basert på statistisk sannsynlighet, ved å bruke mønster sett i tidligere data. AI “vet” ikke noe; det ekstrapolerer, gjetter og justerer sannsynligheter.
Fortsatt antar mange at trening av AI krever enorme datasett, men mye av det AI trenger for å gjenkjenne — som hunder, katter eller mennesker — er allerede godt etablert. Fokuset nå er på å forbedre nøyaktigheten og finjustere modellene i stedet for å gjenskape gjenkjennelseskapasiteten. Mye av AI-utviklingen i dag handler om å lukke de siste små gapene i nøyaktighet i stedet for å starte fra scratch.
Etiske utfordringer og hvordan den europeiske unions AI-akt og mildring av US-reguleringer vil påvirke den globale AI-markedet
Når vi diskuterer etikken og lovligheten av å arbeide med data, er det også viktig å forstå hva som definerer “etisk” AI.
Den største etiske utfordringen selskapene står overfor i dag i AI, er å bestemme hva som anses som uakseptabelt for AI å gjøre eller bli lært. Det er en bred enighet om at etisk AI bør hjelpe i stedet for å skade mennesker og unngå bedrag. Men AI-systemer kan gjøre feil eller “hallusinere”, noe som utfordrer å bestemme om disse feilene kvalifiserer som desinformasjon eller skade.
AI-etikk er en stor debatt med organisasjoner som UNESCO som er involvert — med nøkkelprinsipper omkring gjennomførbarhet og sporing av utdata.
Lovsammenhengene omkring datatilgang og AI-trening spiller en betydelig rolle i å forme AI-ets etiske landskap. Land med færre begrensninger på databruk muliggjør mer tilgjengelig treningsdata, mens nasjoner med strengere datalover begrenser datatilgjengeligheten for AI-trening.
For eksempel tilbyr Europa, som har innført AI-loven, og USA, som har trukket tilbake mange AI-reguleringer, kontrasterende tilnærminger som indikerer det nåværende globale landskapet.
Den europeiske unions AI-akt har en betydelig innvirkning på selskaper som opererer i Europa. Den pålegger en streng regulativ ramme, som gjør det vanskelig for bedrifter å bruke eller utvikle visse AI-modeller. Selskaper må få spesifikke lisenser for å arbeide med visse teknologier, og i mange tilfeller gjør reguleringene det vanskelig for små bedrifter å møte disse reglene.
Som følge av dette kan noen startup-selskaper velge å forlate Europa eller unngå å operere der helt. Likeledes kan større selskaper som kan investere i å møte kravene til reguleringene, tilpasse seg. Men loven kan drive AI-innovasjon ut av Europa til fordel for marked som USA eller Israel, hvor reguleringene er mindre strenge.
USAs beslutning om å investere betydelige ressurser i AI-utvikling med færre begrensninger, kan også ha ulemper, men inviterer til mer mangfold i markedet. Mens den europeiske union fokuserer på sikkerhet og regulativ samsvar, vil USA sannsynligvis fremme mer risikotaking og banebrytende eksperimentering.













