Connect with us

AI:s data-dilemma: Sekretess, reglering och den etiska AI:s framtid

Tankeledare

AI:s data-dilemma: Sekretess, reglering och den etiska AI:s framtid

mm

AI-drivna lösningar antas snabbt i olika branscher, tjänster och produkter varje dag. Deras effektivitet beror dock helt på datans kvalitet som de tränas på – en aspekt som ofta missförstås eller förbises i datamängdsprocessen.

När dataskyddsmyndigheter ökar granskningen av hur AI-teknologier överensstämmer med sekretess- och dataskyddsföreskrifter, står företagen inför ökande tryck för att hämta, annotera och förädla datamängder på ett förenligt och etiskt sätt.

Finns det verkligen en etisk tillvägagångssätt för att bygga AI-datamängder? Vilka är företagens största etiska utmaningar, och hur hanterar de dem? Och hur påverkar de utvecklande rättsliga ramarna tillgängligheten och användningen av träningsdata? Låt oss undersöka dessa frågor.

Datasekretess och AI

Av sin natur kräver AI stora mängder personlig data för att utföra uppgifter. Detta har väckt bekymmer om insamling, lagring och användning av denna information. Många lagar runt om i världen reglerar och begränsar användningen av personlig data, från GDPR och den nyligen införda AI-lagen i Europa till HIPAA i USA, som reglerar tillgång till patientdata inom den medicinska industrin.

Referens för hur strikta dataskyddslagar är runt om i världen / DLA Piper

Till exempel har fjorton amerikanska delstater för närvarande omfattande dataskyddslagar, och sex fler ska träda i kraft 2025 och början av 2026. Den nya administrationen har signalerat en förändring i sin strategi för dataskyddstillsyn på federal nivå. En viktig fokus ligger på AI-reglering, med betoning på att främja innovation snarare än att införa restriktioner. Denna förändring inkluderar upphävande av tidigare exekutiva order om AI och införande av nya direktiv för att vägleda dess utveckling och tillämpning.

Dataskyddslagstiftningen utvecklas i olika länder: i Europa är lagarna strängare, medan de i Asien eller Afrika tenderar att vara mindre stränga.

Personligt identifierbar information (PII) – såsom ansiktsbilder, officiella handlingar som pass eller annan känslig personlig data – är dock vanligtvis begränsad i de flesta länder till viss del. Enligt UN Trade & Development är insamling, användning och delning av personlig information till tredje parter utan meddelande eller samtycke från konsumenterna en stor oro för större delen av världen. 137 av 194 länder har lagar som säkerställer dataskydd och sekretess. Som ett resultat tar de flesta globala företagen omfattande försiktighetsåtgärder för att undvika att använda PII för modellträning, eftersom lagar som de i EU strikt förbjuder sådana metoder, med sällsynta undantag i tungt reglerade nischer som lagföring.

Med tiden blir dataskyddslagarna mer omfattande och globalt tillämpade. Företagen anpassar sina metoder för att undvika rättsliga utmaningar och uppfylla nya rättsliga och etiska krav.

Vilka metoder använder företagen för att få data?

Så, när man studerar dataskyddsfrågor för modellträning, är det viktigt att först förstå var företagen hämtar denna data. Det finns tre huvudsakliga och primära källor till data.

  • Datainsamling

Denna metod möjliggör insamling av data från crowdsourcing-plattformar, mediestock och öppen källkod datamängder.

Det är viktigt att notera att offentliga mediestock är föremål för olika licensavtal. Även en kommersiell användningslicens anger ofta uttryckligen att innehållet inte kan användas för modellträning. Dessa förväntningar skiljer sig åt från plattform till plattform och kräver att företagen bekräftar sin förmåga att använda innehållet på det sätt de behöver.

Även när AI-företag erhåller innehåll lagligt, kan de fortfarande möta vissa problem. Den snabba utvecklingen av AI-modellträning har vida överträffat rättsliga ramverk, vilket innebär att reglerna och föreskrifterna kring AI-träningsdata fortfarande utvecklas. Som ett resultat måste företagen hålla sig informerade om rättsliga utvecklingar och noggrant granska licensavtal innan de använder lagerinnehåll för AI-träning.

  • Data skapande

En av de säkraste metoderna för datamängdsförberedelse innebär att skapa unikt innehåll, såsom att filma människor i kontrollerade miljöer som studior eller utomhuslokaler. Innan de deltar, skriver individer under ett samtyckesformulär för att använda deras PII, som specificerar vilken data som samlas in, hur och var den kommer att användas och vem som kommer att ha tillgång till den. Detta säkerställer fullständig rättslig skydd och ger företagen förtroende för att de inte kommer att möta anspråk på olaglig dataanvändning.

Den största nackdelen med denna metod är dess kostnad, särskilt när data skapas för randfall eller storskaliga projekt. Men stora företag och företag fortsätter att använda denna metod av två skäl. Först säkerställer det fullständig överensstämmelse med alla standarder och rättsliga föreskrifter. För det andra ger det företagen data som är fullständigt anpassade till deras specifika scenarier och behov, vilket garanterar den högsta noggrannheten i modellträning.

  • Generering av syntetisk data

Användning av programvaruverktyg för att skapa bilder, text eller videor baserat på en given scenario. Men syntetisk data har begränsningar: den genereras baserat på fördefinierade parametrar och saknar den naturliga variationen i verklig data.

Denna brist kan negativt påverka AI-modeller. Även om det inte är relevant för alla fall och inte alltid händer, är det fortfarande viktigt att komma ihåg ” modellkollaps ” – en punkt där överdriven tillit till syntetisk data orsakar att modellen försämras, vilket leder till dåliga utdata.

Syntetisk data kan fortfarande vara mycket effektiv för grundläggande uppgifter, såsom att känna igen allmänna mönster, identifiera objekt eller skilja på grundläggande visuella element som ansikten.

Men det är inte det bästa alternativet när ett företag behöver träna en modell från scratch eller hantera sällsynta eller mycket specifika scenarier.

De mest avslöjande situationerna inträffar i in-kabinmiljöer, såsom en förare som är distraherad av ett barn, någon som verkar trött bakom ratten eller till och med fall av vårdslös körning. Dessa datapunkter är inte vanligt förekommande i offentliga datamängder – och borde inte heller vara det – eftersom de involverar riktiga personer i privata miljöer. Eftersom AI-modeller förlitar sig på träningsdata för att generera syntetiska utdata, kämpar de för att representera scenarier de aldrig har mött på ett korrekt sätt.

När syntetisk data misslyckas, blir skapad data – insamlad genom kontrollerade miljöer med riktiga skådespelare – lösningen.

Datamängdsleverantörer som Keymakr placerar kameror i bilar, anställer skådespelare och spelar in handlingar som att ta hand om ett spädbarn, dricka från en flaska eller visa tecken på trötthet. Skådespelarna skriver under kontrakt som uttryckligen samtycker till att använda deras data för AI-träning, vilket säkerställer överensstämmelse med sekretesslagar.

Ansvar i datamängdsprocessen

Varje deltagare i processen, från kunden till annoteringsföretaget, har specifika ansvar som anges i deras avtal. Det första steget är att etablera ett kontrakt, som detaljerar naturen av relationen, inklusive klausuler om sekretess och immateriella rättigheter.

Låt oss överväga det första alternativet för att arbeta med data, nämligen när den skapas från scratch. Immateriella rättigheter anger att all data som leverantören skapar tillhör det anställande företaget, vilket innebär att den skapas på deras vägnar. Detta innebär också att leverantören måste säkerställa att datan samlas in lagligt och korrekt.

Som en datamängdsleverantör säkerställer Keymakr dataöverensstämmelse genom att först kontrollera den jurisdiktion där datan skapas, erhålla korrekt samtycke från alla inblandade individer och garantera att datan kan användas lagligt för AI-träning.

Det är också viktigt att notera att när datan används för AI-modellträning, blir det nästan omöjligt att fastställa vilken specifik data som bidrog till modellen, eftersom AI blandar alltihop. Så, den specifika utmatningen tenderar inte att vara dess utmatning, särskilt när det gäller miljontals bilder.

På grund av dess snabba utveckling etablerar detta område fortfarande tydliga riktlinjer för att fördela ansvar. Detta liknar komplexiteten kring självkörande bilar, där frågor om ansvar – om det är föraren, tillverkaren eller programvaruföretaget – fortfarande kräver tydlig fördelning.

I andra fall, när en annoteringsleverantör tar emot en datamängd för annotering, antas det att kunden har erhållit datan lagligt. Om det finns tydliga tecken på att datan har erhållits olagligt, måste leverantören rapportera det. Men sådana uppenbara fall är extremt sällsynta.

Det är också viktigt att notera att stora företag, företag och varumärken som värdesätter sitt rykte är mycket försiktiga med var de hämtar sin data, även om den inte skapades från scratch utan togs från andra lagliga källor.

Sammanfattningsvis beror varje deltagares ansvar i datamängdsprocessen på avtalet. Du kunde betrakta denna process som en del av en bredare “hållbarhetskedja”, där varje deltagare har en avgörande roll i att upprätthålla rättsliga och etiska standarder.

Vilka missuppfattningar finns om AI-utvecklingens baksida?

En stor missuppfattning om AI-utveckling är att AI-modeller fungerar på samma sätt som sökmotorer, som samlar och aggregerar information för att presentera för användare baserat på inlärda kunskaper. Men AI-modeller, särskilt språkmodeller, fungerar ofta baserat på sannolikhet snarare än äkta förståelse. De förutsäger ord eller termer baserat på statistisk sannolikhet, med mönster som setts i tidigare data. AI “vet” ingenting; det extrapolerar, gissar och justerar sannolikhet.

Dessutom antar många att att träna AI kräver enorma datamängder, men mycket av vad AI behöver känna igen – som hundar, katter eller människor – är redan väl etablerat. Fokus ligger nu på att förbättra noggrannheten och förädla modellerna snarare än att återuppfinna igenkänningsförmåga. Mycket av AI-utvecklingen idag handlar om att stänga de sista små gapen i noggrannhet snarare än att börja från scratch.

Etiska utmaningar och hur EU:s AI-lag och mildring av USA:s regleringar kommer att påverka den globala AI-marknaden

När det gäller att diskutera etik och laglighet kring data, är det också viktigt att tydligt förstå vad som definierar “etisk” AI.

Den största etiska utmaningen som företag står inför idag i AI är att bestämma vad som anses vara oacceptabelt för AI att göra eller läras. Det finns en bred konsensus om att etisk AI bör hjälpa snarare än skada människor och undvika bedrägeri. Men AI-system kan göra fel eller “hallucinera”, vilket utmanar att avgöra om dessa misstag kvalificerar som desinformation eller skada.

AI-etik är en stor debatt med organisationer som UNESCO som deltar – med nyckelprinciper som omgärdar granskning och spårbarhet av utdata.

Rättsliga ramverk kring datatillgång och AI-träning spelar en betydande roll i att forma AI:s etiska landskap. Länder med färre restriktioner för dataanvändning möjliggör mer tillgänglig träningsdata, medan nationer med strängare datalagar begränsar datatillgänglighet för AI-träning.

Till exempel erbjuder Europa, som antog AI-lagen, och USA, som har backat många AI-regleringar, kontrasterande tillvägagångssätt som indikerar den nuvarande globala landskapet.

EU:s AI-lag har en betydande inverkan på företag som verkar i Europa. Den inför en sträng regleringsram, vilket gör det svårt för företag att använda eller utveckla vissa AI-modeller. Företag måste erhålla specifika licenser för att arbeta med vissa teknologier, och i många fall gör reglerna det effektivt för svårt för mindre företag att följa dessa regler.

Som ett resultat kan vissa startups välja att lämna Europa eller undvika att verka där över huvud taget, liknande den inverkan som ses med kryptovalutaregleringar. Stora företag som kan investera i det som krävs för att uppfylla kraven kan anpassa sig. Men lagen kunde driva AI-innovation ut ur Europa till förmån för marknader som USA eller Israel, där regleringar är mindre stränga.

USA:s beslut att investera stora resurser i AI-utveckling med färre restriktioner kan också ha nackdelar men inbjuda till mer mångfald på marknaden. Medan EU fokuserar på säkerhet och regleringsöverensstämmelse kommer USA sannolikt att främja mer risktagande och banbrytande experiment.

Michael Abramov är grundare och VD för Introspector, och bringar över 15+ års erfarenhet av programvaruteknik och datorsyn AI-system till utvecklingen av företagsklassade märkningsverktyg.

Michael började sin karriär som programvarutekniker och R&D-chef, och byggde skalbara datasystem och ledde tvärfunktionella ingenjörsteam. Fram till 2025 har han varit VD för Keymakr, ett företag som erbjuder datamärkningstjänster, där han banade väg för mänskliga-i-loopen-arbetsflöden, avancerade QA-system och skräddarsydda verktyg för att stödja storskaliga datorsyn och autonomidatatabehov.

Han har en B.Sc. i datavetenskap och en bakgrund inom teknik och konstnärliga ämnen, vilket ger honom en tvärvetenskaplig synvinkel på att lösa svåra problem. Michael verkar i skärningspunkten mellan teknisk innovation, strategisk produktledning och verklig påverkan, och driver framåt den nästa fronten för autonoma system och intelligent automation.