stub Hvordan bias vil dræbe din AI/ML-strategi, og hvad du skal gøre ved det - Unite.AI
Følg os

Tanke ledere

Hvordan bias vil dræbe din AI/ML-strategi, og hvad du skal gøre ved det

mm

Udgivet

 on

'Bias' i modeller af enhver type beskriver en situation, hvor modellen reagerer unøjagtigt på prompter eller inputdata, fordi den ikke er blevet trænet med nok højkvalitets, forskelligartede data til at give et præcist svar. Et eksempel ville være Apples telefonoplåsningsfunktion til ansigtsgenkendelse, som fejlede i en markant højere hastighed for mennesker med mørkere hudfarve i modsætning til lysere toner. Modellen var ikke blevet trænet i nok billeder af mørkere i huden. Dette var et relativt lavrisikoeksempel på bias, men det er præcis grunden til, at EU AI-loven har stillet krav til at bevise modellens effektivitet (og kontroller), før de går på markedet. Modeller med resultater, der påvirker forretningsmæssige, økonomiske, helbredsmæssige eller personlige situationer, skal have tillid til, ellers vil de ikke blive brugt.

Håndtering af bias med data

Store mængder højkvalitetsdata

Blandt mange vigtige datahåndteringspraksisser er en nøglekomponenten til at overvinde og minimere bias i AI/ML-modeller er at erhverve store mængder af højkvalitets, forskelligartede data. Dette kræver samarbejde med flere organisationer, der har sådanne data. Traditionelt er dataindsamling og -samarbejde udfordret af bekymringer om privatliv og/eller IP-beskyttelse – følsomme data kan ikke sendes til modelejeren, og modelejeren kan ikke risikere at lække deres IP til en dataejer. En almindelig løsning er at arbejde med falske eller syntetiske data, hvilket kan være nyttigt, men som også har begrænsninger i forhold til at bruge reelle data i fuld kontekst. Det er her, privatlivsfremmende teknologier (PET'er) giver tiltrængte svar.

Syntetiske data: Tæt på, men ikke helt

Syntetiske data er kunstigt genereret for at efterligne rigtige data. Dette er svært at gøre, men bliver lidt nemmere med AI-værktøjer. Syntetiske data af god kvalitet bør have samme funktionsafstande som rigtige data, ellers vil de ikke være nyttige. Syntetiske kvalitetsdata kan bruges til effektivt at booste mangfoldigheden af ​​træningsdata ved at udfylde huller for mindre, marginaliserede populationer eller for populationer, som AI-udbyderen simpelthen ikke har nok data. Syntetiske data kan også bruges til at adressere kantsager, der kan være svære at finde i tilstrækkelige mængder i den virkelige verden. Derudover kan organisationer generere et syntetisk datasæt for at tilfredsstille krav til dataophold og privatliv, der blokerer adgangen til de rigtige data. Det lyder godt; dog er syntetiske data kun en brik i puslespillet, ikke løsningen.

En af de åbenlyse begrænsninger ved syntetiske data er afbrydelsen fra den virkelige verden. For eksempel vil autonome køretøjer, der udelukkende er trænet på syntetiske data, kæmpe med reelle, uforudsete vejforhold. Derudover arver syntetiske data bias fra de virkelige data, der bruges til at generere dem - stort set modvirker formålet med vores diskussion. Som konklusion er syntetiske data en nyttig mulighed for finjustering og adressering af edge-tilfælde, men væsentlige forbedringer i modeleffektivitet og minimering af bias afhænger stadig af adgang til data fra den virkelige verden.

En bedre måde: rigtige data via PET-aktiverede arbejdsgange

PET'er beskytter data, mens de er i brug. Når det kommer til AI/ML-modeller, kan de også beskytte IP-adressen for den model, der køres – "to fluer, et smæk." Løsninger, der bruger PET'er, giver mulighed for at træne modeller på rigtige, følsomme datasæt, som ikke tidligere var tilgængelige på grund af databeskyttelse og sikkerhedsproblemer. Denne oplåsning af datastrømme til rigtige data er den bedste mulighed for at reducere bias. Men hvordan ville det egentlig fungere?

For nu starter de førende muligheder med et fortroligt computermiljø. Derefter en integration med en PET-baseret softwareløsning, der gør den klar til brug ud af boksen, samtidig med at den adresserer de datastyrings- og sikkerhedskrav, der ikke er inkluderet i et standard-trusted execution-miljø (TEE). Med denne løsning er modellerne og dataene alle krypteret, før de sendes til et sikret computermiljø. Miljøet kan hostes hvor som helst, hvilket er vigtigt, når man skal løse visse krav til datalokalisering. Dette betyder, at både modellens IP og sikkerheden for inputdata opretholdes under beregningen - ikke engang udbyderen af ​​det betroede eksekveringsmiljø har adgang til modellerne eller dataene i det. De krypterede resultater sendes derefter tilbage til gennemgang, og logfiler er tilgængelige til gennemgang.

Dette flow låser op for data af den bedste kvalitet, uanset hvor de er, eller hvem der har dem, og skaber en vej til bias-minimering og højeffektive modeller, som vi kan stole på. Dette flow er også, hvad EU AI Act beskrev i deres krav til en AI-regulativ sandkasse.

Facilitering af etisk og juridisk overholdelse

Det er svært at skaffe rigtige data af god kvalitet. Krav til databeskyttelse og lokalisering begrænser øjeblikkeligt de datasæt, som organisationer kan få adgang til. For at innovation og vækst kan finde sted, skal data flyde til dem, der kan trække værdien ud af det.

Artikel 54 i EU AI-loven stiller krav til "højrisiko" modeltyper med hensyn til, hvad der skal bevises, før de kan bringes på markedet. Kort sagt skal teams bruge data fra den virkelige verden inde i en AI Regulatory Sandbox at vise tilstrækkelig modeleffektivitet og overensstemmelse med alle kontrollerne beskrevet i afsnit III, kapitel 2. Kontrollerne omfatter overvågning, gennemsigtighed, forklarlighed, datasikkerhed, databeskyttelse, dataminimering og modelbeskyttelse – tænk på DevSecOps + Data Ops.

Den første udfordring vil være at finde et datasæt fra den virkelige verden til brug – da dette i sagens natur er følsomme data for sådanne modeltyper. Uden tekniske garantier kan mange organisationer tøve med at stole på modeludbyderen med deres data eller vil ikke få lov til det. Derudover er den måde, loven definerer en "AI Regulatory Sandbox" på, en udfordring i sig selv. Nogle af kravene omfatter en garanti for, at dataene fjernes fra systemet, efter at modellen er blevet kørt, samt styringskontrol, håndhævelse og rapportering for at bevise det.

Mange organisationer har forsøgt at bruge out-of-the-box data-renrum (DCR'er) og betroede eksekveringsmiljøer (TEE'er). Men i sig selv kræver disse teknologier betydelig ekspertise og arbejde for at operationalisere og opfylde data- og AI-lovgivningskrav.
DCR'er er enklere at bruge, men endnu ikke nyttige til mere robuste AI/ML-behov. TEE'er er sikrede servere og har stadig brug for en integreret samarbejdsplatform for hurtigt at være nyttige. Dette identificerer imidlertid en mulighed for, at teknologiplatforme, der forbedrer privatlivets fred, kan integreres med TEE'er for at fjerne dette arbejde, hvilket trivialiserer opsætningen og brugen af ​​en AI-regulativ sandkasse og derfor erhvervelse og brug af følsomme data.

Ved at muliggøre brugen af ​​mere forskelligartede og omfattende datasæt på en privatlivsbevarende måde hjælper disse teknologier med at sikre, at AI- og ML-praksis overholder etiske standarder og juridiske krav relateret til databeskyttelse (f.eks. GDPR og EU AI-loven i Europa). Sammenfattende, mens krav ofte bliver mødt med hørbare grynt og suk, guider disse krav os blot til at bygge bedre modeller, som vi kan stole på og stole på til vigtig datadrevet beslutningstagning og samtidig beskytte privatlivets fred for de registrerede, der bruges til modeludvikling og tilpasning.

Adi Hirschtein er VP for produkt hos Dualitetsteknologier. Adi kommer med mere end 20 års erfaring som executive, produktchef og iværksætter, der bygger og driver innovation i teknologivirksomheder primært fokuseret på B2B-startups inden for data og AI. Før Duality fungerede Adi som VP for produkt for Iguazio (MLOps-virksomhed), som blev opkøbt af McKinsey, og før det fungerede han som produktdirektør hos EMC efter et opkøb af en anden startup kaldet Zettapoint (database- og lagringsvirksomhed), hvor han tjente som VP for produkt, der leder produktet fra start til markedspenetration og vækst.