stub Hur bias kommer att döda din AI/ML-strategi och vad du ska göra åt det - Unite.AI
Anslut dig till vårt nätverk!

Tanke ledare

Hur bias kommer att döda din AI/ML-strategi och vad du ska göra åt det

mm

publicerade

 on

"Bias" i modeller av vilken typ som helst beskriver en situation där modellen svarar felaktigt på uppmaningar eller indata eftersom den inte har tränats med tillräckligt högkvalitativ, mångsidig data för att ge ett korrekt svar. Ett exempel skulle vara Apples upplåsningsfunktion för ansiktsigenkänning, som misslyckades i en betydligt högre takt för personer med mörkare hy i motsats till ljusare toner. Modellen hade inte tränats på tillräckligt många bilder av mörkhyade människor. Detta var ett relativt lågriskexempel på partiskhet, men det är precis därför EU:s AI-lag har ställt krav för att bevisa modellens effektivitet (och kontroller) innan de går ut på marknaden. Modeller med resultat som påverkar affärsmässiga, ekonomiska, hälsomässiga eller personliga situationer måste lita på, annars kommer de inte att användas.

Ta itu med bias med data

Stora volymer av högkvalitativ data

Bland många viktiga datahanteringsmetoder, en nyckelkomponenten för att övervinna och minimera fördomar i AI/ML-modeller är att skaffa stora volymer av högkvalitativ, varierad data. Detta kräver samarbete med flera organisationer som har sådan data. Traditionellt sett utmanas datainsamling och samarbeten av integritets- och/eller IP-skyddsproblem – känslig data kan inte skickas till modellägaren och modellägaren kan inte riskera att läcka sin IP till en dataägare. En vanlig lösning är att arbeta med låtsasdata eller syntetiska data, vilket kan vara användbart men också ha begränsningar jämfört med att använda verklig fullkontextdata. Det är här integritetshöjande teknologier (PET) ger välbehövliga svar.

Syntetisk data: nära, men inte helt

Syntetiska data genereras artificiellt för att efterlikna verkliga data. Detta är svårt att göra men blir lite lättare med AI-verktyg. Syntetisk data av god kvalitet bör ha samma funktionsavstånd som verklig data, annars är den inte användbar. Syntetisk kvalitetsdata kan användas för att effektivt öka mångfalden av träningsdata genom att fylla i luckor för mindre, marginaliserade populationer eller för populationer som AI-leverantören helt enkelt inte har tillräckligt med data. Syntetisk data kan också användas för att ta itu med kantfall som kan vara svåra att hitta i tillräckliga volymer i den verkliga världen. Dessutom kan organisationer generera en syntetisk datamängd för att tillfredsställa datauppehålls- och integritetskrav som blockerar åtkomst till verklig data. Det här låter bra; Men syntetisk data är bara en pusselbit, inte lösningen.

En av de uppenbara begränsningarna för syntetisk data är att koppla från den verkliga världen. Till exempel kommer autonoma fordon som tränas enbart på syntetisk data att kämpa med verkliga, oförutsedda vägförhållanden. Dessutom ärver syntetiska data fördomar från den verkliga data som används för att generera den – vilket i stort sett motverkar syftet med vår diskussion. Sammanfattningsvis är syntetisk data ett användbart alternativ för att finjustera och adressera edge-fall, men betydande förbättringar i modelleffektivitet och minimering av bias är fortfarande beroende av tillgång till verkliga data.

Ett bättre sätt: riktiga data via PET-aktiverade arbetsflöden

PET:er skyddar data när de används. När det gäller AI/ML-modeller kan de också skydda IP-adressen för modellen som körs – "två flugor, en smäll." Lösningar som använder PET ger möjlighet att träna modeller på riktiga, känsliga datauppsättningar som tidigare inte var tillgängliga på grund av datasekretess och säkerhetsproblem. Denna upplåsning av dataflöden till verklig data är det bästa alternativet för att minska bias. Men hur skulle det egentligen fungera?

För närvarande börjar de ledande alternativen med en konfidentiell datormiljö. Sedan, en integration med en PET-baserad mjukvarulösning som gör den redo att användas ur lådan samtidigt som den tar itu med datastyrning och säkerhetskrav som inte ingår i en standardmiljö för betrodd körning (TEE). Med denna lösning krypteras alla modeller och data innan de skickas till en säker datormiljö. Miljön kan vara värd var som helst, vilket är viktigt när man tar itu med vissa krav på datalokalisering. Detta innebär att både modellens IP och säkerheten för indata upprätthålls under beräkningen – inte ens leverantören av den betrodda exekveringsmiljön har tillgång till modellerna eller data inuti den. De krypterade resultaten skickas sedan tillbaka för granskning och loggar är tillgängliga för granskning.

Detta flöde låser upp data av bästa kvalitet oavsett var den är eller vem som har den, vilket skapar en väg till partisk minimering och högeffektiva modeller som vi kan lita på. Detta flöde är också vad EU AI Act beskrev i sina krav på en AI-reglerande sandlåda.

Underlätta etisk och juridisk efterlevnad

Det är svårt att skaffa riktiga data av god kvalitet. Datasekretess och lokaliseringskrav begränsar omedelbart de datauppsättningar som organisationer kan komma åt. För att innovation och tillväxt ska ske måste data flöda till dem som kan utvinna värdet ur det.

Artikel 54 i EU:s AI-lag ställer krav på ”högrisk” modelltyper vad gäller vad som måste bevisas innan de kan tas ut på marknaden. Kort sagt, team kommer att behöva använda verkliga data i en AI Regulatory Sandbox för att visa tillräcklig modelleffektivitet och överensstämmelse med alla kontroller som beskrivs i avsnitt III, kapitel 2. Kontrollerna inkluderar övervakning, transparens, förklaring, datasäkerhet, dataskydd, dataminimering och modellskydd – tänk på DevSecOps + Data Ops.

Den första utmaningen blir att hitta en datauppsättning från verkligheten att använda – eftersom detta är i sig känslig data för sådana modelltyper. Utan tekniska garantier kan många organisationer tveka att lita på modellleverantören med deras data eller kommer inte att tillåtas att göra det. Dessutom är sättet som lagen definierar en "AI Regulatory Sandbox" en utmaning i sig. Några av kraven inkluderar en garanti för att data tas bort från systemet efter att modellen har körts samt förvaltningskontroller, tillämpning och rapportering för att bevisa det.

Många organisationer har försökt använda out-of-the-box data-renrum (DCR) och betrodda exekveringsmiljöer (TEE). Men på egen hand kräver dessa teknologier betydande expertis och arbete för att operationalisera och möta regulatoriska krav på data och AI.
DCR:er är enklare att använda, men ännu inte användbara för mer robusta AI/ML-behov. TEE är säkrade servrar och behöver fortfarande en integrerad samarbetsplattform för att vara användbar, snabbt. Detta identifierar dock en möjlighet för integritetsförbättrande teknologiplattformar att integreras med TEEs för att ta bort det arbetet, vilket trivialiserar installationen och användningen av en AI-reglerande sandlåda och därför förvärv och användning av känslig data.

Genom att möjliggöra användningen av mer mångsidiga och heltäckande datauppsättningar på ett integritetsbevarande sätt bidrar dessa tekniker till att säkerställa att AI- och ML-praxis följer etiska standarder och juridiska krav relaterade till datasekretess (t.ex. GDPR och EU:s AI-lag i Europa). Sammanfattningsvis, även om krav ofta möts med hörbara grymtningar och suckar, vägleder dessa krav oss helt enkelt att bygga bättre modeller som vi kan lita på och lita på för viktigt datadrivet beslutsfattande samtidigt som vi skyddar integriteten för de registrerade som används för modellutveckling och anpassning.

Adi Hirschtein är VP för produkt på Dualitetsteknologier. Adi har mer än 20 års erfarenhet som verkställande direktör, produktchef och entreprenör som bygger och driver innovation i teknikföretag främst inriktade på B2B-startups inom området data och AI. Innan Duality arbetade Adi som produktchef för Iguazio (MLOps-företag) som förvärvades av McKinsey och innan dess tjänstgjorde han som produktdirektör på EMC efter ett förvärv av en annan startup kallad Zettapoint (databas- och lagringsföretag) där han tjänstgjorde som VP för produkt som leder produkten från start till marknadspenetration och tillväxt.