Connect with us

Når AI’s ‘Viden’ Er 50 År Gammel: Den Overholdelsesrisiko, Du Ikke Kan Ignorere

Tankeledere

Når AI’s ‘Viden’ Er 50 År Gammel: Den Overholdelsesrisiko, Du Ikke Kan Ignorere

mm

Spørgsmålet om fejlagtige AI-indsigter er en presserende udfordring, da virksomheder øger deres brug af generative værktøjer. Trods den bredt udbredte entusiasme omkring AI-adoption er der også en stærk strøm af kritik. Kritiske kommentatorer peger ofte på åbenlyst tilfældige, uforudsigelige uændreligheder i AI’s output, som undergraver dets værdi – og kan endda true med reel skade på mennesker, især i sektorer som sundheds- og transportvæsen, hvor fejlagtige outputs teoretisk set kan føre til alt fra forkert recept til tog på kollisionskurs.

Ofte er disse uændreligheder blevet tilskrevet AI ‘hallucinationer‘ – tilfælde, hvor AI genererer en ‘bedste gæt’ svar, præsenteret med samme tillid som et ‘ægte’ svar, i stedet for at underrette brugeren om en lukket i dens viden eller evne. Hallucinationer kan være svære at spotte på første blik – men der er et mere stille, lige så alvorligt problem, der er endnu sværere at opdage.

Datakvalitetsgæld: AI’s Achillesheel

Når AI-systemer trækker fra forældede, ufuldstændige eller urigtige data, opstår fejlagtige outputs, men er mindre umiddelbart tydelige. For eksempel kan du bede en AI om at identificere symptomerne på en medicinsk tilstand og modtage et svar baseret på en 50 år gammel artikel i stedet for nuværende forskning. Resultatet er sandsynligvis ikke åbenlyst, latterligt forkert – men den oprindelige fernis af plausibilitet udgør en reel risiko for både patienten i spørgsmål og sundhedsudbyderen.

Det samme gælder på tværs af industrier – hvis data, der fødes til AI-modellen, indeholder gamle, forældede eller delvise oplysninger, er der en høj risiko for fejlagtige outputs. Og efterhånden som flere virksomheder integrerer AI i forretningskritiske processer, vokser risikoen for at trække fejlagtige konklusioner fra dårligt styrede data.

Nøjagtighed for regulator

Dette er ikke kun et problem for dag-til-dag-operationer – det er også en betydelig overholdelsesudfordring. Reguleringskravene udvikler sig hurtigt for at imødekomme bekymringer om urigtig AI. For eksempel har en række tidlige reguleringsaktioner på AI fundet sted; bemærkelsesværdigt, da Italien midlertidigt forbød ChatGPT over privatlivsbekymringer, og EU’s Data Protection Board lancerede en dedikeret taskforce til at koordinere potentielle gennemførelses aktioner mod ChatGPT.

En af de mest talende reguleringsændringer har været vedtagelsen af EU’s AI-akt, verdens første omfattende lovgivningsramme for AI. Akten fastlægger forpligtelser baseret på risikoniveauet for AI-systemer, fra ‘uacceptabelt risiko’-systemer, der er forbudt, til ‘højrisiko’-systemer, der står over for stramme krav om gennemsigtighed, datakvalitet, styring og menneskelig oversigt.

Betydningen af EU’s AI-akt ligger ikke i dens ambitiøse omfang, men vigtigt på den præcedens, den sætter. Regulatorer gør det klart, at AI vil være underlagt bindende, gennemførlige regler, og at organisationer må behandle overholdelse og gennemsigtighed omkring, hvor og hvordan AI bruges, som en integreret del af AI-adoption i stedet for en eftertanke.

Akten har et bredt område, med potentialet til at påvirke en stor proportion af AI-udviklinger. I dens kerne ligger det at gøre AI sikker, samtidig med at det respekterer grundlæggende rettigheder og værdier. Inden for denne nye principperne kommer diagnose af potentielle kilder til AI-uændreligheder, herunder data og datasæt, der føder modellerne, model-gennemsigtighed og adgang, og systemdesign og brug. AI-løsninger er en konstruktion af alle tre – problemer med nogen af disse kan have en negativ udgang. Ikke blot det, men data, der indgår i design, modeludvikling, udvikling, drift og drift af AI, er sandsynligvis primært sammensat af forretningsoptegnelser, der selv er underlagt forskellige overholdelseskrav.

Med andre ord bliver den reguleringsmæssige omgang med AI mere og mere streng – og det er lige så sandt for dataindgang som for dataudgang, selv om sidstnævnte får mere opmærksomhed.

Fem trin til at føde AI-overholdende, aktuelle, relevante data

For at løse denne dobbelte udfordring – sikre både overholdende datahåndtering og høj kvalitet input, der muliggør høj kvalitet output – har virksomheder brug for kontrol over trænings- og slutningsdata. Desværre er dette noget, mange virksomheder stadig mangler.

I det mindste bør organisationer anvende deres bredere overholdelses- og styringsprogrammer til AI-initiativer. De har brug for at starte med at indsamle og opretholde passende optegnelser over data, de føder AI-modeller, hvordan modeller og systemer er designet, samt de beslutninger og indhold, der genereres via AI.

Men det bliver også kritisk vigtigt for organisationer at gå et skridt videre og sikre, at de har fuld kontrol over alle data, der kan bruges i AI-udviklinger, enten for initial træning eller ‘live’-arbejde. Dette kræver en højkvalitets datastyrings- og lagringsstrategi, der sikrer, at alle relevante data indsamles intelligent, rengøres, lagres, klassificeres og berettiges. For at opnå dette har organisationer brug for at overveje fire nøgletrin:

1. Dataafstamning og proveniens

Dette inkluderer at opretholde en optegnelse over datakildens oprindelse, ejerskab og eventuelle ændringer i metadata (hvis tilladt) på tværs af dens livscyklus. Det inkluderer også at opretholde rigt metadata og alle underliggende dokumenter eller artefakter, fra hvilke det er afledt.

2. Dataautenticitet

Dette kræver at opretholde en klar kæde af ejerskab for alle data, lagre objekter i deres native former og hash objekter, der modtages for at demonstrere, at data forbliver uændret. Derudover har organisationer brug for at opretholde en fuld revisionshistorik for hvert objekt og for alle handlinger og begivenheder i forhold til ændringer.

3. Dataklassificering

At fastlægge naturen af en samling eller type data er vigtigt. Organisationer har brug for at kunne styre struktureret data, semistruktureret data og strukturerede datasæt. At give hver klasse en unik skema kan tillade organisationer at styre diverse datasæt uden en fast, en-size-fits-all-ontologi – undgå, at dataene unødigt manipuleres for at tvinge dem ind i en inflexibel datastruktur.

4. Datanormalisering

At fastlægge fælles definitioner og formater af metadata er vigtigt for brug i analyser og AI-løsninger. Tydeligt definerede skemaer er et vigtigt element, sammen med værktøjer, der kan transformere eller kortlægge data for at opretholde konsistente, normaliserede visninger af relaterede data.

5. Databerettigelse

Virksomheder har brug for granulerede berettigelseskontroller, herunder på objekt- eller felt-niveau, baseret på bruger- eller systemprofiler. Dette betyder, at den rette data er tilgængelig for brugere og systemer, der er berettiget til adgang, mens adgang begrænses eller begrænses for dem, der ikke er.

Med disse afgørende elementer på plads vil virksomheder være bedst placeret til at sikre, at data, der fødes til AI-modeller, er både af høj kvalitet og overholdende. AI vil drive forbedringer og effektivitetsforbedringer på tværs af industrier – men for at det kan ske, er en solid datagrundlag afgørende.

George Tziahanas er VP of Compliance og Associate General Counsel hos Archive360. George er en ledende eksekutiv med en dyb forståelse for kompleks teknologi, bankreguleringer, datastyring og risikostyring. Og arbejder tæt sammen med nuværende og potentielle kunder for at sikre, at komplekse krav til datastyring og overholdelse af reglerne opfyldes, i overensstemmelse med Archive360-løsninger.