stubs Kā neobjektivitāte nogalinās jūsu AI/ML stratēģiju un ko ar to darīt — Unite.AI
Savienoties ar mums

Domu vadītāji

Kā neobjektivitāte nogalinās jūsu AI/ML stratēģiju un ko ar to darīt

mm

Izdots

 on

“Novirze” jebkura veida modeļos apraksta situāciju, kurā modelis neprecīzi reaģē uz uzvednēm vai ievades datiem, jo ​​tas nav apmācīts ar pietiekami kvalitatīviem, daudzveidīgiem datiem, lai nodrošinātu precīzu atbildi. Viens piemērs būtu Apple sejas atpazīšanas tālruņa atbloķēšanas funkcija, kas ievērojami biežāk neizdevās cilvēkiem ar tumšāku ādas krāsu, salīdzinot ar gaišākiem toņiem. Modele nebija pietiekami apmācīta tumšādainu cilvēku tēlos. Šis bija salīdzinoši zema riska neobjektivitātes piemērs, taču tieši tāpēc ES AI likumā ir izvirzītas prasības, lai pierādītu modeļa efektivitāti (un kontroli) pirms laišanas tirgū. Ir jāuzticas modeļiem ar rezultātiem, kas ietekmē uzņēmējdarbību, finanses, veselību vai personiskās situācijas, pretējā gadījumā tie netiks izmantoti.

Neobjektivitātes novēršana ar datiem

Liels augstas kvalitātes datu apjoms

Starp daudzām svarīgām datu pārvaldības praksēm, a galvenais komponents, lai pārvarētu un samazinātu novirzes AI/ML modeļos, ir iegūt lielu daudzumu augstas kvalitātes, daudzveidīgu datu.. Tam nepieciešama sadarbība ar vairākām organizācijām, kurām ir šādi dati. Tradicionāli datu iegūšanu un sadarbību apšauba privātuma un/vai IP aizsardzības problēmas — sensitīvus datus nevar nosūtīt modeļa īpašniekam, un modeļa īpašnieks nevar riskēt ar savu IP nopludināšanu datu īpašniekam. Izplatīts risinājums ir strādāt ar viltotiem vai sintētiskiem datiem, kas var būt noderīgi, taču tiem ir arī ierobežojumi salīdzinājumā ar reālu pilna konteksta datu izmantošanu. Šeit privātumu uzlabojošās tehnoloģijas (PET) sniedz ļoti vajadzīgās atbildes.

Sintētiskie dati: Aizvērt, bet ne gluži

Sintētiskie dati ir mākslīgi ģenerēts, lai atdarinātu reālus datus. Tas ir grūti izdarāms, taču ar AI rīkiem tas kļūst nedaudz vieglāk. Labas kvalitātes sintētiskiem datiem ir jābūt tādiem pašiem elementu attālumiem kā reāliem datiem, pretējā gadījumā tie nebūs noderīgi. Kvalitatīvus sintētiskos datus var izmantot, lai efektīvi palielinātu apmācību datu daudzveidību, aizpildot nepilnības mazākām, marginalizētām populācijām vai populācijām, par kurām AI nodrošinātājam vienkārši nav pietiekami daudz datu. Sintētiskos datus var izmantot arī, lai risinātu malas gadījumus, kurus reālajā pasaulē var būt grūti atrast atbilstošā apjomā. Turklāt organizācijas var ģenerēt sintētisko datu kopu, lai izpildītu datu dzīvesvietas un privātuma prasības, kas bloķē piekļuvi reālajiem datiem. Tas izklausās lieliski; tomēr sintētiskie dati ir tikai mīklas daļa, nevis risinājums.

Viens no acīmredzamajiem sintētisko datu ierobežojumiem ir atvienošanās no reālās pasaules. Piemēram, autonomie transportlīdzekļi, kas apmācīti tikai uz sintētiskiem datiem, cīnīsies ar reāliem, neparedzētiem ceļa apstākļiem. Turklāt sintētiskie dati pārmanto neobjektivitāti no reālās pasaules datiem, kas tiek izmantoti to ģenerēšanai, un tas ievērojami pārkāpj mūsu diskusijas mērķi. Noslēgumā jāsaka, ka sintētiskie dati ir noderīga iespēja precizēšanai un malu gadījumu risināšanai, taču būtiski uzlabojumi modeļa efektivitātē un novirzes samazināšana joprojām ir atkarīgi no piekļuves reālās pasaules datiem.

Labāks veids: reāli dati, izmantojot PET iespējotas darbplūsmas

PET aizsargā datus lietošanas laikā. Runājot par AI/ML modeļiem, tie var arī aizsargāt izmantotā modeļa IP — “divi putni, viens akmens”. Risinājumi, kuros izmanto PET, nodrošina iespēju apmācīt modeļus reālām, sensitīvām datu kopām, kas iepriekš nebija pieejamas datu privātuma un drošības apsvērumu dēļ. Šī datu plūsmu atbloķēšana reāliem datiem ir labākais risinājums, lai samazinātu novirzes. Bet kā tas patiesībā darbotos?

Pagaidām vadošās iespējas sākas ar konfidenciālu skaitļošanas vidi. Pēc tam tiek veikta integrācija ar uz PET balstītu programmatūras risinājumu, kas padara to gatavu lietošanai, vienlaikus risinot datu pārvaldības un drošības prasības, kas nav iekļautas standarta uzticamā izpildes vidē (TEE). Izmantojot šo risinājumu, visi modeļi un dati tiek šifrēti, pirms tie tiek nosūtīti uz drošu skaitļošanas vidi. Vidi var mitināt jebkur, kas ir svarīgi, risinot noteiktas datu lokalizācijas prasības. Tas nozīmē, ka aprēķina laikā tiek uzturēts gan modeļa IP, gan ievades datu drošība — pat uzticamās izpildes vides nodrošinātājam nav piekļuves modeļiem vai datiem tajā. Šifrētie rezultāti tiek nosūtīti atpakaļ pārskatīšanai, un žurnāli ir pieejami pārskatīšanai.

Šī plūsma atbloķē vislabākās kvalitātes datus neatkarīgi no tā, kur tie atrodas un kam tie ir, radot ceļu uz novirzes samazināšanu un augstas efektivitātes modeļiem, kuriem varam uzticēties. Šī plūsma ir arī tas, ko ES AI likums aprakstīja viņu prasībās attiecībā uz AI normatīvo smilšu kasti.

Ētiskās un juridiskās atbilstības veicināšana

Labas kvalitātes, reālu datu iegūšana ir grūta. Datu konfidencialitātes un lokalizācijas prasības nekavējoties ierobežo datu kopas, kurām organizācijas var piekļūt. Lai notiktu inovācija un izaugsme, datiem ir jāplūst tiem, kas no tiem var iegūt vērtību.

ES MI likuma 54. pants nosaka prasības “augsta riska” modeļu veidiem attiecībā uz to, kas jāpierāda, pirms tos var laist tirgū. Īsāk sakot, komandām būs jāizmanto reālās pasaules dati AI reglamentējošā smilšu kaste lai parādītu pietiekamu modeļa efektivitāti un atbilstību visām III sadaļas 2. nodaļā aprakstītajām kontrolēm. Kontrole ietver uzraudzību, caurspīdīgumu, izskaidrojamību, datu drošību, datu aizsardzību, datu minimizēšanu un modeļa aizsardzību. Padomājiet par DevSecOps + Data Ops.

Pirmais izaicinājums būs atrast reālās pasaules datu kopu, ko izmantot, jo tie pēc būtības ir sensitīvi dati šādiem modeļu veidiem. Bez tehniskām garantijām daudzas organizācijas var vilcināties uzticēt modeļu nodrošinātājam savus datus, vai arī tām netiks atļauts to darīt. Turklāt veids, kā tiesību aktā definēta “AI regulējošā smilšu kaste”, pats par sevi ir izaicinājums. Dažas prasības ietver garantiju, ka dati tiek noņemti no sistēmas pēc modeļa palaišanas, kā arī pārvaldības kontroles, izpildi un ziņošanu, lai to pierādītu.

Daudzas organizācijas ir mēģinājušas izmantot gatavās datu tīrās telpas (DCR) un uzticamas izpildes vides (TEE). Taču pašām šīm tehnoloģijām ir vajadzīgas ievērojamas zināšanas un darbs, lai nodrošinātu darbību un izpildītu datu un AI normatīvās prasības.
DCR ir vienkāršāk lietojami, taču tie vēl nav noderīgi spēcīgākām AI/ML vajadzībām. TEE ir droši serveri, un tiem joprojām ir nepieciešama integrēta sadarbības platforma, lai tie būtu ātri noderīgi. Tomēr tas norāda uz iespēju privātumu uzlabojošām tehnoloģiju platformām integrēties ar TEE, lai novērstu šo darbu, trivializējot mākslīgā intelekta regulējošās smilškastes iestatīšanu un izmantošanu un tādējādi arī sensitīvu datu iegūšanu un izmantošanu.

Ļaujot izmantot daudzveidīgākas un visaptverošākas datu kopas, saglabājot privātumu, šīs tehnoloģijas palīdz nodrošināt, ka AI un ML prakse atbilst ētikas standartiem un juridiskajām prasībām, kas saistītas ar datu privātumu (piemēram, GDPR un ES AI likums Eiropā). Rezumējot, lai gan prasības bieži tiek izpildītas ar dzirdamiem ņurdījumiem un nopūtām, šīs prasības vienkārši virza mūs uz labāku modeļu izveidi, kuriem varam uzticēties un paļauties uz svarīgu, uz datiem balstītu lēmumu pieņemšanu, vienlaikus aizsargājot modeļa izstrādē izmantoto datu subjektu privātumu. un pielāgošana.

Adi Hiršteins ir produktu viceprezidents uzņēmumā Dualitātes tehnoloģijas. Adi ir vairāk nekā 20 gadu pieredze kā izpilddirektors, produktu vadītājs un uzņēmējs, veidojot un virzot inovācijas tehnoloģiju uzņēmumos, kas galvenokārt koncentrējas uz B2B jaunizveidotiem uzņēmumiem datu un AI jomā. Pirms Duality Adi strādāja par produktu viceprezidentu Iguazio (MLOps uzņēmums), kuru iegādājās McKinsey, un pirms tam viņš strādāja par produktu direktoru EMC pēc cita jaunuzņēmuma Zettapoint (datu bāzes un uzglabāšanas uzņēmums) iegādes, kurā viņš strādāja. kā produktu viceprezidents, kurš vada produktu no sākuma līdz tirgus izplatībai un izaugsmei.