ciot Cum părtinirea îți va distruge strategia AI/ML și ce să faci în privința ei - Unite.AI
Conectează-te cu noi

Liderii gândirii

Cum prejudecățile vă va distruge strategia AI/ML și ce să faceți în privința ei

mm

Publicat

 on

„Prejudiciul” în modelele de orice tip descrie o situație în care modelul răspunde incorect la solicitări sau la datele de intrare, deoarece nu a fost instruit cu suficiente date diverse de înaltă calitate pentru a oferi un răspuns precis. Un exemplu ar fi Funcția de deblocare a telefonului cu recunoaștere facială a Apple, care a eșuat la o rată semnificativ mai mare pentru persoanele cu tenul mai închis la culoare, spre deosebire de tonurile mai deschise. Modelul nu fusese instruit pe suficiente imagini cu oameni cu pielea mai închisă la culoare. Acesta a fost un exemplu de părtinire cu risc relativ scăzut, dar tocmai acesta este motivul pentru care Actul AI al UE a propus cerințe pentru a dovedi eficacitatea modelului (și controalele) înainte de a intra pe piață. Modelele cu rezultate care au impact asupra situațiilor de afaceri, financiare, de sănătate sau personale trebuie să fie de încredere, altfel nu vor fi folosite.

Abordarea părtinirii prin date

Volume mari de date de înaltă calitate

Printre multe practici importante de gestionare a datelor, a componenta cheie pentru depășirea și minimizarea părtinirii în modelele AI/ML este achiziționarea de volume mari de date diverse de înaltă calitate. Acest lucru necesită colaborarea cu mai multe organizații care dețin astfel de date. În mod tradițional, achiziția de date și colaborările sunt provocate de preocupările privind confidențialitatea și/sau protecția IP – datele sensibile nu pot fi trimise proprietarului modelului, iar proprietarul modelului nu poate risca să-și scurgă IP-ul unui proprietar de date. O soluție obișnuită este de a lucra cu date simulate sau sintetice, care pot fi utile, dar au și limitări în comparație cu utilizarea datelor reale, în context complet. Aici este locul în care tehnologiile de îmbunătățire a confidențialității (PET) oferă răspunsuri atât de necesare.

Date sintetice: aproape, dar nu destul

Date sintetice este generată artificial pentru a imita datele reale. Acest lucru este greu de făcut, dar devine puțin mai ușor cu instrumentele AI. Datele sintetice de bună calitate ar trebui să aibă aceleași distanțe de caracteristici ca și datele reale, altfel nu vor fi utile. Datele sintetice de calitate pot fi utilizate pentru a spori în mod eficient diversitatea datelor de formare prin completarea golurilor pentru populații mai mici, marginalizate sau pentru populațiile pentru care furnizorul de IA pur și simplu nu are suficiente date. Datele sintetice pot fi, de asemenea, utilizate pentru a aborda cazurile marginale care ar putea fi dificil de găsit în volume adecvate în lumea reală. În plus, organizațiile pot genera un set de date sintetice pentru a satisface cerințele privind rezidența datelor și confidențialitatea care blochează accesul la datele reale. Acest lucru sună grozav; cu toate acestea, datele sintetice sunt doar o piesă a puzzle-ului, nu soluția.

Una dintre limitările evidente ale datelor sintetice este deconectarea de la lumea reală. De exemplu, vehiculele autonome instruite exclusiv pe date sintetice se vor lupta cu condiții reale de drum neprevăzute. În plus, datele sintetice moștenesc părtinire de la datele din lumea reală utilizate pentru a le genera – învingând aproape scopul discuției noastre. În concluzie, datele sintetice sunt o opțiune utilă pentru reglarea fină și abordarea cazurilor marginale, dar îmbunătățirile semnificative ale eficacității modelului și minimizarea părtinirii se bazează încă pe accesarea datelor din lumea reală.

O modalitate mai bună: date reale prin fluxuri de lucru activate cu PET

PET-urile protejează datele în timpul utilizării. Când vine vorba de modele AI/ML, acestea pot proteja, de asemenea, IP-ul modelului rulat – „două păsări, o piatră”. Soluțiile care utilizează PET oferă opțiunea de a instrui modele pe seturi de date reale, sensibile, care nu erau accesibile anterior din cauza problemelor de confidențialitate și securitate a datelor. Această deblocare a fluxurilor de date la date reale este cea mai bună opțiune pentru a reduce părtinirea. Dar cum ar funcționa de fapt?

Pentru moment, opțiunile principale încep cu un mediu de calcul confidențial. Apoi, o integrare cu o soluție software bazată pe PET-uri care o face gata de utilizare imediată, abordând în același timp cerințele de guvernare a datelor și de securitate care nu sunt incluse într-un mediu de execuție de încredere standard (TEE). Cu această soluție, modelele și datele sunt toate criptate înainte de a fi trimise într-un mediu de calcul securizat. Mediul poate fi găzduit oriunde, ceea ce este important atunci când se abordează anumite cerințe de localizare a datelor. Aceasta înseamnă că atât IP-ul modelului, cât și securitatea datelor de intrare sunt menținute în timpul calculului – nici măcar furnizorul mediului de execuție de încredere nu are acces la modelele sau datele din interiorul acestuia. Rezultatele criptate sunt apoi trimise înapoi pentru examinare, iar jurnalele sunt disponibile pentru examinare.

Acest flux deblochează date de cea mai bună calitate, indiferent unde sunt sau cine le deține, creând o cale către minimizarea părtinirii și modele de înaltă eficacitate în care putem avea încredere. Acest flux este, de asemenea, ceea ce Actul AI al UE a descris în cerințele lor pentru un sandbox de reglementare AI.

Facilitarea conformității etice și legale

Este dificil să obțineți date reale de bună calitate. Cerințele privind confidențialitatea și localizarea datelor limitează imediat seturile de date pe care organizațiile le pot accesa. Pentru ca inovația și creșterea să aibă loc, datele trebuie să curgă către cei care pot extrage valoarea din acestea.

Articolul 54 din Actul AI al UE prevede cerințe pentru tipurile de modele „cu risc ridicat” în ceea ce privește ceea ce trebuie dovedit înainte de a putea fi introduse pe piață. Pe scurt, echipele vor trebui să utilizeze datele din lumea reală în interiorul unui Sandbox de reglementare AI pentru a arăta suficientă eficacitate a modelului și conformitate cu toate controalele detaliate în Titlul III Capitolul 2. Controalele includ monitorizarea, transparența, explicabilitatea, securitatea datelor, protecția datelor, minimizarea datelor și protecția modelului – gândiți-vă la DevSecOps + Data Ops.

Prima provocare va fi găsirea unui set de date din lumea reală de utilizat, deoarece acestea sunt date sensibile în mod inerent pentru astfel de tipuri de modele. Fără garanții tehnice, multe organizații pot ezita să aibă încredere în furnizorul de modele cu datele lor sau nu vor avea voie să facă acest lucru. În plus, modul în care actul definește un „Sandbox de reglementare AI” este o provocare în sine. Unele dintre cerințe includ o garanție că datele sunt eliminate din sistem după ce modelul a fost rulat, precum și controalele de guvernare, aplicarea și raportarea pentru a dovedi acest lucru.

Multe organizații au încercat să utilizeze camere curate de date (DCR) și medii de execuție de încredere (TEE). Dar, pe cont propriu, aceste tehnologii necesită expertiză și muncă semnificativă pentru a operaționaliza și a îndeplini cerințele de reglementare privind datele și IA.
DCR-urile sunt mai simplu de utilizat, dar nu sunt încă utile pentru nevoi mai solide de AI/ML. TEE-urile sunt servere securizate și încă au nevoie de o platformă de colaborare integrată pentru a fi utile, rapid. Acest lucru, totuși, identifică o oportunitate pentru platformele tehnologice de îmbunătățire a confidențialității de a se integra cu TEE pentru a elimina această activitate, trivializează configurarea și utilizarea unui sandbox de reglementare AI și, prin urmare, achiziția și utilizarea datelor sensibile.

Permițând utilizarea unor seturi de date mai diverse și mai cuprinzătoare într-o manieră de păstrare a confidențialității, aceste tehnologii ajută la asigurarea faptului că practicile AI și ML respectă standardele etice și cerințele legale legate de confidențialitatea datelor (de exemplu, GDPR și EU AI Act în Europa). În rezumat, în timp ce cerințele sunt adesea îndeplinite cu mormăituri și suspine audibile, aceste cerințe pur și simplu ne ghidează spre construirea de modele mai bune în care să ne putem baza și pe care să ne putem baza pentru luarea deciziilor importante bazate pe date, protejând în același timp confidențialitatea persoanelor vizate utilizate pentru dezvoltarea modelului. și personalizare.

Adi Hirschtein este VP de produs la Tehnologii dualitate. Adi aduce peste 20 de ani de experiență ca director executiv, manager de produs și antreprenor, construind și conducând inovația în companiile tehnologice axate în primul rând pe startup-uri B2B în domeniul datelor și AI. Înainte de Duality, Adi a ocupat funcția de vicepreședinte de produs pentru Iguazio (compania MLOps), care a fost achiziționată de McKinsey și înainte de aceasta, a fost director de produs la EMC, după achiziția unui alt startup numit Zettapoint (companie de baze de date și stocare), unde a servit. în calitate de VP al produsului, conducând produsul de la început până la penetrarea și creșterea pieței.