Connect with us

Dilema datelor IA: Confidențialitate, Reglementare și Viitorul Inteligenței Artificiale Etice

Lideri de opinie

Dilema datelor IA: Confidențialitate, Reglementare și Viitorul Inteligenței Artificiale Etice

mm

Soluțiile bazate pe IA sunt adoptate rapid în diverse industrii, servicii și produse în fiecare zi. Cu toate acestea, eficacitatea lor depinde în întregime de calitatea datelor pe care sunt antrenate – un aspect adesea înțeles greșit sau ignorat în procesul de creare a setului de date.

Pe măsură ce autoritățile de protecție a datelor cresc atenția asupra modului în care tehnologiile IA se aliniază cu regulamentele de confidențialitate și protecție a datelor, companiile se confruntă cu o presiune crescândă de a obține, annota și rafina seturi de date în moduri conforme și etice.

Există cu adevărat o abordare etică pentru construirea seturilor de date IA? Care sunt cele mai mari provocări etice ale companiilor și cum le abordează? Și cum impactează evoluția cadrului legal disponibilitatea și utilizarea datelor de antrenament? Să explorăm aceste întrebări.

Confidențialitatea datelor și IA

Prin natura sa, IA necesită o cantitate mare de date personale pentru a executa sarcinile. Acest lucru a ridicat îngrijorări cu privire la colectarea, stocarea și utilizarea acestor informații. Multe legi din întreaga lume reglementează și limitează utilizarea datelor personale, de la GDPR și noul Act IA din Europa la HIPAA din SUA, care reglementează accesul la datele pacienților în industria medicală.

Referință pentru cât de stricte sunt legile de protecție a datelor din întreaga lume / DLA Piper

De exemplu, paisprezece state din SUA au în prezent legi cuprinzătoare de protecție a datelor, cu șase mai multe care urmează să intre în vigoare în 2025 și la începutul anului 2026. Noua administrație a semnalat o schimbare în abordarea sa față de aplicarea legilor de protecție a datelor la nivel federal. Un focus cheie este reglementarea IA, accentuând promovarea inovației mai degrabă decât impunerea de restricții. Această schimbare include abrogarea ordonanțelor executive anterioare privind IA și introducerea de noi directive pentru a ghida dezvoltarea și aplicarea sa.

Legislația de protecție a datelor evoluează în diferite țări: în Europa, legile sunt mai stricte, în timp ce în Asia sau Africa, acestea tind să fie mai puțin stricte.

Cu toate acestea, informațiile personale identificabile (PII) – cum ar fi imagini faciale, documente oficiale precum pașapoarte sau orice altă dată personală sensibilă – sunt, în general, restricționate în majoritatea țărilor, într-o anumită măsură. Conform UN Trade & Development, colectarea, utilizarea și partajarea informațiilor personale către terți fără notificare sau consimțământul consumatorilor este o preocupare majoră pentru majoritatea lumii. 137 din 194 de țări au reglementări care asigură protecția datelor și confidențialitatea. Ca urmare, majoritatea companiilor globale iau măsuri extensive pentru a evita utilizarea PII pentru antrenarea modelului, deoarece reglementări precum cele din UE interzic strict astfel de practici, cu excepții rare întâlnite în nișe puternic reglementate, cum ar fi aplicarea legii.

În timp, legile de protecție a datelor devin mai cuprinzătoare și mai bine aplicate la nivel global. Companiile își adaptează practicile pentru a evita provocările legale și pentru a îndeplini cerințele legale și etice emergente.

Metodele pe care le folosesc companiile pentru a obține date

Deci, atunci când studiem problemele de protecție a datelor pentru antrenarea modelului, este esențial să înțelegem mai întâi de unde obțin companiile aceste date. Există trei surse principale de date.

  • Colectarea datelor

Această metodă permite colectarea de date de pe platforme de crowdsourcing, stocuri de media și seturi de date deschise.

Este important de remarcat că stocurile de media publice sunt supuse unor acorduri de licențiere diferite. Chiar și o licență pentru utilizare comercială afirmă adesea în mod explicit că conținutul nu poate fi utilizat pentru antrenarea modelului. Aceste așteptări diferă de la o platformă la alta și necesită ca afacerile să confirme capacitatea lor de a utiliza conținutul în modul în care au nevoie.

Chiar și atunci când companiile IA obțin conținutul în mod legal, ele pot încă întâmpina unele probleme. Progresul rapid al antrenamentului modelului IA a depășit cu mult cadrul legal, ceea ce înseamnă că regulile și reglementările care înconjoară datele de antrenament IA sunt încă în evoluție. Ca urmare, companiile trebuie să rămână informate despre evoluțiile legale și să examineze cu atenție acordurile de licențiere înainte de a utiliza conținutul stoc pentru antrenarea IA.

  • Crearea datelor

Una dintre metodele de pregătire a setului de date cel mai sigur implică crearea de conținut unic, cum ar fi filmarea oamenilor în medii controlate, cum ar fi studiouri sau locații în aer liber. Înainte de a participa, indivizii semnează un formular de consimțământ pentru a utiliza datele lor personale, specificând ce date sunt colectate, cum și unde vor fi utilizate și cine va avea acces la ele. Acest lucru asigură protecție legală deplină și oferă companiilor încrederea că nu vor face față unor pretenții de utilizare ilegală a datelor.

Principalul dezavantaj al acestei metode este costul său, în special atunci când datele sunt create pentru cazuri marginale sau proiecte de anvergură. Cu toate acestea, companiile mari și întreprinderile continuă să utilizeze această abordare din cel puțin două motive. În primul rând, asigură conformitate deplină cu toate standardele și reglementările legale. În al doilea rând, oferă companiilor date pe deplin personalizate pentru scenariile și nevoile lor specifice, garantând cea mai mare acuratețe în antrenarea modelului.

  • Generarea de date sintetice

Utilizarea unor instrumente software pentru a crea imagini, texte sau videoclipuri pe baza unui scenariu dat. Cu toate acestea, datele sintetice au limitări: sunt generate pe baza unor parametri predefiniți și lipsesc de variabilitatea naturală a datelor reale.

Lipsa aceasta poate avea un impact negativ asupra modelelor IA. Deși nu este relevant pentru toate cazurile și nu se întâmplă întotdeauna, este important să ne amintim de „prăbușirea modelului” – un punct în care dependența excesivă de date sintetice face ca modelul să se degradeze, conducând la ieșiri de calitate slabă.

Datele sintetice pot fi încă foarte eficiente pentru sarcini de bază, cum ar fi recunoașterea unor modele generale, identificarea obiectelor sau distingerea elementelor vizuale fundamentale, cum ar fi fețele.

Cu toate acestea, nu este cea mai bună opțiune atunci când o companie are nevoie să antreneze un model de la zero sau să se ocupe de scenarii rare sau foarte specifice.

Situațiile cele mai revelatoare apar în medii închise, cum ar fi un mediu de cabină, cum ar fi un șofer distras de un copil, cineva care pare obosit la volan sau chiar exemple de conducere iresponsabilă. Aceste puncte de date nu sunt disponibile în mod obișnuit în seturile de date publice – nici nu ar trebui să fie – deoarece implică indivizi reali în medii private. Deoarece modelele IA se bazează pe datele de antrenament pentru a genera ieșiri sintetice, ele au dificultăți în a reprezenta scenarii pe care nu le-au întâlnit niciodată în mod precis.

Atunci când datele sintetice eșuează, datele create – colectate prin medii controlate cu actori reali – devin soluția.

Furnizorii de soluții de date, cum ar fi Keymakr, plasează camere în mașini, angajează actori și înregistrează acțiuni, cum ar fi îngrijirea unui copil, băutul dintr-o sticlă sau arătarea semnelor de oboseală. Actorii semnează contracte care consimt explicit la utilizarea datelor lor pentru antrenarea IA, asigurând conformitatea cu legile de protecție a datelor.

Responsabilitățile în procesul de creare a setului de date

Fiecare participant în proces, de la client la compania de annotare, are responsabilități specifice definite în acordul lor. Primul pas este stabilirea unui contract, care detaliază natura relației, inclusiv clauze de confidențialitate și proprietate intelectuală.

Să considerăm prima opțiune pentru lucru cu date, și anume atunci când sunt create de la zero. Drepturile de proprietate intelectuală afirmă că orice date pe care furnizorul le creează aparțin companiei care angajează, ceea ce înseamnă că sunt create în numele lor. Acest lucru înseamnă, de asemenea, că furnizorul trebuie să se asigure că datele sunt obținute în mod legal și corespunzător.

Ca o companie de soluții de date, Keymakr asigură conformitatea datelor prin verificarea mai întâi a jurisdicției în care datele sunt create, obținerea consimțământului adecvat de la toate persoanele implicate și garantarea că datele pot fi utilizate în mod legal pentru antrenarea IA.

Este important de remarcat, de asemenea, că, odată ce datele sunt utilizate pentru antrenarea modelului IA, devine aproape imposibil să se determine care date specifice au contribuit la model, deoarece IA le amestecă pe toate. Așadar, ieșirea specifică nu are tendința de a fi ieșirea sa, în special atunci când discutăm despre milioane de imagini.

Datorită dezvoltării sale rapide, această zonă încă stabilește linii directoare clare pentru distribuirea responsabilităților. Acest lucru este similar cu complexitățile care înconjoară mașinile autonome, unde întrebări despre răspundere – fie că este vorba de șofer, producător sau companie de software – încă necesită o distribuire clară.

În alte cazuri, atunci când un furnizor de annotare primește un set de date pentru annotare, el presupune că clientul a obținut datele în mod legal. Dacă există semne clare că datele au fost obținute ilegal, furnizorul trebuie să le raporteze. Cu toate acestea, astfel de cazuri evidente sunt extrem de rare.

Este important de remarcat, de asemenea, că companiile mari, corporațiile și mărcile care valorizează reputația lor sunt foarte atente la locul din care obțin datele, chiar dacă nu au fost create de la zero, ci luate din alte surse legale.

În rezumat, responsabilitatea fiecărui participant în procesul de lucru cu date depinde de acord. Ați putea considera acest proces ca parte a unei „lanțuri de sustenabilitate” mai largi, în care fiecare participant are un rol crucial în menținerea standardelor legale și etice.

Care sunt concepțiile greșite despre partea din spate a dezvoltării IA?

O concepție greșită majoră despre dezvoltarea IA este că modelele IA funcționează similar cu motoarele de căutare, colectând și agregând informații pentru a le prezenta utilizatorilor pe baza cunoștințelor învățate. Cu toate acestea, modelele IA, în special modelele de limbaj, funcționează adesea pe baza probabilităților și nu pe o înțelegere reală. Ei prezic cuvinte sau termeni pe baza probabilității statistice, utilizând modele văzute în datele anterioare. IA nu „știe” nimic; ea extrapolază, ghicește și ajustează probabilitățile.

Mai mult, mulți presupun că antrenarea IA necesită seturi de date uriașe, dar multe dintre ceea ce IA are nevoie pentru a recunoaște – cum ar fi câini, pisici sau oameni – este deja bine stabilit. Focusul acum este pe îmbunătățirea acurateței și rafinarea modelelor, mai degrabă decât reinventarea capacităților de recunoaștere. Multă parte a dezvoltării IA astăzi se învârte în jurul închiderii ultimelor goluri mici de acuratețe, mai degrabă decât a începe de la zero.

Provocări etice și impactul Actului IA al Uniunii Europene și al reglementărilor din SUA asupra pieței globale a IA

Atunci când discutăm despre etica și legalitatea lucrului cu date, este important să înțelegem clar ce definește „etic” IA.

Cea mai mare provocare etică cu care se confruntă companiile astăzi în IA este determinarea a ceea ce este considerat inacceptabil pentru IA să facă sau să fie învățată. Există un consens larg că IA etică ar trebui să ajute, mai degrabă decât să dăuneze oamenilor, și să evite înșelăciunea. Cu toate acestea, sistemele IA pot face erori sau „halucina”, ceea ce ridică provocări în determinarea dacă aceste greșeli se califică ca dezinformare sau prejudiciu.

Etica IA este o dezbatere majoră, cu organizații precum UNESCO implicată – cu principii cheie care înconjoară auditabilitatea și trasabilitatea ieșirilor.

Cadrul legal care înconjoară accesul la date și antrenarea IA joacă un rol semnificativ în modelarea peisajului etic al IA. Țările cu mai puține restricții asupra utilizării datelor permit acces mai ușor la date de antrenament, în timp ce națiunile cu legi de date mai stricte limitează disponibilitatea datelor pentru antrenarea IA.

De exemplu, Europa, care a adoptat Actul IA, și SUA, care au anulat multe reglementări IA, oferă abordări contrastante care indică peisajul global actual.

Actul IA al Uniunii Europene are un impact semnificativ asupra companiilor care operează în Europa. Acesta impune un cadru regulator strict, făcând dificil pentru afaceri să utilizeze sau să dezvolte anumite modele IA. Companiile trebuie să obțină licențe specifice pentru a lucra cu anumite tehnologii, iar în multe cazuri, reglementările fac efectiv imposibil pentru întreprinderile mici să se conformeze acestor reguli.

Ca urmare, unele startup-uri pot alege să părăsească Europa sau să evite să opereze acolo, similar cu impactul observat cu reglementările criptomonedelor. Companiile mai mari care pot suporta investiția necesară pentru a îndeplini cerințele de conformitate pot adapta. Cu toate acestea, Actul poate alunga inovația IA din Europa în favoarea piețelor precum SUA sau Israel, unde reglementările sunt mai puțin stricte.

Decizia SUA de a investi resurse majore în dezvoltarea IA cu mai puține restricții poate avea, de asemenea, dezavantaje, dar va invita la o diversitate mai mare pe piață. În timp ce Uniunea Europeană se concentrează pe siguranță și conformitate regulamentară, SUA va promova probabil mai multă asumare de risc și experimentare de ultimă oră.

Michael Abramov este fondatorul și CEO-ul Introspector, aducând peste 15+ ani de experiență în inginerie software și sisteme de inteligență artificială de viziune computerizată pentru construirea de instrumente de etichetare de nivel întreprindere.

Michael și-a început cariera ca inginer software și manager de cercetare și dezvoltare, construind sisteme de date scalabile și gestionând echipe de ingineri cross-funcționale. Până în 2025, el a ocupat funcția de CEO al Keymakr, o companie de servicii de etichetare a datelor, unde a inovat fluxurile de lucru cu omul în buclă, sistemele avansate de control al calității și instrumentele personalizate pentru a sprijini nevoile de date de viziune computerizată și autonomie la scară largă.

El deține o diplomă de licență în științe computaționale și o pregătire în inginerie și arte creative, aducând o perspectivă multidisciplinară pentru rezolvarea problemelor dificile. Michael trăiește la intersecția inovației tehnologice, a conducerii strategice a produsului și a impactului în lumea reală, conducând înainte următoarea frontieră a sistemelor autonome și a automatizării inteligente.