Conectează-te cu noi

Liderii gândirii

Dilema datelor AI: confidențialitate, reglementare și viitorul IA etică

mm

Soluțiile bazate pe inteligența artificială sunt adoptate rapid în diverse industrii, servicii și produse în fiecare zi. Cu toate acestea, eficacitatea lor depinde în întregime de calitatea datelor pe care sunt instruiți – un aspect adesea greșit înțeles sau trecut cu vederea în procesul de creare a setului de date.

Pe măsură ce autoritățile de protecție a datelor sporesc controlul asupra modului în care tehnologiile AI se aliniază cu reglementările privind confidențialitatea și protecția datelor, companiile se confruntă cu o presiune tot mai mare de a furniza, adnota și rafina seturile de date în moduri conforme și etice.

Există cu adevărat o abordare etică pentru construirea seturilor de date de inteligență artificială? Care sunt cele mai mari provocări etice cu care se confruntă companiile și cum le abordează? Și cum influențează evoluția cadrelor juridice disponibilitatea și utilizarea datelor de instruire? Să explorăm aceste întrebări.

Confidențialitatea datelor și IA

Prin natura sa, AI necesită mult date personale pentru a executa sarcini. Acest lucru a stârnit îngrijorări cu privire la colectarea, salvarea și utilizarea acestor informații. Multe legi din întreaga lume reglementează și limitează utilizarea datelor cu caracter personal, de la GDPR și Actul AI recent introdus în Europa până la HIPAA în SUA, care reglementează accesul la datele pacienților în industria medicală.

Referință pentru cât de stricte sunt legile privind protecția datelor în întreaga lume / DLA Piper

De exemplu, paisprezece state din SUA au în prezent legi cuprinzătoare privind confidențialitatea datelor, iar alte șase urmând să intre în vigoare în 2025 și începutul anului 2026. Noua administrație a semnalat o schimbare în abordarea sa privind aplicarea confidențialității datelor la nivel federal. Un accent cheie este reglementarea AI, punând accent mai degrabă pe stimularea inovației decât pe impunerea de restricții. Acest schimbul include abrogarea ordinelor executive anterioare privind IA și introducerea de noi directive care să ghideze dezvoltarea și aplicarea acesteia.

Legislația privind protecția datelor evoluează în diverse țări: în Europa, legile sunt mai stricte, în timp ce în Asia sau Africa, acestea tind să fie mai puțin stricte.

Cu toate acestea, informațiile de identificare personală (PII) - cum ar fi imaginile faciale, documentele oficiale precum pașapoartele sau orice alte date personale sensibile - sunt în general restricționate în majoritatea țărilor într-o oarecare măsură. Potrivit ONU pentru Comerț și Dezvoltare, colectarea, utilizarea și partajarea informațiilor personale către terți fără notificarea sau consimțământul consumatorilor reprezintă o preocupare majoră pentru cea mai mare parte a lumii. 137 din 194 de țări au reglementări care asigură protecția datelor și confidențialitatea. În consecință, majoritatea companiilor globale iau măsuri de precauție extinse pentru a evita utilizarea PII pentru formarea modelelor, deoarece reglementări precum cele din UE interzic strict astfel de practici, cu rare excepții găsite în nișele puternic reglementate, cum ar fi aplicarea legii.

De-a lungul timpului, legile privind protecția datelor devin din ce în ce mai cuprinzătoare și aplicate la nivel global. Companiile își adaptează practicile pentru a evita provocările legale și pentru a îndeplini cerințele legale și etice emergente.

Ce metode folosesc companiile pentru a obține date?

Deci, atunci când studiem problemele de protecție a datelor pentru modelele de instruire, este esențial să înțelegem mai întâi de unde obțin companiile aceste date. Există trei surse principale și primare de date.

  • De colectare a datelor

Această metodă permite colectarea datelor de pe platforme de crowdsourcing, stocuri media și seturi de date open-source.

Este important de remarcat faptul că mediile de stocare publice sunt supuse unor acorduri de licență diferite. Chiar și o licență de utilizare comercială precizează adesea în mod explicit că conținutul nu poate fi utilizat pentru antrenamentul modelului. Aceste așteptări diferă de la o platformă la alta și necesită companiilor să își confirme capacitatea de a utiliza conținutul în moduri în care au nevoie.

Chiar și atunci când companiile de inteligență artificială obțin conținut în mod legal, se pot confrunta în continuare cu unele probleme. Avansarea rapidă a instruirii modelului AI a depășit cu mult cadrele legale, ceea ce înseamnă că regulile și reglementările referitoare la datele de instruire AI sunt încă în evoluție. În consecință, companiile trebuie să rămână informate cu privire la evoluțiile legale și să revizuiască cu atenție acordurile de licență înainte de a utiliza conținutul stocului pentru instruirea AI.

  • Crearea datelor

Una dintre cele mai sigure metode de pregătire a setului de date implică crearea de conținut unic, cum ar fi filmarea oamenilor în medii controlate, cum ar fi studiourile sau locațiile în aer liber. Înainte de a participa, persoanele semnează un formular de consimțământ pentru a-și folosi IPI, specificând ce date sunt colectate, cum și unde vor fi utilizate și cine va avea acces la acestea. Acest lucru asigură o protecție juridică deplină și oferă companiilor încredere că nu se vor confrunta cu reclamații privind utilizarea ilegală a datelor.

Principalul dezavantaj al acestei metode este costul acesteia, mai ales atunci când datele sunt create pentru cazuri de margine sau proiecte la scară largă. Cu toate acestea, companiile și întreprinderile mari continuă să folosească din ce în ce mai mult această abordare din cel puțin două motive. În primul rând, asigură conformitatea deplină cu toate standardele și reglementările legale. În al doilea rând, oferă companiilor date complet adaptate scenariilor și nevoilor lor specifice, garantând cea mai mare acuratețe în pregătirea modelelor.

  • Generarea de date sintetice

Utilizarea instrumentelor software pentru a crea imagini, text sau videoclipuri bazate pe un anumit scenariu. Cu toate acestea, datele sintetice au limitări: sunt generate pe baza unor parametri predefiniți și nu au variabilitatea naturală a datelor reale.

Această lipsă poate avea un impact negativ asupra modelelor de inteligență artificială. Deși nu este relevantă pentru toate cazurile și nu se întâmplă întotdeauna, este totuși important să ne amintim că „prăbușirea modelului” — un punct în care dependența excesivă de datele sintetice face ca modelul să se degradeze, ceea ce duce la rezultate de proastă calitate.

Datele sintetice pot fi încă foarte eficiente pentru sarcini de bază, cum ar fi recunoașterea tiparelor generale, identificarea obiectelor sau distingerea elementelor vizuale fundamentale, cum ar fi fețele.

Totuși, nu este cea mai bună opțiune atunci când o companie trebuie să antreneze un model complet de la zero sau să se ocupe de scenarii rare sau foarte specifice.

Cele mai revelatoare situații apar în mediile din cabină, cum ar fi un șofer distras de un copil, cineva care pare obosit la volan sau chiar cazuri de conducere nesăbuită. Aceste puncte de date nu sunt disponibile în mod obișnuit în seturile de date publice – și nici nu ar trebui să fie – deoarece implică persoane reale în setări private. Deoarece modelele AI se bazează pe date de antrenament pentru a genera rezultate sintetice, se luptă să reprezinte cu acuratețe scenarii pe care nu le-au întâlnit niciodată.

Când datele sintetice eșuează, datele create - colectate prin medii controlate cu actori reali - devin soluția.

Furnizorii de soluții de date ca Keymakr plasați camerele de luat vederi în mașini, angajați actori și înregistrați acțiuni precum îngrijirea unui copil, băutul dintr-un biberon sau prezentarea semnelor de oboseală. Actorii semnează contracte prin care sunt de acord în mod explicit să-și folosească datele pentru instruirea AI, asigurând conformitatea cu legile privind confidențialitatea.

Responsabilități în procesul de creare a setului de date

Fiecare participant la proces, de la client la compania de adnotare, are responsabilități specifice definite în acordul său. Primul pas este stabilirea unui contract, care detaliază natura relației, inclusiv clauze privind nedivulgarea și proprietatea intelectuală.

Să luăm în considerare prima opțiune de lucru cu date, și anume atunci când acestea sunt create de la zero. Drepturile de proprietate intelectuală precizează că orice date pe care le creează furnizorul aparțin companiei care angajează, adică sunt create în numele acesteia. Aceasta înseamnă, de asemenea, că furnizorul trebuie să se asigure că datele sunt obținute în mod legal și corect.

În calitate de companie de soluții de date, Keymakr asigură conformitatea datelor, verificând mai întâi jurisdicția în care sunt create datele, obținând consimțământul adecvat de la toate persoanele implicate și garantând că datele pot fi utilizate în mod legal pentru instruirea AI.

De asemenea, este important de reținut că, odată ce datele sunt utilizate pentru antrenamentul modelului AI, devine aproape imposibil să se determine ce date specifice au contribuit la model, deoarece AI le combină pe toate. Deci, rezultatul specific nu tinde să fie rezultatul său, mai ales atunci când discutăm milioane de imagini.

Datorită dezvoltării sale rapide, acest domeniu stabilește încă linii directoare clare pentru distribuirea responsabilităților. Acest lucru este similar cu complexitățile din jurul mașinilor autonome, unde întrebările legate de răspundere - fie că este vorba de șofer, producător sau companie de software - necesită încă o distribuire clară.

În alte cazuri, când un furnizor de adnotări primește un set de date pentru adnotare, el presupune că clientul a obținut datele în mod legal. Dacă există semne clare că datele au fost obținute ilegal, furnizorul trebuie să le raporteze. Cu toate acestea, astfel de cazuri aparente sunt extrem de rare.

De asemenea, este important de remarcat faptul că marile companii, corporații și mărcile care își prețuiesc reputația sunt foarte atente la locul în care își provin datele, chiar dacă acestea nu au fost create de la zero, ci luate din alte surse legale.

Pe scurt, responsabilitatea fiecărui participant în procesul de lucru cu datele depinde de acord. Ați putea considera acest proces ca parte a unui „lanț de sustenabilitate” mai larg, în care fiecare participant are un rol crucial în menținerea standardelor legale și etice.

Ce concepții greșite există despre partea din spate a dezvoltării AI?

O concepție greșită majoră despre dezvoltarea AI este că modelele AI funcționează similar cu motoarele de căutare, culegând și agregând informații pentru a le prezenta utilizatorilor pe baza cunoștințelor învățate. Cu toate acestea, modelele AI, în special modelele lingvistice, funcționează adesea pe baza probabilităților, mai degrabă decât a înțelegerii autentice. Ei prezic cuvinte sau termeni pe baza probabilității statistice, folosind modele văzute în datele anterioare. AI nu „știe” nimic; extrapolează, ghicește și ajustează probabilitățile.

În plus, mulți presupun că antrenarea AI necesită seturi de date enorme, dar o mare parte din ceea ce AI trebuie să recunoască - cum ar fi câinii, pisicile sau oamenii - este deja bine stabilit. Accentul se pune acum pe îmbunătățirea acurateței și pe rafinarea modelelor, mai degrabă decât pe reinventarea capabilităților de recunoaștere. O mare parte din dezvoltarea AI de astăzi se învârte în jurul închiderii ultimelor mici lacune de precizie, mai degrabă decât a începe de la zero.

Provocări etice și modul în care Actul AI al Uniunii Europene și atenuarea reglementărilor din SUA vor afecta piața globală de IA

Când discutăm despre etica și legalitatea lucrului cu date, este, de asemenea, important să înțelegeți clar ce definește IA „etică”.

Cea mai mare provocare etică cu care se confruntă companiile astăzi în domeniul inteligenței artificiale este determinarea a ceea ce este considerat inacceptabil ca AI să facă sau să fie predat. Există un consens larg că IA etică ar trebui să ajute mai degrabă decât să dăuneze oamenilor și să evite înșelăciunea. Cu toate acestea, sistemele AI pot face erori sau „halucina”, ceea ce provoacă determinarea dacă aceste greșeli se califică drept dezinformare sau vătămare.

Etica IA este o dezbatere majoră în care organizații precum UNESCO se implică - cu principii cheie în jur auditabilitate și trasabilitate de ieșiri.

Cadrul legal privind accesul la date și instruirea în domeniul inteligenței artificiale joacă un rol semnificativ în conturarea peisajului etic al inteligenței artificiale. Țările cu mai puține restricții privind utilizarea datelor permit date de instruire mai accesibile, în timp ce națiunile cu legi mai stricte privind datele limitează disponibilitatea datelor pentru instruirea în domeniul inteligenței artificiale.

De exemplu, Europa, care a adoptat Legea AI, și SUA, care a anulat multe reglementări AI, oferă abordări contrastante care indică peisajul global actual.

Actul AI al Uniunii Europene are un impact semnificativ asupra companiilor care operează în Europa. Implementează un cadru de reglementare strict, ceea ce face dificilă utilizarea sau dezvoltarea anumitor modele de inteligență artificială pentru companii. Companiile trebuie să obțină licențe specifice pentru a lucra cu anumite tehnologii și, în multe cazuri, reglementările fac efectiv prea dificil pentru întreprinderile mai mici să respecte aceste reguli.

Drept urmare, unele startup-uri pot alege să părăsească Europa sau să evite cu totul să opereze acolo, similar impactului observat cu reglementările privind criptomoneda. Companiile mai mari care își permit investițiile necesare pentru a îndeplini cerințele de conformitate se pot adapta. Totuși, legea ar putea scoate inovația AI din Europa în favoarea unor piețe precum SUA sau Israel, unde reglementările sunt mai puțin stricte.

Decizia SUA de a investi resurse majore în dezvoltarea inteligenței artificiale cu mai puține restricții ar putea avea, de asemenea, dezavantaje, dar ar invita o mai mare diversitate pe piață. În timp ce Uniunea Europeană se concentrează pe siguranță și conformitatea cu reglementările, SUA va încuraja probabil asumarea mai multor riscuri și experimentarea de ultimă generație.

CEO și co-fondator al Keymakr — o companie de adnotare a datelor și Keylabs.ai — o platformă de adnotare a datelor. Michael este un pasionat de tehnologie și un explorator pasionat al extraordinarului și al inovației. El a purtat multe pălării, păstrând în același timp o expertiză profundă în domenii cheie. În calitate de inginer software cu experiență în colectarea datelor și cu experiență ca manager de cercetare și dezvoltare, Michael are o bază solidă atât în ​​roluri tehnice, cât și strategice, lucrând îndeaproape cu dezvoltarea de produse și soluții bazate pe inteligență artificială. Michael sprijină startup-urile și întreprinderile să-și perfecționeze operațiunile de afaceri, să realizeze potrivirea produsului pe piață și să stimuleze o creștere accelerată. Lucrul cu inteligența artificială și adnotarea îi permite să interacționeze direct cu diverse industrii – de la auto până la agricultură – și să joace un rol în promovarea progreselor și descoperirilor acestora.