Leader del pensiero

Il dilemma dei dati dell'IA: privacy, regolamentazione e futuro dell'IA etica

Pubblicato il 11 Marzo 2025

Michael Abramov, Fondatore e CEO di Introspector

Le soluzioni basate sull'intelligenza artificiale vengono rapidamente adottate in diversi settori, servizi e prodotti ogni giorno. Tuttavia, la loro efficacia dipende interamente dalla qualità dei dati su cui vengono addestrate, un aspetto spesso frainteso o trascurato nel processo di creazione del set di dati.

Mentre le autorità per la protezione dei dati intensificano i controlli su come le tecnologie di intelligenza artificiale si allineano alle normative sulla privacy e sulla protezione dei dati, le aziende si trovano ad affrontare una pressione crescente per reperire, annotare e perfezionare i set di dati in modo conforme ed etico.

Esiste davvero un approccio etico alla creazione di set di dati di intelligenza artificiale? Quali sono le maggiori sfide etiche per le aziende e come le stanno affrontando? E in che modo l'evoluzione dei quadri giuridici influisce sulla disponibilità e l'utilizzo dei dati di training? Esploriamo queste domande.

Privacy dei dati e intelligenza artificiale

Per sua natura, l'intelligenza artificiale richiede molto dati personali per eseguire attività. Ciò ha sollevato preoccupazioni sulla raccolta, il salvataggio e l'utilizzo di queste informazioni. Molte leggi in tutto il mondo regolano e limitano l'uso dei dati personali, dal GDPR e dal nuovo AI Act introdotto in Europa all'HIPAA negli Stati Uniti, che regola l'accesso ai dati dei pazienti nel settore medico.

Riferimento su quanto siano severe le leggi sulla protezione dei dati in tutto il mondo / DLA Piper

Ad esempio, quattordici stati degli Stati Uniti hanno attualmente leggi complete sulla privacy dei dati, con altri sei destinati a entrare in vigore nel 2025 e all'inizio del 2026. La nuova amministrazione ha segnalato un cambiamento nel suo approccio all'applicazione della privacy dei dati a livello federale. Un obiettivo chiave è la regolamentazione dell'IA, che enfatizza la promozione dell'innovazione piuttosto che l'imposizione di restrizioni. lo spostamento include abrogando i precedenti ordini esecutivi sull'intelligenza artificiale e introducendo nuove direttive per orientarne lo sviluppo e l'applicazione.

La legislazione sulla protezione dei dati è in evoluzione nei vari Paesi: in Europa le leggi sono più severe, mentre in Asia o in Africa tendono a essere meno severe.

Tuttavia, le informazioni di identificazione personale (PII), come immagini facciali, documenti ufficiali come passaporti o qualsiasi altro dato personale sensibile, sono generalmente limitate nella maggior parte dei paesi in una certa misura. Secondo l'UN Trade & Development, la raccolta, l'uso e la condivisione di informazioni personali a terze parti senza preavviso o consenso dei consumatori è una preoccupazione importante per la maggior parte del mondo. 137 dai Paesi 194 hanno normative che garantiscono la protezione dei dati e la privacy. Di conseguenza, la maggior parte delle aziende globali adottano ampie precauzioni per evitare di utilizzare le PII per la formazione dei modelli, poiché normative come quelle dell'UE proibiscono severamente tali pratiche, con rare eccezioni riscontrate in nicchie fortemente regolamentate come le forze dell'ordine.

Nel tempo, le leggi sulla protezione dei dati stanno diventando più complete e applicate a livello globale. Le aziende adattano le loro pratiche per evitare sfide legali e soddisfare i requisiti legali ed etici emergenti.

Quali metodi utilizzano le aziende per ottenere dati?

Quindi, quando si studiano i problemi di protezione dei dati per i modelli di training, è essenziale innanzitutto capire dove le aziende ottengono questi dati. Esistono tre fonti principali e primarie di dati.

Raccolta dei dati

Questo metodo consente di raccogliere dati da piattaforme di crowdsourcing, titoli multimediali e set di dati open source.

È importante notare che i media stock pubblici sono soggetti a diversi accordi di licenza. Anche una licenza per uso commerciale spesso afferma esplicitamente che il contenuto non può essere utilizzato per la formazione dei modelli. Queste aspettative differiscono da piattaforma a piattaforma e richiedono alle aziende di confermare la propria capacità di utilizzare il contenuto nei modi di cui hanno bisogno.

Anche quando le aziende di IA ottengono contenuti legalmente, possono comunque affrontare alcuni problemi. Il rapido avanzamento della formazione dei modelli di IA ha superato di gran lunga i quadri giuridici, il che significa che le regole e le normative che circondano i dati di formazione dell'IA sono ancora in evoluzione. Di conseguenza, le aziende devono rimanere informate sugli sviluppi legali e rivedere attentamente gli accordi di licenza prima di utilizzare contenuti di serie per la formazione dell'IA.

Creazione dei dati

Uno dei metodi di preparazione dei set di dati più sicuri prevede la creazione di contenuti unici, come la ripresa di persone in ambienti controllati come studi o location all'aperto. Prima di partecipare, gli individui firmano un modulo di consenso per utilizzare le proprie PII, specificando quali dati vengono raccolti, come e dove verranno utilizzati e chi vi avrà accesso. Ciò garantisce una protezione legale completa e dà alle aziende la certezza che non dovranno affrontare denunce di utilizzo illegale dei dati.

Lo svantaggio principale di questo metodo è il suo costo, soprattutto quando i dati vengono creati per casi limite o progetti su larga scala. Tuttavia, le grandi aziende e le imprese continuano sempre più a utilizzare questo approccio per almeno due motivi. In primo luogo, garantisce la piena conformità a tutti gli standard e alle normative legali. In secondo luogo, fornisce alle aziende dati completamente personalizzati in base ai loro scenari e alle loro esigenze specifiche, garantendo la massima accuratezza nell'addestramento del modello.

Generazione di dati sintetici

Utilizzo di strumenti software per creare immagini, testo o video basati su uno scenario dato. Tuttavia, i dati sintetici hanno delle limitazioni: vengono generati in base a parametri predefiniti e non hanno la variabilità naturale dei dati reali.

Questa mancanza può avere un impatto negativo sui modelli di intelligenza artificiale. Sebbene non sia rilevante per tutti i casi e non si verifichi sempre, è comunque importante ricordare che "collasso del modello” — un punto in cui un eccessivo affidamento sui dati sintetici provoca il degrado del modello, portando a risultati di scarsa qualità.

I dati sintetici possono comunque rivelarsi molto efficaci per compiti di base, come il riconoscimento di schemi generali, l'identificazione di oggetti o la distinzione di elementi visivi fondamentali come i volti.

Tuttavia, non è la soluzione migliore quando un'azienda ha bisogno di addestrare un modello completamente da zero o di gestire scenari rari o molto specifici.

Le situazioni più rivelatrici si verificano in ambienti in cabina, come un conducente distratto da un bambino, qualcuno che sembra affaticato al volante o persino casi di guida spericolata. Questi punti dati non sono comunemente disponibili nei set di dati pubblici, né dovrebbero esserlo, poiché coinvolgono individui reali in contesti privati. Poiché i modelli di intelligenza artificiale si basano su dati di addestramento per generare output sintetici, hanno difficoltà a rappresentare accuratamente scenari che non hanno mai incontrato.

Quando i dati sintetici falliscono, la soluzione sono i dati creati, raccolti in ambienti controllati con attori reali.

Fornitori di soluzioni dati come Macchina per scrivere chiavi piazzare telecamere nelle auto, assumere attori e registrare azioni come prendersi cura di un bambino, bere da un biberon o mostrare segni di stanchezza. Gli attori firmano contratti in cui acconsentono esplicitamente all'utilizzo dei loro dati per l'addestramento dell'IA, garantendo la conformità alle leggi sulla privacy.

Responsabilità nel processo di creazione del set di dati

Ogni partecipante al processo, dal cliente alla società di annotazione, ha responsabilità specifiche delineate nel proprio accordo. Il primo passo è stabilire un contratto, che specifica la natura della relazione, incluse clausole di non divulgazione e proprietà intellettuale.

Consideriamo la prima opzione per lavorare con i dati, ovvero quando vengono creati da zero. I diritti di proprietà intellettuale stabiliscono che tutti i dati creati dal fornitore appartengono alla società che li assume, il che significa che vengono creati per suo conto. Ciò significa anche che il fornitore deve garantire che i dati siano ottenuti legalmente e correttamente.

In qualità di azienda di soluzioni dati, Keymakr garantisce la conformità dei dati verificando innanzitutto la giurisdizione in cui i dati vengono creati, ottenendo il consenso appropriato da tutti gli individui coinvolti e garantendo che i dati possano essere utilizzati legalmente per la formazione sull'intelligenza artificiale.

È anche importante notare che una volta che i dati vengono utilizzati per l'addestramento del modello AI, diventa quasi impossibile determinare quali dati specifici hanno contribuito al modello perché l'AI li fonde tutti insieme. Quindi, l'output specifico tende a non essere il suo output, specialmente quando si discute di milioni di immagini.

Grazie al suo rapido sviluppo, questo settore stabilisce ancora linee guida chiare per la distribuzione delle responsabilità. Un fenomeno simile a quello delle auto a guida autonoma, dove le questioni relative alla responsabilità – che riguardi il conducente, il produttore o l'azienda produttrice di software – richiedono ancora una chiara distribuzione.

In altri casi, quando un fornitore di annotazioni riceve un set di dati per l'annotazione, presume che il cliente abbia ottenuto legalmente i dati. Se ci sono chiari segnali che i dati sono stati ottenuti illegalmente, il fornitore deve segnalarlo. Tuttavia, tali casi apparenti sono estremamente rari.

È inoltre importante sottolineare che le grandi aziende, le società e i marchi che tengono alla propria reputazione sono molto attenti alla provenienza dei dati, anche se non sono stati creati da zero ma presi da altre fonti legali.

In sintesi, la responsabilità di ciascun partecipante nel processo di elaborazione dei dati dipende dall'accordo. Si potrebbe considerare questo processo parte di una più ampia "catena della sostenibilità", in cui ogni partecipante ha un ruolo cruciale nel mantenimento degli standard legali ed etici.

Quali idee sbagliate esistono sul back-end dello sviluppo dell'intelligenza artificiale?

Un'idea sbagliata importante sullo sviluppo dell'IA è che i modelli di IA funzionino in modo simile ai motori di ricerca, raccogliendo e aggregando informazioni da presentare agli utenti in base alle conoscenze apprese. Tuttavia, i modelli di IA, in particolare i modelli linguistici, spesso funzionano in base alle probabilità piuttosto che alla comprensione genuina. Prevedono parole o termini in base alla verosimiglianza statistica, utilizzando modelli visti nei dati precedenti. L'IA non "sa" nulla; estrapola, indovina e aggiusta le probabilità.

Inoltre, molti presumono che l'addestramento dell'IA richieda enormi set di dati, ma molto di ciò che l'IA deve riconoscere, come cani, gatti o esseri umani, è già ben consolidato. L'attenzione ora è rivolta al miglioramento dell'accuratezza e al perfezionamento dei modelli piuttosto che alla reinvenzione delle capacità di riconoscimento. Gran parte dello sviluppo dell'IA oggi ruota attorno alla chiusura delle ultime piccole lacune nell'accuratezza piuttosto che all'inizio da zero.

Sfide etiche e come l'AI Act dell'Unione Europea e l'attenuazione delle normative statunitensi avranno un impatto sul mercato globale dell'IA

Quando si discute di etica e legalità del lavoro con i dati, è anche importante comprendere chiaramente cosa definisce l'intelligenza artificiale "etica".

La sfida etica più grande che le aziende devono affrontare oggi nell'AI è determinare cosa è considerato inaccettabile per l'AI fare o essere insegnato. C'è un ampio consenso sul fatto che l'AI etica dovrebbe aiutare piuttosto che danneggiare gli esseri umani ed evitare l'inganno. Tuttavia, i sistemi di AI possono commettere errori o "allucinare", il che rende difficile determinare se questi errori siano qualificabili come disinformazione o danno.

L'etica dell'intelligenza artificiale è un importante dibattito a cui partecipano organizzazioni come l'UNESCO, con principi chiave che la circondano verificabilità e tracciabilità delle uscite.

I quadri giuridici che regolano l'accesso ai dati e l'addestramento dell'IA svolgono un ruolo significativo nel definire il panorama etico dell'IA. I paesi con minori restrizioni sull'utilizzo dei dati consentono dati di addestramento più accessibili, mentre i paesi con leggi più severe in materia di dati limitano la disponibilità dei dati per l'addestramento dell'IA.

Ad esempio, l'Europa, che ha adottato l'AI Act, e gli Stati Uniti, che hanno abrogato molte normative sull'intelligenza artificiale, propongono approcci contrastanti che rispecchiano l'attuale panorama globale.

L'European Union AI Act sta avendo un impatto significativo sulle aziende che operano in Europa. Applica un quadro normativo rigido, rendendo difficile per le aziende utilizzare o sviluppare determinati modelli di IA. Le aziende devono ottenere licenze specifiche per lavorare con determinate tecnologie e, in molti casi, le normative rendono effettivamente troppo difficile per le aziende più piccole conformarsi a queste regole.

Di conseguenza, alcune startup potrebbero scegliere di lasciare l'Europa o di evitare del tutto di operare lì, in modo simile all'impatto riscontrato con le normative sulle criptovalute. Le aziende più grandi che possono permettersi l'investimento necessario per soddisfare i requisiti di conformità potrebbero adattarsi. Tuttavia, l'atto potrebbe spingere l'innovazione dell'IA fuori dall'Europa a favore di mercati come gli Stati Uniti o Israele, dove le normative sono meno severe.

La decisione degli Stati Uniti di investire ingenti risorse nello sviluppo dell'IA con meno restrizioni potrebbe anche presentare degli svantaggi, ma favorire una maggiore diversificazione del mercato. Mentre l'Unione Europea si concentra sulla sicurezza e sulla conformità normativa, gli Stati Uniti probabilmente promuoveranno una maggiore propensione al rischio e una sperimentazione all'avanguardia.

Argomenti correlati:alla privacy privacy dei dati

Michael Abramov, fondatore e CEO di Introspector

Michael Abramov è il fondatore e CEO di Introspettore, apportando oltre 15 anni di esperienza in ingegneria del software e sistemi di intelligenza artificiale per la visione artificiale alla creazione di strumenti di etichettatura di livello aziendale.

Michael ha iniziato la sua carriera come ingegnere del software e responsabile della ricerca e sviluppo, sviluppando sistemi di dati scalabili e gestendo team di ingegneria interfunzionali. Fino al 2025, ha ricoperto il ruolo di CEO di Macchina per scrivere chiavi, un'azienda di servizi di etichettatura dei dati, dove è stato pioniere nei flussi di lavoro con coinvolgimento umano, nei sistemi di controllo qualità avanzati e negli strumenti su misura per supportare le esigenze di dati autonomi e di visione artificiale su larga scala.

Ha conseguito una laurea in Informatica e una formazione in ingegneria e arti creative, offrendo una prospettiva multidisciplinare alla risoluzione di problemi complessi. Michael vive all'intersezione tra innovazione tecnologica, leadership strategica di prodotto e impatto nel mondo reale, guidando la prossima frontiera dei sistemi autonomi e dell'automazione intelligente.

Unite.AI