Leader di pensiero
Come i pregiudizi uccideranno la tua strategia AI/ML e cosa fare al riguardo
‘Pregiudizio’ in modelli di qualsiasi tipo descrive una situazione in cui il modello risponde in modo inaccurato a prompt o dati di input perché non è stato addestrato con abbastanza dati di alta qualità e diversificati per fornire una risposta accurata. Un esempio sarebbe la funzione di sblocco del telefono con riconoscimento facciale di Apple, che è fallita a un tasso significativamente più alto per le persone con carnagione più scura rispetto ai toni più chiari. Il modello non era stato addestrato su abbastanza immagini di persone con la pelle scura. Questo è stato un esempio relativamente a basso rischio di pregiudizio, ma è esattamente il motivo per cui il Regolamento AI dell’UE ha stabilito requisiti per dimostrare l’efficacia del modello (e i controlli) prima di essere messo sul mercato. I modelli con output che impattano sul business, finanziario, salute o situazioni personali devono essere affidabili, altrimenti non saranno utilizzati.
Affrontare i pregiudizi con i dati
Grandi volumi di dati di alta qualità
Tra molte importanti pratiche di gestione dei dati, un componente chiave per superare e minimizzare i pregiudizi nei modelli AI/ML è acquisire grandi volumi di dati di alta qualità e diversificati. Ciò richiede la collaborazione con molte organizzazioni che hanno tali dati. Tradizionalmente, l’acquisizione dei dati e la collaborazione sono sfidate da preoccupazioni relative alla privacy e/o alla protezione della proprietà intellettuale – i dati sensibili non possono essere inviati al proprietario del modello e il proprietario del modello non può rischiare di perdere la sua proprietà intellettuale con un proprietario di dati. Un workaround comune è lavorare con dati mock o sintetici, che possono essere utili ma hanno anche limitazioni rispetto all’uso di dati reali e completi. È qui che le tecnologie di miglioramento della privacy (PETs) forniscono le risposte necessarie.
Dati sintetici: vicini, ma non abbastanza
I dati sintetici sono generati artificialmente per imitare i dati reali. Ciò è difficile da fare, ma sta diventando leggermente più facile con gli strumenti AI. I dati sintetici di buona qualità dovrebbero avere le stesse distanze di caratteristiche dei dati reali, altrimenti non saranno utili. I dati sintetici di alta qualità possono essere utilizzati per aumentare efficacemente la diversità dei dati di addestramento riempiendo i gap per le popolazioni più piccole e marginalizzate, o per le popolazioni per cui il fornitore di AI semplicemente non ha abbastanza dati. I dati sintetici possono anche essere utilizzati per affrontare casi limite che potrebbero essere difficili da trovare in volumi adeguati nel mondo reale. Inoltre, le organizzazioni possono generare un set di dati sintetici per soddisfare i requisiti di residenza e privacy dei dati che bloccano l’accesso ai dati reali. Ciò sembra grande; tuttavia, i dati sintetici sono solo un pezzo del puzzle, non la soluzione.
Una delle limitazioni ovvie dei dati sintetici è la disconnessione dal mondo reale. Ad esempio, i veicoli autonomi addestrati solo con dati sintetici avranno difficoltà con condizioni stradali reali e impreviste. Inoltre, i dati sintetici ereditano i pregiudizi dai dati del mondo reale utilizzati per generarli – praticamente sconfiggendo lo scopo della nostra discussione. In conclusione, i dati sintetici sono un’opzione utile per la fine-tuning e l’affrontare casi limite, ma miglioramenti significativi nell’efficacia del modello e nella minimizzazione dei pregiudizi dipendono ancora dall’accesso ai dati del mondo reale.
Un modo migliore: dati reali tramite flussi di lavoro abilitati da PETs
Le PETs proteggono i dati mentre sono in uso. Quando si tratta di modelli AI/ML, possono anche proteggere la proprietà intellettuale del modello in esecuzione – “due uccelli con una pietra”. Le soluzioni che utilizzano le PETs offrono l’opzione di addestrare modelli su set di dati reali e sensibili che non erano precedentemente accessibili a causa di preoccupazioni relative alla privacy e alla sicurezza dei dati. Questo sblocco dei flussi di dati ai dati reali è la migliore opzione per ridurre i pregiudizi. Ma come funzionerebbe?
Per ora, le opzioni principali iniziano con un ambiente di calcolo confidenziale. Quindi, un’integrazione con una soluzione software basata su PETs che la rende pronta all’uso e risolve i requisiti di governance e sicurezza dei dati che non sono inclusi in un ambiente di esecuzione attendibile standard (TEE). Con questa soluzione, i modelli e i dati sono tutti crittografati prima di essere inviati a un ambiente di calcolo sicuro. L’ambiente può essere ospitato ovunque, il che è importante quando si affrontano determinati requisiti di localizzazione dei dati. Ciò significa che sia la proprietà intellettuale del modello che la sicurezza dei dati di input vengono mantenute durante il calcolo – nemmeno il fornitore dell’ambiente di esecuzione attendibile ha accesso ai modelli o ai dati all’interno di esso. I risultati crittografati vengono quindi inviati indietro per la revisione e i log sono disponibili per la revisione.
Questo flusso sblocca i migliori dati di alta qualità, indipendentemente da dove si trovino o chi li possieda, creando un percorso per la minimizzazione dei pregiudizi e la creazione di modelli ad alta efficacia che possiamo fidare. Questo flusso è anche ciò che il Regolamento AI dell’UE stava descrivendo nei suoi requisiti per un sandbox regolatorio AI.
Facilitare la conformità etica e legale
Acquisire dati di alta qualità e reali è difficile. I requisiti di privacy e localizzazione dei dati limitano immediatamente i set di dati a cui le organizzazioni possono accedere. Perché l’innovazione e la crescita possano verificarsi, i dati devono fluire verso coloro che possono estrarne il valore.
L’Art. 54 del Regolamento AI dell’UE fornisce requisiti per i tipi di modelli “ad alto rischio” in termini di ciò che deve essere dimostrato prima che possano essere portati sul mercato. In breve, i team devono utilizzare dati del mondo reale all’interno di un AI Regulatory Sandbox per dimostrare un’efficacia del modello sufficiente e la conformità con tutti i controlli dettagliati nel Titolo III Capitolo 2. I controlli includono monitoraggio, trasparenza, spiegabilità, sicurezza dei dati, protezione dei dati, minimizzazione dei dati e protezione del modello – pensa DevSecOps + Data Ops.
La prima sfida sarà trovare un set di dati del mondo reale da utilizzare – poiché questi sono inherentemente dati sensibili per tali tipi di modelli. Senza garanzie tecniche, molte organizzazioni potrebbero esitare a fidarsi del fornitore del modello con i loro dati o non saranno autorizzate a farlo. Inoltre, il modo in cui l’atto definisce un “AI Regulatory Sandbox” è una sfida in sé. Alcuni dei requisiti includono la garanzia che i dati vengano rimossi dal sistema dopo che il modello è stato eseguito, nonché i controlli di governance, l’applicazione e la segnalazione per dimostrare ciò.
Molte organizzazioni hanno provato a utilizzare data clean room (DCR) e ambienti di esecuzione attendibili (TEE) pronti all’uso. Tuttavia, da soli, queste tecnologie richiedono una notevole esperienza e lavoro per operativizzare e soddisfare i requisiti regolatori dei dati e dell’AI.
Le DCR sono più semplici da usare, ma non ancora utili per esigenze AI/ML più robuste. I TEE sono server sicuri e hanno ancora bisogno di una piattaforma di collaborazione integrata per essere utili, in fretta. Ciò, tuttavia, identifica un’opportunità per le piattaforme di tecnologia di miglioramento della privacy per integrarsi con i TEE per rimuovere il lavoro, banalizzando l’impostazione e l’uso di un sandbox regolatorio AI, e quindi l’acquisizione e l’uso di dati sensibili.
Abilitando l’uso di set di dati più diversificati e completi in modo da preservare la privacy, queste tecnologie aiutano a garantire che le pratiche AI e ML siano conformi agli standard etici e ai requisiti legali relativi alla privacy dei dati (ad esempio, GDPR e Regolamento AI dell’UE in Europa). In sintesi, mentre i requisiti sono spesso accolti con mugugni e sospiri, questi requisiti ci stanno semplicemente guidando a costruire modelli migliori che possiamo fidare e su cui possiamo fare affidamento per importanti decisioni basate sui dati, proteggendo al contempo la privacy dei soggetti dei dati utilizzati per lo sviluppo e la personalizzazione del modello.










