Connect with us

Wilson Pang, Co-Autore di Real World AI – Serie di Interviste

Interviste

Wilson Pang, Co-Autore di Real World AI – Serie di Interviste

mm

Wilson Pang si è unito ad Appen nel novembre 2018 come CTO e è responsabile dei prodotti e della tecnologia dell’azienda. Wilson ha oltre diciannove anni di esperienza nell’ingegneria del software e nella scienza dei dati. Prima di unirsi ad Appen, Wilson era il chief data officer di Ctrip in Cina, la seconda più grande azienda di agenzie di viaggio online del mondo, dove ha guidato gli ingegneri dei dati, gli analisti, i responsabili dei prodotti dei dati e gli scienziati per migliorare l’esperienza degli utenti e aumentare l’efficienza operativa che ha fatto crescere l’azienda. Prima di allora, era il direttore senior dell’ingegneria presso eBay in California e ha fornito la leadership in vari domini, tra cui servizi e soluzioni di dati, scienza della ricerca, tecnologia di marketing e sistemi di fatturazione. Ha lavorato come architetto presso IBM prima di eBay, costruendo soluzioni tecnologiche per vari clienti. Wilson ha ottenuto la laurea magistrale e la laurea in ingegneria elettrica presso l’Università di Zhejiang in Cina.

Discutiamo del suo nuovo libro: Il Mondo Reale dell’AI: Una Guida Pratica per il Machine Learning Responsabile

Descrivi come, quando hai guidato i team di scienza della ricerca di eBay, una delle tue prime lezioni con il machine learning fosse capire l’importanza di sapere quali metriche misurare. L’esempio dato era come la metrica “acquisti per sessione” non teneva conto del valore monetario di un articolo. Come possono le aziende capire meglio quali metriche devono misurare per evitare problemi simili?

Inizia con gli obiettivi che il tuo team attribuisce al modello di AI – nel nostro caso, volevamo aumentare il fatturato con il machine learning. Quando si associano metriche agli obiettivi, pensa a quali meccanismi quelle metriche produrranno, una volta rilasciato il modello e le persone iniziano a interagire con esso, ma anche prendi nota delle tue ipotesi. Nel nostro caso, abbiamo ipotizzato che il modello si sarebbe ottimizzato per il fatturato, ma il numero di acquisti per sessione non si traduceva in ciò, perché il modello si stava ottimizzando per un alto numero di vendite a basso valore, e alla fine della giornata non stavamo guadagnando più denaro. Una volta che ci siamo resi conto di ciò, siamo stati in grado di cambiare le metriche e puntare il modello nella direzione giusta. Quindi, determinare le metriche granulari, così come notare le ipotesi, è fondamentale per il successo di un progetto.

Cosa hai imparato personalmente dalla ricerca e dalla stesura di questo libro?

Abbiamo molti problemi diversi che possono essere risolti dall’AI di diverse aziende e diversi settori. I casi d’uso possono essere molto diversi, la soluzione AI potrebbe essere diversa, i dati per addestrare quella soluzione AI potrebbero essere diversi. Tuttavia, nonostante tutte queste differenze, gli errori che le persone hanno fatto durante il loro percorso AI sono piuttosto simili. Quegli errori si sono verificati di nuovo e di nuovo in tutte le aziende di tutti i settori.

Abbiamo condiviso alcune migliori pratiche comuni per l’implementazione di progetti AI con la speranza di aiutare più persone e aziende a evitare quegli errori e guadagnare loro la fiducia per distribuire AI responsabile.

Quali sono alcune delle lezioni più importanti che sperate che le persone trarranno dalla lettura di questo?

Crediamo fermamente che l’uso pensato, responsabile ed etico della tecnologia del machine learning possa rendere il mondo un posto più giusto, equo e inclusivo. La tecnologia del machine learning promette di ridisegnare tutto nel mondo aziendale, ma non deve essere difficile. Ci sono metodi e processi collaudati che i team possono seguire e ottenere la fiducia per distribuire in produzione.

Un’altra lezione chiave è che i titolari di business (come i responsabili di prodotto) e i membri del team sul lato più tecnico (come gli ingegneri e gli scienziati dei dati) devono parlare una lingua comune. Per distribuire con successo AI, i leader devono colmare il divario tra i team, fornendo ai specialisti di business e al livello C enough contesto per conversare efficientemente con gli implementatori tecnici.

Molte persone pensano prima al codice quando pensano all’AI. Una delle lezioni chiave nel libro è che i dati sono fondamentali per il successo di un modello AI. C’è molto che si accompagna ai dati, dalla raccolta all’etichettatura all’archiviazione e ogni passaggio influenzerà il successo del modello. I deploy di AI più di successo sono quelli che pongono un’enfasi alta sui dati e si sforzano di migliorare continuamente questo aspetto del loro modello ML.

Tutto ciò di cui ha bisogno l’AI nel mondo reale è un team cross-funzionale e uno spirito innovativo.

Si discute di determinare quando l’accuratezza di un modello AI è sufficientemente alta per supportare l’uso di AI. Qual è il modo più semplice per valutare il tipo di accuratezza necessaria?

Dipende dai casi d’uso e dalla tolleranza al rischio. I team che sviluppano AI dovrebbero sempre avere una fase di test in cui determinano i livelli di accuratezza e i limiti accettabili per le loro organizzazioni e stakeholder. Per i casi d’uso vita-morte – dove c’è un potenziale danno se l’AI va storto, come nel caso del software di condanna, auto a guida autonoma, casi medici, la barra è molto, molto alta – e i team devono mettere in atto contromisure nel caso in cui i modelli siano errati. Per i casi d’uso più tolleranti, dove c’è molta soggettività in gioco – come il contenuto, la ricerca o la rilevanza degli annunci, i team possono affidarsi al feedback degli utenti per continuare ad aggiustare i loro modelli anche mentre sono in produzione. Naturalmente, ci sono alcuni casi d’uso ad alto rischio, dove il materiale illegale o immorale potrebbe essere mostrato agli utenti, quindi le salvaguardie e i meccanismi di feedback devono essere in atto anche qui.

Puoi definire l’importanza di definire il successo per un progetto fin dall’inizio?

È altrettanto importante iniziare con un problema aziendale quanto definire il successo fin dall’inizio, poiché i due vanno di pari passo. Seguendo l’esempio nel libro sull’azienda automobilistica che utilizza l’AI per etichettare le immagini, non hanno determinato cosa significasse il successo perché non avevano definito un problema aziendale da risolvere. Il successo per loro avrebbe potuto essere una serie di cose diverse, il che rende difficile risolvere un problema, anche per squadre di persone, figuriamoci per un modello di machine learning con un ambito fisso. Se avessero stabilito di etichettare tutti i veicoli con ammaccature per creare un elenco di veicoli che necessitavano di riparazioni e avessero definito il successo come etichettare con accuratezza l’80% di tutte le ammaccature nel parco auto usato, allora quando avrebbero etichettato con accuratezza l’85%, la squadra avrebbe definito il successo. Ma se quel successo non è legato al problema aziendale e all’impatto aziendale diretto, è difficile valutare il progetto al di fuori della definizione focalizzata dell’accuratezza di etichettatura in questo esempio. Qui, il problema aziendale era più complesso e l’etichettatura delle ammaccature era solo un componente di esso. Nel loro caso, avrebbero potuto fare meglio definendo il successo come risparmiare tempo/denaro sul processo di richiesta o ottimizzare il processo di riparazione del X% e poi tradurre l’impatto di etichettatura in risultati aziendali reali.

Quanto è importante assicurarsi che gli esempi di dati di addestramento coprano tutti i casi d’uso che si verificheranno nel deploy di produzione?

È estremamente importante che il modello sia addestrato su tutti i casi d’uso per evitare pregiudizi. Ma è anche importante notare che, mentre è impossibile coprire assolutamente tutti i casi d’uso in produzione, i team che costruiscono AI devono capire i loro dati di produzione, così come i loro dati di addestramento, in modo che addestrino l’AI per ciò che incontrerà in produzione. L’accesso ai dati di addestramento che provengono da grandi gruppi diversi con vari casi d’uso sarà fondamentale per il successo del modello. Ad esempio, un modello addestrato a riconoscere i pet di una persona in un’immagine caricata deve essere addestrato su tutti i tipi di pet; cani, gatti, uccelli, piccoli mammiferi, lucertole, ecc. Se il modello è addestrato solo su cani, gatti e uccelli, allora quando qualcuno carica un’immagine con il suo porcellino d’India, il modello non sarà in grado di identificarlo. Mentre questo è un esempio molto semplice, mostra come l’addestramento su molti casi d’uso probabili sia fondamentale per il successo di un modello.

Si discute nel libro della necessità di sviluppare buone abitudini di igiene dei dati dall’alto verso il basso, quali sono i primi passi comuni per coltivare questa abitudine?

Le buone abitudini di igiene dei dati aumenteranno l’usabilità dei dati interni e li prepareranno per i casi d’uso di ML. L’intera azienda deve diventare brava a organizzare e tenere traccia dei propri set di dati. Un modo sicuro per raggiungere ciò è renderlo un requisito aziendale e tracciare l’implementazione in modo che ci siano pochi report che finiscono per essere lavori personalizzati, e i team lavorino sempre più con pipeline di dati canalizzate in un repository centrale, con una chiara ontologia. Un’altra buona pratica è tenere traccia di quando e dove i dati sono stati raccolti e cosa è successo loro prima di essere inseriti nel database, nonché stabilire processi per pulire i dati non utilizzati o obsoleti periodicamente.

Grazie per la grande intervista, per i lettori che sono interessati a saperne di più, consiglio di leggere il libro Il Mondo Reale dell’AI: Una Guida Pratica per il Machine Learning Responsabile.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.