interviste
Marlos C. Machado, Professore a contratto presso l'Università di Alberta, Amii Fellow, CIFAR AI Chair – Serie di interviste

Marlos C. Machado è un Fellow in Residence presso l'Alberta Machine Intelligence Institute (Amii), un professore a contratto presso l'Università di Alberta e un borsista Amii, dove detiene anche una cattedra canadese CIFAR AI. La ricerca di Marlos si concentra principalmente sul problema dell'apprendimento per rinforzo. Ha ricevuto il suo B.Sc. e M.Sc. dall'UFMG, in Brasile, e il suo dottorato di ricerca. dell'Università di Alberta, dove ha reso popolare l'idea di un'esplorazione temporalmente estesa attraverso le opzioni.
È stato ricercatore presso DeepMind dal 2021 al 2023 e presso Google Brain dal 2019 al 2021, periodo durante il quale ha dato importanti contributi all'apprendimento per rinforzo, in particolare all'applicazione dell'apprendimento per rinforzo profondo per controllare i palloni stratosferici di Loon. Il lavoro di Marlos è stato pubblicato nelle principali conferenze e riviste sull'intelligenza artificiale, tra cui Nature, JMLR, JAIR, NeurIPS, ICML, ICLR e AAAI. La sua ricerca è stata descritta anche in media popolari come BBC, Bloomberg TV, The Verge e Wired.
Ci siamo seduti per un'intervista all'annuale 2023 Limite superiore conferenza sull'intelligenza artificiale che si tiene a Edmonton, AB e ospitata da Amii (Alberta Machine Intelligence Institute).
Il tuo obiettivo principale è l'apprendimento per rinforzo, cosa ti attira verso questo tipo di apprendimento automatico?
Ciò che mi piace dell'apprendimento per rinforzo è questo concetto: è un modo di apprendere molto naturale, a mio parere, ovvero si impara attraverso l'interazione. Sembra che sia il modo in cui impariamo noi esseri umani, in un certo senso. Non mi piace antropomorfizzare l'intelligenza artificiale, ma è proprio questo modo intuitivo in cui provi cose, alcune cose ti fanno sentire bene, altre ti fanno sentire male, e impari a fare ciò che ti fa sentire meglio. Una delle cose che mi affascina dell'apprendimento per rinforzo è il fatto che, poiché interagisci effettivamente con il mondo, sei l'agente di cui parliamo, sta provando cose nel mondo e l'agente può formulare un'ipotesi e testarla.
Il motivo per cui questo è importante è perché permette la scoperta di nuovi comportamenti. Ad esempio, uno degli esempi più famosi è AlphaGo, la mossa 37 di cui parlano nel documentario, che è quella mossa che la gente dice essere creativa. Era qualcosa di mai visto prima, ci ha lasciato tutti sbalorditi. Non è da nessuna parte, è solo interagendo con il mondo che si arriva a scoprire queste cose. Si acquisisce questa capacità di scoprire, come uno dei progetti a cui ho lavorato, che consisteva nel far volare palloni aerostatici visibili nella stratosfera, e anche noi abbiamo visto cose molto simili.
Abbiamo visto emergere comportamenti che hanno lasciato tutti colpiti e come se non ci avessimo mai pensato, ma è geniale. Penso che l'apprendimento per rinforzo sia in una posizione unica per permetterci di scoprire questo tipo di comportamento perché si interagisce, perché in un certo senso, una delle cose davvero difficili sono i controfattuali, come cosa sarebbe successo se avessi fatto quello invece di quello che ho fatto? Questo è un problema estremamente difficile in generale, ma in molti contesti negli studi di apprendimento automatico, non c'è nulla che si possa fare al riguardo. Nell'apprendimento per rinforzo puoi chiederti: "Cosa sarebbe successo se avessi fatto quello?". Potrei anche provarci la prossima volta che mi capita. Penso che questo aspetto interattivo mi piaccia molto.
Ovviamente non sarò ipocrita, penso che molte delle fantastiche applicazioni fornite con esso lo abbiano reso piuttosto interessante. Come tornare indietro di decenni e decenni fa, anche quando parliamo dei primi esempi di grande successo dell'apprendimento per rinforzo, tutto questo mi ha reso molto attraente.
Qual è stata la tua applicazione storica preferita?
Penso che ce ne siano due molto famosi, uno è l'elicottero volante che hanno realizzato a Stanford con l'apprendimento per rinforzo, e l'altro è TD-Gammon, che è un giocatore di backgammon che è diventato campione del mondo. Questo accadeva negli anni '90, e quindi durante il mio dottorato, mi sono assicurato di fare un tirocinio in IBM con Gerald Tesauro e Gerald Tesauro era il responsabile del progetto TD-Gammon, quindi era davvero fantastico. È buffo perché quando ho iniziato a occuparmi di apprendimento per rinforzo, non ero pienamente consapevole di cosa fosse. Quando ho fatto domanda per la scuola di specializzazione, ricordo di aver visitato molti siti web di professori perché volevo occuparmi di apprendimento automatico, in generale, e ho letto le descrizioni delle ricerche di tutti, e ho pensato: "Oh, questo è interessante". Ripensandoci, senza conoscere il campo, ho scelto tutti i professori famosi nel nostro apprendimento per rinforzo, ma non perché fossero famosi, ma perché la descrizione delle loro ricerche mi attraeva. Ho pensato: "Oh, questo sito è davvero bello, voglio lavorare con questo tizio, questo tizio e questa donna", quindi in un certo senso è stato...
Come li hai trovati organicamente.
Esatto, quindi quando ripenso al passato dico: "Oh, queste sono le persone con cui ho fatto domanda di lavoro molto tempo fa", oppure questi sono i documenti di cui prima di sapere effettivamente cosa stavo facendo, leggevo la descrizione nel documento di qualcun altro e pensavo: "Oh, questa è una cosa che dovrei leggere", e tornavo costantemente all'apprendimento per rinforzo.
Mentre lavoravi in ​​Google Brain, hai lavorato alla navigazione autonoma dei palloni stratosferici. Perché questo è stato un buon caso d'uso per fornire l'accesso a Internet in aree difficili da raggiungere?
Non sono un esperto in materia, ma questo è il tema su cui stava lavorando Loon, la sussidiaria di Alphabet. Quando si analizza il modo in cui forniamo internet a molte persone nel mondo, si costruisce un'antenna, ad esempio a Edmonton, e quest'antenna permette di servire internet in una regione di, diciamo, cinque o sei chilometri di raggio. Se si installa un'antenna nel centro di New York, si servono milioni di persone, ma ora immaginate di cercare di servire internet a una tribù nella foresta pluviale amazzonica. Magari ci sono 50 persone nella tribù, il costo economico di installare un'antenna lì rende tutto molto difficile, per non parlare dell'accesso a quella regione.
Dal punto di vista economico, non ha senso fare un grande investimento infrastrutturale in una regione così scarsamente popolata e difficile da raggiungere. L'idea dei palloni aerostatici era più o meno questa: "E se potessimo costruire un'antenna davvero alta? E se potessimo costruire un'antenna alta 20 chilometri?". Certo, non sappiamo come costruire quell'antenna, ma potremmo piazzare un pallone aerostatico lì, e poi il pallone sarebbe in grado di servire una regione con un raggio 10 volte maggiore, o se parliamo di raggio, un'area di Internet 100 volte più grande. Se lo metti lì, diciamo nel mezzo della foresta o della giungla, allora forse potresti servire diverse tribù che altrimenti avrebbero bisogno di una singola antenna per ciascuna di esse.
Una delle motivazioni era quella di fornire l'accesso a internet a queste regioni difficili da raggiungere. Ricordo che il motto di Loon non era quello di fornire internet al prossimo miliardo di persone, ma di fornire internet all'ultimo miliardo di persone, il che era estremamente ambizioso in un certo senso. Non si tratta del prossimo miliardo, ma del miliardo di persone più difficili da raggiungere.
Quali erano i problemi di navigazione che stavi cercando di risolvere?
Questi palloni funzionano senza propulsione, proprio come le persone che pilotano le mongolfiere: o sali o scendi e trovi la corrente d'aria che ti spinge in una direzione specifica, poi cavalchi quel vento, e poi pensi: "Oh, non voglio più andarci", forse poi sali o scendi e ne trovi un'altra e così via. Questo è ciò che fanno anche con quei palloni. Non è una mongolfiera, è un pallone a volume fisso che vola nella stratosfera.
Tutto ciò che può fare, in un certo senso, dal punto di vista della navigazione, è salire, scendere o rimanere dov'è, e poi deve trovare venti che lo portino dove vuole. In questo senso, è così che navigheremmo, e ci sono davvero tante sfide. La prima è che, parlando prima di formulazione, si vuole essere in una regione, servire Internet, ma si vuole anche assicurarsi che questi palloni siano alimentati a energia solare, che si conservi l'energia. C'è questo problema di ottimizzazione multi-obiettivo, non solo per assicurarmi di essere nella regione in cui voglio essere, ma anche per essere in un certo senso efficiente dal punto di vista energetico, quindi questa è la prima cosa.
Questo era il problema in sé, ma poi, quando si osservano i dettagli, non si sa come sono i venti, si sa come sono i venti dove ci si trova, ma non si sa come sono i venti a 500 metri sopra di noi. Si ha quella che nell'IA chiamiamo osservabilità parziale, quindi non si hanno quei dati. Si possono fare previsioni, e ci sono articoli scritti a riguardo, ma le previsioni spesso possono essere sbagliate fino a 90 gradi. È un problema davvero difficile nel senso di come si gestisce questa osservabilità parziale, è un problema dimensionale estremamente elevato perché stiamo parlando di centinaia di diversi strati di vento, e poi bisogna considerare la velocità del vento, la sua direzione, il modo in cui lo abbiamo modellato, quanto siamo sicuri di quella previsione dell'incertezza.
Questo rende il problema molto difficile da gestire. Una delle cose con cui abbiamo avuto più difficoltà in quel progetto è che, una volta fatto tutto e così via, ci siamo chiesti come potevamo trasmettere quanto fosse difficile questo problema. Perché è difficile comprenderlo, perché non è una cosa che si vede sullo schermo, sono centinaia di dimensioni e venti, e quando è stata l'ultima volta che ho avuto una misurazione di quel vento? In un certo senso, devi assimilare tutto questo mentre pensi alla potenza, all'ora del giorno, a dove vuoi essere, è un sacco di cose.
Cosa studia il machine learning? Si occupa semplicemente dell'andamento del vento e della temperatura?
Il modo in cui funziona è che avevamo un modello dei venti che era un sistema di apprendimento automatico, ma non era apprendimento per rinforzo. Hai dati storici su tutti i tipi di altitudini diverse, quindi abbiamo costruito un modello di apprendimento automatico su quello. Quando dico "noi", non facevo parte di questo, questa era una cosa che Loon faceva anche prima che Google Brain fosse coinvolto. Avevano questo modello del vento che andava oltre le diverse altitudini, quindi come si fa a interpolare tra le diverse altitudini?
Si potrebbe dire: "Diciamo che due anni fa il vento era così, ma non sappiamo come fosse a 10 metri di altezza". Poi si aggiunge un processo gaussiano, e ci sono articoli scritti sull'efficacia di questa modellazione. Noi l'abbiamo fatto partendo da una prospettiva di apprendimento per rinforzo: avevamo un ottimo simulatore della dinamica del pallone, e poi avevamo anche questo simulatore del vento. Poi siamo tornati indietro nel tempo e abbiamo detto: "Facciamo finta di essere nel 2010". Abbiamo dati su come era il vento nel 2010 in tutto il mondo, ma molto approssimativi, ma poi possiamo sovrapporre questo modello di apprendimento automatico, questo processo gaussiano, in modo da ottenere effettivamente le misurazioni dei venti, e poi possiamo introdurre rumore, possiamo anche fare un sacco di cose.
Poi alla fine, poiché abbiamo la dinamica del modello e abbiamo i venti e torniamo indietro nel tempo fingendo che questo sia il punto in cui eravamo, allora abbiamo effettivamente un simulatore.
È come un gemello digitale del passato.
Esatto, abbiamo progettato una funzione di ricompensa che permettesse di rimanere in carreggiata e di risparmiare energia, ma abbiamo progettato questa funzione di ricompensa in modo che il pallone imparasse interagendo con questo mondo, ma può interagire con il mondo solo perché non sappiamo come modellare il meteo e i venti, ma perché facevamo finta di essere nel passato, e poi siamo riusciti a imparare a navigare. In pratica, la domanda era: salgo, scendo o resto? Considerando tutto quello che succede intorno a me, in fin dei conti, la conclusione è che voglio fornire internet a quella regione. Questo era il problema, in un certo senso.
Quali sono alcune delle sfide nell'implementazione dell'apprendimento per rinforzo nel mondo reale rispetto a un'ambientazione di gioco?
Penso che ci siano un paio di sfide. Non credo che riguardino necessariamente i giochi e il mondo reale, ma piuttosto la ricerca fondamentale e quella applicata. Perché si potrebbe fare ricerca applicata nei giochi, diciamo che si sta cercando di implementare il modello successivo in un gioco che verrà distribuito a milioni di persone, ma credo che una delle sfide principali sia l'ingegnerizzazione. Quando si lavora, spesso si usano i giochi come ambiente di ricerca perché catturano molte delle proprietà che ci interessano, ma le catturano in un insieme di vincoli più ben definiti. Per questo motivo, possiamo fare ricerca, possiamo convalidare l'apprendimento, ma è un insieme più sicuro. Forse "più sicuro" non è la parola giusta, ma è un contesto più vincolato che comprendiamo meglio.
Non che la ricerca debba necessariamente essere molto diversa, ma penso che il mondo reale porti con sé molte sfide aggiuntive. Si tratta di implementare sistemi come i vincoli di sicurezza, come quando dovevamo assicurarci che la soluzione fosse sicura. Quando si gioca e basta, non ci si pensa necessariamente. Come ci si assicura che il pallone non faccia qualcosa di stupido, o che l'agente di apprendimento per rinforzo non abbia imparato qualcosa che non avevamo previsto, e che questo possa avere conseguenze negative? Questa era una delle nostre massime preoccupazioni: la sicurezza. Naturalmente, se si gioca e basta, non ci preoccupiamo più di tanto; nel peggiore dei casi, si perde la partita.
Questa è la sfida, l'altra è lo stack di ingegneria. È molto diverso rispetto a quando sei un ricercatore che interagisce da solo con un videogioco perché vuoi validarlo, va bene, ma ora hai uno stack di ingegneria di un prodotto completo con cui devi confrontarti. Non è che ti lasceranno semplicemente sbizzarrirti e fare quello che vuoi, quindi penso che tu debba acquisire molta più familiarità anche con quel componente aggiuntivo. Penso che anche le dimensioni del team possano variare notevolmente, come Loon all'epoca, avevano decine se non centinaia di persone. Naturalmente interagivamo ancora con un piccolo numero di loro, ma loro avevano una sala di controllo che poteva effettivamente parlare con il personale dell'aviazione.
Non ne avevamo idea, ma in un certo senso ci sono molti più stakeholder. Credo che gran parte della differenza risieda, da un lato, nell'ingegneria, nella sicurezza e così via, e dall'altro, ovviamente, nel fatto che le tue ipotesi non reggono. Molte delle ipotesi su cui si basano questi algoritmi, quando vengono applicate al mondo reale, non reggono, e quindi bisogna capire come gestirle. Il mondo non è così amichevole come qualsiasi applicazione che si voglia realizzare nei videogiochi, soprattutto se si tratta di un gioco molto limitato che si sta realizzando da soli.
Un esempio che apprezzo molto è che ci hanno dato tutto, e noi abbiamo detto: "Ok, ora possiamo provare alcune di queste cose per risolvere questo problema", e poi siamo andati a farlo, e poi una settimana dopo, due settimane dopo, siamo tornati dagli ingegneri Loon dicendo: "Abbiamo risolto il vostro problema". Siamo stati davvero intelligenti, ci hanno guardato con un sorrisetto sul viso come se dicessero: "Non l'avete fatto, sappiamo che non potete risolvere questo problema, è troppo difficile", tipo: "No, l'abbiamo fatto, abbiamo assolutamente risolto il vostro problema, guardate, abbiamo il 100% di precisione". Tipo: "Questo è letteralmente impossibile, a volte non hai i venti che ti permettono..." "No, diamo un'occhiata a cosa sta succedendo".
Abbiamo capito cosa stava succedendo. Il palloncino, l'algoritmo di apprendimento per rinforzo, ha imparato ad andare al centro della regione, e poi saliva, e saliva, e poi il palloncino scoppiava, e poi il palloncino scendeva e rimaneva all'interno della regione per sempre. Loro dicono: "Questo non è chiaramente quello che vogliamo", ma poi ovviamente questa era una simulazione, ma poi diciamo: "Oh sì, quindi come possiamo risolvere questo problema?". Loro rispondono: "Oh sì, certo che ci sono un paio di cose, ma una di queste è che ci assicuriamo che il palloncino non possa salire oltre il livello in cui potrebbe scoppiare".
Questi vincoli nel mondo reale, questi aspetti di come la tua soluzione interagisce effettivamente con altre cose, sono facili da trascurare quando sei solo un ricercatore di apprendimento per rinforzo che lavora sui giochi, e poi quando vai nel mondo reale, pensi: "Oh, aspetta, queste cose hanno delle conseguenze e devo esserne consapevole". Penso che questa sia una delle principali difficoltà .
Penso che l'altro sia proprio come il ciclo di questi esperimenti, che è davvero lungo, come in un gioco in cui posso semplicemente premere play. Nel peggiore dei casi, dopo una settimana ho i risultati, ma poi se devo effettivamente far volare dei palloni nella stratosfera, abbiamo questa espressione che mi piace usare nei miei discorsi, che è come se stessimo testando la stratosfera con un test A/B, perché alla fine, una volta trovata la soluzione e con la quale ci sentiamo sicuri, vogliamo assicurarci che sia effettivamente statisticamente migliore. Abbiamo 13 palloni, credo, e li abbiamo fatti volare nell'Oceano Pacifico per più di un mese, perché è il tempo che ci è voluto per convalidare che tutto ciò che avevamo ideato fosse effettivamente migliore. Anche la scala temporale è molto più varia, quindi non si hanno molte possibilità di provare cose nuove.
A differenza dei giochi, non ci sono milioni di iterazioni dello stesso gioco eseguite simultaneamente.
Sì. L'abbiamo usato per l'addestramento perché sfruttavamo la simulazione, anche se, ripeto, il simulatore è molto più lento di qualsiasi gioco, ma siamo riusciti a gestirlo dal punto di vista ingegneristico. Quando lo fai nel mondo reale, è diverso.
Su quale ricerca stai lavorando oggi?
Ora lavoro all'Università dell'Alberta e ho un gruppo di ricerca con molti studenti. La mia ricerca è molto più diversificata, in un certo senso, perché i miei studenti me lo permettono. Una cosa che mi entusiasma particolarmente è il concetto di apprendimento continuo. Quello che succede è che praticamente ogni volta che parliamo di apprendimento automatico in generale, facciamo dei calcoli, che si tratti di usare un simulatore, di usare un set di dati ed elaborare i dati, e impariamo un modello di apprendimento automatico, e lo implementiamo sperando che funzioni bene, e che vada bene. Molte volte è esattamente ciò di cui si ha bisogno, molte volte è perfetto, ma a volte non lo è, perché a volte il problema è che il mondo reale è troppo complesso perché ci si aspetti che un modello, non importa quanto grande, sia effettivamente in grado di incorporare tutto ciò che si desidera, tutte le complessità del mondo, quindi bisogna adattarsi.
Uno dei progetti a cui partecipo, ad esempio, qui all'Università di Alberta è un impianto di trattamento delle acque. In pratica, la questione è come sviluppare algoritmi di apprendimento per rinforzo in grado di supportare altri esseri umani nel processo decisionale, o come farlo in modo autonomo per il trattamento delle acque. Abbiamo i dati, possiamo vederli, e a volte la qualità dell'acqua cambia nel giro di poche ore, quindi anche se dici "Ogni giorno addestrerò il mio modello di apprendimento automatico del giorno precedente e lo implementerò entro poche ore dal tuo giorno", quel modello non è più valido perché c'è una deriva dei dati, non è stazionario. È davvero difficile modellare queste cose perché magari si tratta di un incendio boschivo in corso a monte, o magari la neve sta iniziando a sciogliersi, quindi dovresti modellare il mondo intero per poterlo fare.
Ovviamente nessuno lo fa, noi umani non lo facciamo, quindi cosa facciamo? Ci adattiamo, continuiamo a imparare, diciamo: "Oh, questa cosa che facevo non funziona più, quindi potrei anche imparare a fare qualcos'altro". Credo che ci siano molte pubblicazioni, soprattutto quelle del mondo reale, che richiedono un apprendimento costante e continuo, e questo non è il modo standard in cui parliamo di apprendimento automatico. Spesso diciamo: "Farò una grande quantità di calcoli e distribuirò un modello", e magari distribuisco il modello mentre sto già facendo altri calcoli perché distribuirò un modello un paio di giorni, settimane dopo, ma a volte la scala temporale di queste cose non funziona.
La domanda è: "Come possiamo imparare continuamente, per sempre, in modo da migliorare e adattarci?", e questo è davvero difficile. Abbiamo un paio di articoli su questo argomento, ad esempio i nostri macchinari attuali non sono in grado di farlo, come molte delle soluzioni che abbiamo e che rappresentano il gold standard nel settore: se si ha qualcosa e si continua a imparare invece di fermarsi e implementare, le cose peggiorano molto rapidamente. Questa è una delle cose che mi entusiasmano di più, e penso che sia proprio come ora che abbiamo fatto così tante cose di successo, implementato modelli fissi, e continueremo a farlo, chiedendoci come ricercatore: "Qual è la frontiera di quest'area?". Penso che una delle frontiere che abbiamo sia questo aspetto dell'apprendimento continuo.
Penso che uno degli scopi per cui l'apprendimento per rinforzo è particolarmente adatto è che molti dei nostri algoritmi elaborano i dati man mano che arrivano, e quindi molti algoritmi sono, in un certo senso, direttamente adatti all'apprendimento. Ciò non significa che lo facciano o che siano bravi in ​​questo, ma non dobbiamo interrogarci, e penso che ci siano molte domande di ricerca interessanti su cosa possiamo fare.
Quali applicazioni future che utilizzano questo apprendimento continuo ti entusiasmano di più?
Questa è la domanda da un miliardo di dollari, perché in un certo senso ho cercato proprio queste applicazioni. Credo che, in un certo senso, come ricercatore, sia stato in grado di porre le domande giuste, rappresenta più della metà del lavoro, quindi penso che nel nostro apprendimento per rinforzo, spesso mi piaccia essere guidato dai problemi. È come dire: "Oh, guarda, abbiamo questa sfida, diciamo cinque palloncini nella stratosfera, quindi ora dobbiamo capire come risolverla", e poi lungo il percorso si fanno progressi scientifici. In questo momento sto lavorando con altri API come Adam White e Martha White su questo, che sono i progetti da loro guidati su questo impianto di trattamento delle acque. È qualcosa che mi entusiasma molto perché è davvero difficile persino descriverlo con il linguaggio, in un certo senso, quindi non è che tutti gli attuali entusiasmanti successi che abbiamo ottenuto con il linguaggio siano facilmente applicabili lì.
Richiedono questo aspetto di apprendimento continuo, come dicevo, i cambi d'acqua sono piuttosto frequenti, sia per quanto riguarda la torbidità , sia per la temperatura e così via, e operano secondo tempistiche diverse. Penso che sia inevitabile dover imparare continuamente. Ha un enorme impatto sociale, è difficile immaginare qualcosa di più importante che fornire effettivamente acqua potabile alla popolazione, e a volte questo conta molto. Perché è facile trascurare il fatto che a volte in Canada, ad esempio, quando andiamo in queste regioni meno popolate come nella parte settentrionale e così via, a volte non abbiamo nemmeno un operatore per gestire un impianto di trattamento delle acque. Non che questo debba necessariamente sostituire gli operatori, ma ci dà effettivamente la forza di fare cose che altrimenti non potremmo fare, perché semplicemente non abbiamo il personale o la forza per farlo.
Penso che abbia un enorme potenziale impatto sociale, è un problema di ricerca estremamente impegnativo. Non abbiamo un simulatore, non abbiamo i mezzi per procurarcene uno, quindi dobbiamo usare i dati migliori, dobbiamo imparare online, quindi ci sono molte sfide, e questa è una delle cose che mi entusiasmano. Un'altra, e non è qualcosa che ho fatto molto, è il raffreddamento degli edifici, e ancora una volta, pensando al meteo, al cambiamento climatico e alle cose su cui possiamo avere un impatto, molto spesso ci chiediamo: come decidiamo come raffreddare un edificio? Come questo edificio in cui oggi ci sono centinaia di persone, è molto diverso da quello della settimana scorsa, e useremo esattamente la stessa politica? Al massimo abbiamo un termostato, quindi diciamo: "Oh sì, fa caldo, quindi probabilmente possiamo essere più intelligenti e adattarci", ancora una volta, e a volte ci sono molte persone in una stanza, non nell'altra.
Ci sono molte di queste opportunità nei sistemi controllati ad alta dimensione, ed è molto difficile per noi immaginare che potremmo fare molto meglio degli approcci standard che abbiamo attualmente nel settore.
In alcuni luoghi il 75% del consumo energetico è letteralmente costituito da unità A/C, quindi ha molto senso.
Esatto, e penso che molto di questo, in casa vostra, sia già in un certo senso un prodotto che si basa sull'apprendimento automatico e che poi impara dai propri clienti. In questi edifici, si può avere un approccio molto più dettagliato, come in Florida e in Brasile, sono molti i luoghi che hanno questa esigenza. Anche il raffreddamento dei data center è un altro esempio, ci sono alcune aziende che stanno iniziando a farlo, e sembra quasi fantascienza, ma c'è la capacità di imparare e adattarsi costantemente in base alle esigenze. Questo può avere un impatto enorme su questi problemi di controllo ad alta dimensionalità e così via, come quando facciamo volare i palloni aerostatici. Ad esempio, una delle cose che siamo stati in grado di dimostrare è stato esattamente come l'apprendimento per rinforzo, e in particolare l'apprendimento per rinforzo profondo, possa apprendere decisioni basate su sensori molto più complessi di quelli che gli esseri umani possono progettare.
Per definizione, se si considera come un essere umano progetterebbe una curva di risposta, in un certo senso si potrebbe dire: "Beh, probabilmente sarà lineare, quadratica", ma quando si ha una rete neurale, questa può apprendere tutte le non linearità che la rendono una decisione molto più precisa, e a volte è piuttosto efficace.
Grazie per la fantastica intervista, i lettori che desiderano saperne di più dovrebbero visitare le seguenti risorse: