Interviuri
Marlos C. Machado, Profesor Adjunct la Universitatea din Alberta, Fellow Amii, Președinte CIFAR AI – Seria de interviuri

Marlos C. Machado este Fellow în Rezidență la Institutul de Mașini Inteligente din Alberta (Amii), profesor adjunct la Universitatea din Alberta și fellow Amii, unde deține și o poziție de Președinte CIFAR AI. Cercetarea lui Marlos se axează în principal pe problema învățării prin întărire. El a obținut licența și masteratul de la UFMG, în Brazilia, și doctoratul de la Universitatea din Alberta, unde a popularizat conceptul de explorare extinsă în timp prin opțiuni.
A fost cercetător la DeepMind din 2021 până în 2023 și la Google Brain din 2019 până în 2021, perioadă în care a făcut contribuții majore la învățarea prin întărire, în special la aplicarea învățării prin întărire profundă pentru controlul baloanelor stratosferice Loon. Lucrările lui Marlos au fost publicate în conferințe și reviste de top în domeniul inteligenței artificiale, inclusiv Nature, JMLR, JAIR, NeurIPS, ICML, ICLR și AAAI. Cercetările sale au fost prezentate și în mass-media populare, cum ar fi BBC, Bloomberg TV, The Verge și Wired.
Ne-am întâlnit pentru un interviu la conferința anuală Upper Bound 2023, care are loc la Edmonton, AB și este organizată de Amii (Institutul de Mașini Inteligente din Alberta).
**Punctul dvs. de focalizare a fost pe învățarea prin întărire, ce vă atrage la acest tip de învățare a mașinilor?**
Ce îmi place la învățarea prin întărire este conceptul acesta, este o modalitate foarte naturală, în opinia mea, de învățare, adică învățați prin interacțiune. Se simte că acesta este modul în care învățăm ca oameni, într-un anumit sens. Nu îmi place să antropomorfizez inteligența artificială, dar este doar ca și cum ar fi o modalitate intuitivă de a încerca lucruri, unele lucruri par bune, altele par rele, și învățați să faceți lucrurile care vă fac să vă simțiți mai bine. Una dintre lucrurile care mă fascinează la învățarea prin întărire este faptul că, deoarece interacționați cu lumea, sunteți un agent care încearcă lucruri în lume și agentul poate veni cu o ipoteză și o poate testa.
Motivul pentru care acest lucru contează este că permite descoperirea de noi comportamente. De exemplu, unul dintre cele mai faimoase exemple este AlphaGo, mișcarea 37 despre care se vorbește în documentar, care este această mișcare pe care oamenii o numesc creativitate. Nu a fost niciodată văzută înainte, ne-a lăsat pe toți uimiți. Nu este nicăieri, a fost doar prin interacțiunea cu lumea, ați ajuns să descoperiți aceste lucruri. Ați obținut această capacitate de a descoperi, cum ar fi unul dintre proiectele la care am lucrat, care a fost zborul cu baloane vizibile în stratosferă, și am văzut lucruri foarte asemănătoare.
Am văzut comportamente care au apărut și ne-au lăsat pe toți impresionați și ca și cum nu am fi putut niciodată să ne gândim la asta, dar este genial. Cred că învățarea prin întărire este situată în mod unic pentru a ne permite să descoperim acest tip de comportament, deoarece interacționați, deoarece, într-un anumit sens, una dintre lucrurile cu adevărat dificile este contrafactuale, cum ar fi “Ce s-ar fi întâmplat dacă aș fi făcut asta în loc de ceea ce am făcut?” Acesta este un super dificil de rezolvat în general, dar în multe setări de studiu de mașini, nu există nimic pe care să-l puteți face despre asta. În învățarea prin întărire, puteți, “Ce s-ar fi întâmplat dacă aș fi făcut asta?” Eu aș fi putut încerca data viitoare când am experimentat asta. Cred că acest aspect interactiv, îmi place foarte mult.
Desigur, nu voi fi ipocrit, cred că multe dintre aplicațiile cool care au venit cu aceasta au făcut-o foarte interesantă. Ca și cum, mergând înapoi cu zeci de ani, chiar și atunci când vorbim despre primele exemple de succes mare al învățării prin întărire, toate acestea m-au făcut să o găsesc foarte atractivă.
**Care a fost aplicația dvs. istorică preferată?**
Cred că există două exemple foarte faimoase, unul este elicopterul care a zburat la Stanford cu învățarea prin întărire, și altul este TD-Gammon, care este jucătorul de backgammon care a devenit campion mondial. Acesta a fost în anii ’90, și atunci eram la doctorat, am făcut un stagiu la IBM cu Gerald Tesauro și Gerald Tesauro a fost persoana care conducea proiectul TD-Gammon, așa că a fost ca și cum ar fi fost foarte cool. Este amuzant pentru că atunci când am început să fac învățarea prin întărire, nu eram pe deplin conștient de ceea ce era. Când am aplicat pentru școala de doctorat, îmi amintesc că am vizitat multe site-uri ale profesorilor pentru că voiam să fac mașini inteligente, foarte general, și eram citind descrierea cercetării fiecăruia, și eram ca și cum, “Oh, acesta este interesant.” Când mă uit înapoi, fără să știu despre domeniu, am ales toți profesorii faimoși în învățarea prin întărire, dar nu pentru că erau faimoși, ci pentru că descrierea cercetării lor a fost atractivă pentru mine. Eram ca și cum, “Oh, acest site este foarte frumos, vreau să lucrez cu acest tip și cu acea femeie,” așa că, într-un anumit sens, a fost-
**Ca și cum ați găsit-o în mod organic.**
Exact, așa că atunci când mă uit înapoi, eram spunând ca și cum, “Oh, aceștia sunt oamenii cu care am aplicat să lucrez cu mulți ani în urmă,” sau acestea sunt articolele pe care le-am citit înainte de a ști ce făceam, eram ca și cum, “Oh, acesta este ceva ce ar trebui să citesc,” și a ajuns mereu la învățarea prin întărire.
**În timp ce eram la Google Brain, ați lucrat la navigarea autonomă a baloanelor stratosferice. De ce a fost acesta un caz de utilizare bun pentru furnizarea de acces la internet în zone greu accesibile?**
Acesta nu este un expert, aceasta este prezentarea pe care Loon, care a fost o filială a Alphabet, a lucrat-o. Atunci când trecem prin modul în care oferim internet pentru mulți oameni din lume, este ca și cum ați construi o antenă, spunem că ați construi o antenă în Edmonton, și această antenă vă permite să oferiți internet pentru o regiune de aproximativ cinci, șase kilometri de rază. Dacă puneți o antenă în centrul orașului New York, atunci serviți internet pentru milioane de oameni, dar acum imaginați-vă că încercați să oferiți internet unei triburi din pădurea amazoniană. Poate aveți 50 de oameni în trib, costul economic de a pune o antenă acolo este foarte mare, nu numai că nu este fezabil, dar nici măcar nu puteți ajunge în acea regiune.
Ideea baloanelor a fost doar ca și cum, “Dar ce-ar fi dacă am putea construi o antenă care să fie foarte înaltă? Ce-ar fi dacă am putea construi o antenă care să fie de 20 de kilometri înălțime?” Desigur, nu știm cum să construim o astfel de antenă, dar am putea pune un balon acolo, și apoi balonul ar putea oferi internet pentru o regiune care este de zece ori mai mare, sau dacă vorbim despre rază, atunci este o suprafață de 100 de ori mai mare. Dacă îl puneți acolo, spunem în mijlocul pădurii sau în mijlocul junglei, atunci poate servi mai multe triburi care altfel ar necesita o antenă separată pentru fiecare.
Furnizarea de acces la internet în aceste regiuni greu accesibile a fost una dintre motivațiile principale. Îmi amintesc că motto-ul Loon a fost să nu ofere internet pentru următorul miliard de oameni, ci pentru ultimul miliard de oameni, ceea ce a fost extrem de ambițios într-un anumit sens. Nu este vorba despre următorul miliard, ci despre cel mai greu de ajuns miliard de oameni.
**Care au fost problemele de navigație pe care le-ați încercat să le rezolvați?**
Modul în care funcționează aceste baloane este că nu sunt propulsate, exact ca și cum oamenii navighează baloane cu aer cald, adică fie mergeți în sus, fie în jos și găsiți curentul de vânt care vă duce într-o direcție specifică, apoi urmați acel curent, și apoi este ca și cum, “Oh, nu vreau să merg acolo,” poate mergeți în sus sau în jos și găsiți un curent diferit și așa mai departe. Acesta este modul în care funcționează și aceste baloane. Nu este un balon cu aer cald, ci un balon cu volum fix care zboară în stratosferă.
Tot ce poate face, din punct de vedere al navigației, este să meargă în sus, în jos sau să rămână acolo, și apoi trebuie să găsească vânturi care să-i permită să meargă unde vrea să fie. În acest sens, aceasta este modul în care am navigat, și au fost multe provocări, de fapt. Prima dintre ele este că, vorbind despre formulare, doriți să fiți într-o regiune, să oferiți internet, dar doriți și să vă asigurați că aceste baloane sunt alimentate cu energie solară, astfel încât să păstrați puterea. Există o problemă de optimizare multi-obiectiv, nu numai să vă asigurați că sunteți în regiunea pe care doriți să o fiți, ci și să fiți eficient din punct de vedere al puterii, într-un anumit sens, asta este prima problemă.
Aceasta a fost problema în sine, dar apoi, atunci când ați privit detaliile, nu știați cum arătau vânturile, știați cum arătau vânturile acolo unde erați, dar nu știați cum arătau vânturile la 500 de metri deasupra dvs. Aveți ceea ce numim în inteligența artificială observabilitate parțială, așa că nu aveți aceste date. Puteți avea previziuni, și există articole scrise despre asta, dar previziunile adesea pot fi în eroare cu până la 90 de grade. Este o problemă foarte dificilă în sensul în care trebuie să faceți față acestei observabilități parțiale, este o problemă extrem de dimensională, deoarece vorbim despre sute de straturi de vânt, și apoi trebuie să luați în considerare viteza vântului, direcția vântului, modul în care am modelat, cât de sigur sunteți de acea previziune a incertitudinii.
Acest lucru face ca problema să fie foarte greu de abordat. Una dintre lucrurile cu care am luptat cel mai mult în acest proiect a fost că, după ce totul a fost făcut și așa mai departe, a fost ca și cum, “Dar cum putem transmite cât de grea este această problemă?” Pentru că este greu să înțelegeți, pentru că nu este ceva pe care îl puteți vedea pe ecran, este vorba despre sute de dimensiuni și vânturi, și când a fost ultima dată când ați avut o măsurătoare a acelui vânt? Într-un anumit sens, trebuie să digerați toate acestea, în timp ce gândiți și la putere, la ora zilei, unde doriți să fiți, este mult.
**Ce studiază mașina de învățare? Este pur și simplu modelarea pattern-urilor de vânt și temperatură?**
Modul în care funcționează este că am avut un model al vânturilor care a fost un sistem de mașini inteligente, dar nu a fost învățarea prin întărire. Aveți date istorice despre diferite altitudini, apoi am construit un model de mașini inteligente pe baza acelora. Când spun “noi”, nu am fost parte a acestui proiect, acesta a fost un lucru pe care Loon l-a făcut chiar înainte ca Google Brain să se implice. Ei aveau acest model al vânturilor care a fost dincolo de doar altitudinile diferite, așa că cum faceți să interpolati între diferitele altitudini? Puteți spune, “Hai să spunem, acum doi ani, asta a fost cum arătau vânturile, dar ce arătau ele la 10 metri deasupra, nu știm”. Apoi puneți un proces Gaussian pe baza acelora, așa că au avut articole scrise despre cât de bun a fost modelul. Modul în care am făcut-o a fost că am început dintr-o perspectivă de învățare prin întărire, am avut un simulator foarte bun al dinamicii balonului, și apoi am avut și simulatorul vântului. Apoi ce am făcut a fost să mergem înapoi în timp și să spunem, “Hai să pretindem că suntem în 2010”. Aveam date pentru ceea ce arătau vânturile în 2010 în întreaga lume, dar foarte grosier, apoi am putea suprapune acest model de mașini inteligente, acest proces Gaussian pe baza acelora, astfel încât am obținut de fapt măsurătorile vânturilor, și apoi am putea introduce zgomot, am putea face toate felurile de lucruri.
Apoi, într-un final, deoarece am avut dinamica modelului și am avut vânturile și am mers înapoi în timp, pretinzând că eram acolo, apoi am avut de fapt un simulator.
**Este ca și cum ați creat un gemene digital în timp.**
Exact, am proiectat o funcție de recompensă care a fost să rămânem pe țintă și să fim puțin eficienți din punct de vedere al puterii, dar am proiectat această funcție de recompensă astfel încât balonul să învețe prin interacțiunea cu lumea, dar a putut face asta doar pentru că am pretins că suntem în trecut, și apoi am reușit să învățăm să navigăm. În esență, a fost vorba despre a merge în sus, în jos sau a rămâne, dată fiind tot ce se întâmplă în jurul meu, la sfârșitul zilei, esențialul este că vreau să ofer internet acelei regiuni. Acesta a fost problema, într-un anumit sens.
**Care sunt unele dintre provocările în implementarea învățării prin întărire în lumea reală, în comparație cu un mediu de joc?**
Cred că există câteva provocări. Nu cred că este neapărat vorba despre jocuri și lumea reală, ci despre cercetarea fundamentală și cercetarea aplicată. Pentru că puteți face cercetare aplicată în jocuri, spunem că încercați să implementați următorul model într-un joc care va fi lansat pentru milioane de oameni, dar cred că una dintre principalele provocări este ingineria. Dacă lucrați, de multe ori utilizați jocurile ca mediu de cercetare pentru că ele capturează multe dintre proprietățile pe care le îngrijorăm, dar le capturează într-un set mai bine definit de constrângeri. Din cauza acestui fapt, putem face cercetarea, putem valida învățarea, dar este un mediu mai “sigur” într-un anumit sens.
Nu este că cercetarea necesită să fie foarte diferită, dar cred că lumea reală aduce multe provocări suplimentare. Este vorba despre implementarea sistemelor, cum ar fi constrângerile de siguranță, cum am făcut noi, am trebuit să ne asigurăm că soluția a fost sigură. Când lucrați doar la jocuri, nu vă gândiți neapărat la asta. Cum puteți face ca balonul să nu facă ceva prostesc, sau ca agentul de învățare prin întărire să nu învețe ceva pe care nu l-am prevăzut, și care ar avea consecințe negative? Acesta a fost unul dintre principalele noastre preocupări, a fost siguranța. Desigur, dacă jucați doar jocuri, atunci nu vă îngrijorați prea mult de asta, cel mai rău caz, ați pierdut jocul.
Aceasta este provocarea, cealaltă este stiva de inginerie. Este foarte diferită de a fi un cercetător care lucrați singur și interacționați cu un joc pe computer, pentru că doriți să validați, este în regulă, dar acum aveți o stivă de inginerie a unui produs întreg cu care trebuie să lucrați. Nu este că vor să vă lase să faceți orice vreți, așa că trebuie să deveniți mult mai familiarizați cu acea piesă suplimentară. Cred că și mărimea echipei poate fi foarte diferită, ca și cum Loon, la momentul respectiv, aveau zeci, dacă nu sute de oameni. Noi am interacționat cu un număr mic dintre ei, dar apoi aveau o sală de control care vorbea cu personalul aviației.
Noi nu știam nimic despre asta, dar apoi ați avut mulți mai mulți stakeholderi, într-un anumit sens. Cred că multe dintre diferențele sunt acestea, una, ingineria, siguranța și așa mai departe, și poate cealaltă este că ipotezele dvs. nu se mențin. Multe dintre ipotezele pe care le faceți și pe care se bazează algoritmii, atunci când merg în lumea reală, nu se mențin, și apoi trebuie să figurați cum să faceți față asta. Lumea nu este la fel de prietenoasă ca orice aplicație pe care o faceți în jocuri, este în principal dacă vorbiți despre un joc foarte constrâns pe care îl faceți singur.
Un exemplu pe care îl iubesc foarte mult este că ne-au dat totul, eram ca și cum, “Ok, acum putem încerca unele dintre aceste lucruri pentru a rezolva această problemă,” și apoi am mers să o facem, și apoi o săptămână mai târziu, două săptămâni mai târziu, am venit înapoi la inginerii Loon ca și cum, “Am rezolvat problema dvs.” Eram foarte deștepți, ne-au privit cu un zâmbet pe față ca și cum, “Nu ați făcut-o, știm că nu puteți rezolva această problemă, este prea grea,” ca și cum, “Nu, am făcut-o, am rezolvat-o cu siguranță, uitați, am o acuratețe de 100%.” Ca și cum, “Acest lucru este literalmente imposibil, uneori nu aveți vânturi care să vă permită…” “Nu, hai să vedem ce se întâmplă.”
Am descoperit ce se întâmpla. Balonul, algoritmul de învățare prin întărire a învățat să meargă în centrul regiunii, și apoi a mers în sus, și în sus, și apoi balonul a explodat, și apoi balonul a coborât și a fost în regiune pentru totdeauna. Ei erau ca și cum, “Acesta nu este deloc ceea ce vrem,” dar apoi, desigur, acesta a fost doar un simulator, dar apoi spunem, “Oh, da, cum putem rezolva asta?” Ei erau ca și cum, “Oh, da, desigur, există câteva lucruri, dar una dintre ele, ne asigurăm că balonul nu poate merge mai sus decât nivelul la care va exploda.”
Aceste constrângeri în lumea reală, aceste aspecte ale modului în care soluția dvs. interacționează cu alte lucruri, este ușor de trecut cu vederea atunci când sunteți doar un cercetător de învățare prin întărire care lucrează la jocuri, și apoi, atunci când mergeți în lumea reală, sunteți ca și cum, “Oh, așteptați, aceste lucruri au consecințe, și trebuie să fiu conștient de asta.” Cred că aceasta este una dintre principalele dificultăți.
Cred că cealaltă este că ciclul acestor experimente este foarte lung, ca și cum, într-un joc, puteți doar apăsa butonul de play. Cel mai rău caz, după o săptămână, aveți rezultate, dar apoi, dacă trebuie să zburați baloane în stratosferă, aveți această expresie pe care o folosesc în prezentarea mea, că eram ca și cum “testam stratosfera”, pentru că, într-un final, după ce am avut soluția și am fost siguri de ea, apoi am vrut să ne asigurăm că este cu adevărat mai bună. Am primit 13 baloane, cred, și le-am zburat în Oceanul Pacific timp de mai mult de o lună, pentru că asta a fost cât a durat să validăm că tot ceea ce am făcut a fost cu adevărat mai bun. Timpul necesar pentru aceste lucruri este mult mai diferit.
**Nu există o milioane de iterații ale aceluiași joc care rulează simultan.**
Da. Am avut asta pentru antrenament, pentru că am folosit simulatorul, chiar dacă, din nou, simulatorul este mult mai lent decât orice joc pe care l-ați avea, dar am reușit să facem față acestei inginerii. Când faceți asta în lumea reală, atunci este diferit.
**Ce cercetare sunteți implicat în prezent?**
Acum sunt la Universitatea din Alberta, și am un grup de cercetare aici, cu mulți studenți. Cercetarea mea este mult mai diversă, într-un anumit sens, pentru că studenții mei mă fac să pot face asta. Una dintre lucrurile pe care sunt foarte entuziasmat este această noțiune de învățare continuă. Ce se întâmplă este că, de obicei, de fiecare dată când vorbim despre mașini inteligente, în general, vom face o anumită cantitate de calcul, fie utilizând un simulator, fie utilizând un set de date și procesând datele, și vom învăța un model de mașini inteligente, și apoi vom implementa acel model și sperăm că va funcționa bine, și asta este în regulă. Multe ori, asta este exact ceea ce aveți nevoie, multe ori asta este perfect, dar uneori nu, pentru că uneori problemele din lumea reală sunt prea complexe pentru a vă aștepta ca un model, nu contează cât de mare este, să fi fost capabil să incorporeze tot ceea ce doriți, toate complexitățile lumii, așa că trebuie să vă adaptați.
Una dintre proiectele la care sunt implicat, de exemplu, aici, la Universitatea din Alberta, este o stație de tratare a apei. În esență, este vorba despre cum putem dezvolta algoritmi de învățare prin întărire care să poată sprijini oamenii în procesul de luare a deciziilor, sau cum să o facă în mod autonom pentru tratarea apei. Avem datele, putem vedea datele, și uneori calitatea apei se schimbă în câteva ore, așa că, chiar dacă spuneți, “Fiecare zi, voi antrena modelul meu de mașini inteligente din ziua precedentă, și îl voi implementa în câteva ore,” acel model nu este valabil, pentru că există drift de date, nu este staționar. Este foarte greu pentru dvs. să modelați aceste lucruri, pentru că, poate, este un incendiu de pădure care are loc în amonte, sau, poate, zăpada începe să se topească, așa că ar trebui să modelați întreaga lume pentru a face asta.
Desigur, nimeni nu face asta, nu o facem ca oameni, așa că ce facem? Ne adaptăm, continuăm să învățăm, suntem ca și cum, “Oh, acest lucru pe care îl făceam, nu funcționează, așa că mai bine învăț să fac altceva.” Cred că există multe publicații, în special cele din lumea reală, care necesită să învățați în mod constant și pentru totdeauna, și acesta nu este modul standard în care vorbim despre mașini inteligente. De multe ori, vorbim despre, “Voi face o cantitate mare de calcul, și voi implementa un model,” și, poate, voi implementa modelul în timp ce fac încă mai mult calcul, pentru că voi implementa un model după câteva zile, săptămâni mai târziu, dar uneori scala de timp a acestor lucruri nu funcționează.
Întrebarea este, “Cum putem învăța în mod continuu, pentru totdeauna, astfel încât să devenim tot mai buni și să ne adaptăm?” și acesta este un lucru foarte greu. Avem câteva articole despre asta, cum ar fi mașinăria noastră actuală, care nu este capabilă să facă asta, așa că multe dintre soluțiile pe care le avem, care sunt standardul de aur în domeniu, dacă doar continuați să învățați, fără să opriți și să implementați, lucrurile devin rele foarte repede. Acesta este unul dintre lucrurile pe care sunt foarte entuziasmat, care cred că este ca și cum, acum că am făcut atâtea lucruri de succes, implementând modele fixe, și vom continua să le facem, gândindu-mă ca cercetător, “Ce este frontiera acestui domeniu?” Cred că una dintre frontierele pe care le avem este acest aspect al învățării continue.
Cred că una dintre lucrurile pe care învățarea prin întărire este deosebit de potrivită pentru a face asta, pentru că multe dintre algoritmii noștri, ei procesează date pe măsură ce vin, și așa că multe dintre algoritmi sunt, într-un anumit sens, direct potriviți pentru a învăța. Nu înseamnă că o fac sau că sunt buni la asta, dar nu trebuie să ne întrebăm, și cred că există multe întrebări de cercetare interesante despre ce putem face.
**Ce aplicații viitoare care utilizează această învățare continuă sunteți cel mai entuziasmat?**
Acesta este miliardul de dolari, pentru că, într-un anumit sens, am fost în căutarea acestor aplicații. Cred că, într-un anumit sens, ca cercetător, am reușit să pun întrebarea corectă, este mai mult de jumătate din munca, așa că cred că, în învățarea prin întărire, de multe ori, îmi place să fiu condus de probleme. Este ca și cum, “Oh, uitați, avem această provocare, hai să vedem cum putem rezolva asta,” și apoi, pe parcurs, faceți progrese științifice. Acum, lucrez cu alți cercetători, cum ar fi Adam White, Martha White, pe acest proiect, care este condus de ei, despre stația de tratare a apei. Este ceva la care sunt foarte entuziasmat, pentru că este ceva care este foarte greu de descris în cuvinte, într-un anumit sens, este ca și cum, nu este că toate succesele noastre actuale cu limbajul sunt ușor de aplicat acolo.
Ele necesită acest aspect de învățare continuă, așa cum am spus, aveți apa care se schimbă foarte des, fie că este vorba despre turbiditate, fie că este vorba despre temperatură și așa mai departe, și operează la timpi diferiți. Cred că este inevitabil că trebuie să învățați în mod continuu. Are un impact social uriaș, este greu de imaginat ceva mai important decât a oferi apă potabilă populației, și uneori contează foarte mult. Pentru că este ușor de trecut cu vederea faptul că, uneori, în Canada, de exemplu, atunci când mergem în regiunile mai puțin populate, cum ar fi în nord și așa mai departe, uneori nu avem nici măcar un operator pentru a opera o stație de tratare a apei. Nu este că acesta ar trebui să înlocuiască operatorii, ci este pentru a ne ajuta la lucrurile pe care altfel nu le-am putea face, pentru că nu avem personalul sau puterea de a face asta.
Cred că are un potențial impact social uriaș, este o problemă de cercetare extrem de provocatoare. Nu avem un simulator, nu avem mijloacele de a procura unul, așa că atunci trebuie să utilizăm cele mai bune date, trebuie să învățăm online, așa că există multe provocări acolo, și acesta este unul dintre lucrurile la care sunt foarte entuziasmat. Un altul, și acesta nu este ceva la care am lucrat mult, dar un altul este răcirea clădirilor, și, din nou, gândindu-mă la vreme, la schimbarea climatică și la lucrurile pe care le putem influența, de multe ori, este ca și cum, “Cum putem decide cum să răcim o clădire?” Ca și cum, această clădire pe care o avem, cu sute de oameni astăzi, este foarte diferită de ceea ce a fost săptămâna trecută, și vom folosi exact aceeași politică? Cel mai mult, avem un termostat, așa că suntem ca și cum, “Oh, da, este cald, așa că putem fi mai deștepți în legătură cu asta și ne adaptăm,” din nou, și uneori există multe oameni într-o cameră, nu în alta.
Există multe oportunități pentru sisteme controlate care sunt de înaltă dimensiune, foarte greu de înțeles, și putem face mult mai bine decât abordările standard pe care le avem în prezent în domeniu.
**În unele locuri, până la 75% din consumul de energie este literalmente unități de aer condiționat, așa că are mult sens.**
Exact, și cred că multe dintre acestea, în casa dvs., există deja produse care fac mașini inteligente și care învață de la clienți. În aceste clădiri, puteți avea o abordare mult mai fină, ca și cum, în Florida, Brazilia, este multe locuri care au nevoie de asta. Răcirea centrelor de date, este un altul, de asemenea, există câteva companii care încep să facă asta, și sună aproape științifico-fantastic, dar există capacitatea de a învăța în mod constant și de a vă adapta, pe măsură ce aveți nevoie. Acesta poate avea un impact uriaș în aceste probleme de control care sunt de înaltă dimensiune și așa mai departe, ca și cum, atunci când zburați baloanele. De exemplu, una dintre lucrurile pe care am reușit să le arătăm a fost exact cum învățarea prin întărire, și în special învățarea prin întărire profundă, poate învăța decizii pe baza senzorilor care sunt mult mai complexe decât ceea ce ar putea proiecta oamenii.
Doar prin definiție, puteți vedea cum un om ar proiecta o curbă de răspuns, este ca și cum, “Ei bine, probabil că va fi liniar, cvadratic,” dar atunci când aveți o rețea neurală, poate învăța toate non-liniaritățile care o fac mult mai fină, o decizie care, uneori, este foarte eficientă.
**Mulțumim pentru acest interviu uimitor, cititorii care doresc să afle mai multe trebuie să viziteze următoarele resurse:**












