Interviews
Marlos C. Machado, adjungeret professor ved University of Alberta, Amii Fellow, CIFAR AI Chair – Interview Serie

Marlos C. Machado er en Fellow i Residence ved Alberta Machine Intelligence Institute (Amii), en adjungeret professor ved University of Alberta og en Amii-fellow, hvor han også har en Canada CIFAR AI Chair. Marlos’ forskning fokuserer hovedsageligt på problemet med forstærkninglæring. Han modtog sin B.Sc. og M.Sc. fra UFMG i Brasilien og sin Ph.D. fra University of Alberta, hvor han populariserede idéen om tidsmæssigt udvidede eksploreringsmuligheder.
Han var forsker ved DeepMind fra 2021 til 2023 og ved Google Brain fra 2019 til 2021, hvor han bidrog væsentligt til forstærkninglæring, især anvendelsen af dyb forstærkninglæring til kontrol af Loons stratosfæriske balloner. Marlos’ arbejde er blevet offentliggjort i de førende konferencer og tidsskrifter inden for AI, herunder Nature, JMLR, JAIR, NeurIPS, ICML, ICLR og AAAI. Hans forskning er også blevet fremhævet i populære medier som BBC, Bloomberg TV, The Verge og Wired.
Vi satte os ned til et interview ved den årlige 2023 Upper Bound-konference om AI, der afholdes i Edmonton, AB, og arrangeres af Amii (Alberta Machine Intelligence Institute).
Dit primære fokus har været på forstærkninglæring, hvad er det, der tiltrækker dig til denne type maskinlæring?
Det, jeg kan lide ved forstærkninglæring, er denne koncept, det er en meget naturlig måde, i min mening, at lære, det er, at man lærer ved interaktion. Det føles, som om det er, hvordan vi lærer som mennesker, i en vis forstand. Jeg kan ikke lide at antropomorfisere AI, men det er bare som om det er denne intuitive måde, du prøver ting af, nogle ting føles godt, nogle ting føles dårligt, og du lærer at gøre de ting, der gør dig til at føle dig bedre. En af de ting, jeg er fascineret af ved forstærkninglæring, er det faktum, at fordi du faktisk interagerer med verden, du er denne agent, vi taler om, det prøver ting i verden, og agenten kan komme op med en hypotese og teste den hypotese.
Grunden til, at dette er vigtigt, er, at det tillader opdagelse af nye adfærdsmønstre. For eksempel er en af de mest berømte eksempler AlphaGo, det 37. træk, de taler om i dokumentaren, som er dette træk, der siger var kreativitet. Det var noget, der aldrig var set før, det efterlod os alle forbløffede. Det er ikke noget, der er et sted, det var bare ved at interagere med verden, du får mulighed for at opdage disse ting. Du får denne evne til at opdage, ligesom et af de projekter, jeg arbejdede på, var at flyve synlige balloner i stratosfæren, og vi så meget lignende ting også.
Vi så adfærd, der opstod, der efterlod alle imponerede og som vi aldrig havde tænkt på, men det er genialt. Jeg tror, at forstærkninglæring er unikt positioneret til at tillade os at opdage denne type adfærd, fordi du interagerer, fordi på en måde er en af de virkelig svære ting kontrafaktiske, som “Hvad ville være sket, hvis jeg havde gjort det i stedet for det, jeg gjorde?” Dette er et super svært problem i almindelighed, men i mange sammenhænge i maskinlæringsstudier er der intet, du kan gøre ved det. I forstærkninglæring kan du, “Hvad ville være sket, hvis jeg havde gjort det?” Jeg kan lige så godt prøve næste gang, jeg oplever dette. Jeg tror, at denne interaktive aspekt af det, jeg rigtig kan lide.
Selvfølgelig vil jeg ikke være hyklerisk, jeg tror, at mange af de cool anvendelser, der kom med det, gjorde det ret interessant. Ligesom at gå tilbage årtier og årtier, selv når vi taler om de tidlige eksempler på store succeser med forstærkninglæring, dette gjorde det til mig meget tiltrækkende.
Hvad var dit yndlingshistoriske anvendelse?
Jeg tror, at der er to meget berømte, en er den flyvende helikopter, de gjorde på Stanford med forstærkninglæring, og en anden er TD-Gammon, som er denne backgammon-spiller, der blev verdensmester. Dette var tilbage i 90’erne, og så var dette under min ph.d., jeg sikrede, at jeg gjorde et praktikophold hos IBM med Gerald Tesauro, og Gerald Tesauro var manden, der ledede TD-Gammon-projektet, så det var som om, dette er virkelig cool. Det er sjovt, fordi da jeg startede med forstærkninglæring, var det ikke, som om jeg var fuldt ud klar over, hvad det var. Da jeg ansøgte om at gå på universitet, husker jeg, at jeg gik til mange professorers hjemmesider, fordi jeg ville gøre maskinlæring, meget generelt, og jeg læste beskrivelsen af deres forskning, og jeg var som, “Oh, dette er interessant.” Når jeg ser tilbage, uden at vide feltet, valgte jeg alle de berømte professorer i vores forstærkninglæring, men ikke fordi de var berømte, men fordi beskrivelsen af deres forskning var tiltrækkende for mig. Jeg var som, “Oh, denne hjemmeside er virkelig nice, jeg vil gerne arbejde med denne fyr og denne fyr og denne kvinde,” så på en måde var det-
Som om du fandt dem organisk.
Præcis, så når jeg ser tilbage, var jeg som, “Oh, disse er de mennesker, jeg ansøgte om at arbejde med for længe siden,” eller disse er de papirer, som før jeg faktisk vidste, hvad jeg gjorde, jeg læste beskrivelsen i en anden persons papir, jeg var som, “Oh, dette er noget, jeg skal læse,” det fik mig tilbage til forstærkninglæring.
Mens du var hos Google Brain, arbejdede du på autonom navigation af stratosfæriske balloner. Hvorfor var dette en god anvendelse af at give internetadgang til svært tilgængelige områder?
Det er noget, jeg ikke er ekspert i, dette er pitchet, som Loon, som var datterselskabet fra Alphabet, arbejdede på. Når vi gennemgår, hvordan vi giver internet til mange mennesker i verden, er det, at vi bygger en antenne, ligesom bygge en antenne i Edmonton, og denne antenne giver os mulighed for at serve internet til en region på fem, seks kilometers radius. Hvis du sætter en antenne midt i New York, serverer du millioner af mennesker, men nu forestil dig, at du prøver at give internet til en stamme i Amazonas-regnskoven. Måske har du 50 mennesker i stammen, den økonomiske omkostning ved at sætte en antenne der, gør det virkelig svært, ikke at nævne, at du overhovedet kan komme til den region.
Økonomisk set gør det ikke mening at lave en stor infrastruktur-investering i et svært tilgængeligt område, der er så sparsomt befolket. Idéen med ballonerne var bare som, “Men hvad hvis vi kunne bygge en antenne, der var rigtig høj? Hvad hvis vi kunne bygge en antenne, der er 20 kilometer høj?” Selvfølgelig ved vi ikke, hvordan vi kan bygge den antenne, men vi kunne sætte en ballon der, og så ville ballonen være i stand til at serve en region, der er 10 gange større, eller hvis du taler om radius, så er det 100 gange større område af internet. Hvis du sætter det der, lad os sige midt i skoven eller midt i junglen, så kan du måske serve flere stammer, der ellers ville kræve en enkelt antenne for hver af dem.
At give internetadgang til disse svært tilgængelige områder var en af motivationerne. Jeg husker, at Loons motto var ikke at give internet til de næste milliarder mennesker, men til de sidste milliarder mennesker, hvilket var ekstremt ambitiøst på en måde. Det er ikke de næste milliarder, men det er bare som, de svært tilgængelige milliarder mennesker.
Hvad var de navigationsproblemer, du prøvede at løse?
Måden, disse balloner virker på, er, at de ikke er fremdrevet, ligesom måden, mennesker navigerer varmluftsballoner på, er, at du enten går op eller ned, og du finder vindstrømmen, der blæser dig i en bestemt retning, og så rider du på den vind, og så er det som, “Oh, jeg vil ikke gå der længere,” måske går du så op eller ned og finder en anden vindstrøm og så videre. Dette er, hvad det gør med disse balloner også. Det er ikke en varmluftsballon, det er en fast volumen-ballon, der flyver i stratosfæren.
Alt, det kan gøre i en vis forstand fra navigationsperspektiv, er at gå op, gå ned eller blive, hvor det er, og så skal det finde vindstrømme, der vil lade det gå, hvor det vil være. På den måde er dette, hvordan vi ville navigere, og der er så mange udfordringer, faktisk. Den første er, at når vi taler om formulering først, vil du gerne være i en region, serve internet, men du vil også gerne sikre, at disse balloner er solceller, at du beholder kraft. Der er dette multi-objective optimeringsproblem, ikke kun at sikre, at jeg er i regionen, jeg vil være, men også at jeg er kraft-effektiv på en måde, så dette er det første.
Dette var problemet selv, men når du ser på detaljerne, ved du ikke, hvordan vindstrømme ser ud, du ved, hvordan vindstrømme ser ud, hvor du er, men du ved ikke, hvordan vindstrømme ser ud 500 meter over dig. Du har, hvad vi kalder i AI, partial observability, så du har ikke den data. Du kan have prognoser, og der er papirer skrevet om dette, men prognoserne kan ofte være op til 90 grader forkerte. Det er et rigtigt svært problem i forstand til, hvordan du håndterer denne partial observability, det er et ekstremt højt-dimensionalt problem, fordi vi taler om hundredvis af forskellige lag af vind, og så skal du også tage højde for vindens hastighed, vindens retning, måden, vi modellerer det på, og hvor sikker vi er på, at prognosen af usikkerheden.
Dette gør problemet meget svært at tackle. En af de ting, vi kæmpede mest med i dette projekt, var, at efter alt var gjort og så videre, var det bare som, “Hvordan kan vi overføre, hvor svært dette problem er?” Fordi det er svært at omfatte med vores tanker, fordi det ikke er noget, du ser på skærmen, det er hundredvis af dimensioner og vind, og hvornår var det sidste, jeg havde en måling af den vind? På en måde skal du indtage alt det, mens du tænker på kraft, tid på dagen, hvor du vil være, det er meget.
Hvad er det, maskinlæringen studerer? Er det bare vindmønstre og temperatur?
Måden, det virker på, er, at vi havde en model af vindstrømme, der var et maskinlærings-system, men det var ikke forstærkninglæring. Du har historiske data om alle slags forskellige højder, og så byggede vi et maskinlærings-model på toppen af det. Når jeg siger “vi”, var jeg ikke en del af dette, dette var noget, Loon gjorde, før Google Brain blev involveret. De havde denne vind-model, der var ud over blot de forskellige højder, så hvordan du interpolerer mellem de forskellige højder?
Du kunne sige, “Lad os sige, for to år siden, dette var, hvad vindstrømmen så ud som, men hvad det så ud som måske 10 meter over, ved vi ikke”. Så sætter du en Gaussian-proces på toppen af det, så de havde papirer skrevet om, hvor god en modelering det var. Måden, vi gjorde det på, var, at vi startede fra et forstærkninglæring-perspektiv, vi havde en meget god simulator af dynamikken af ballonen, og så havde vi også denne vind-simulator. Så hvad vi gjorde, var, at vi gik tilbage i tiden og sagde, “Lad os forestille os, at jeg er i 2010.” Vi har data for, hvad vindstrømmen var som i 2010 over hele verden, men meget groft, men så kan vi lægge denne maskinlærings-model, denne Gaussian-proces på toppen, så vi får faktisk målinger af vindstrømmen, og så kan vi introducere støj, vi kan også gøre alle slags ting.
Så til sidst, fordi vi har dynamikken af modellen og vi har vindstrømmen, og vi går tilbage i tiden og forestiller os, at dette er, hvor vi var, så havde vi faktisk en simulator.
Det er som en digital tvilling tilbage i tiden.
Præcis, vi designede en reward-funktion, der var at blive på mål og lidt kraft-effektiv, men vi designede denne reward-funktion, så vi havde ballonen lære ved at interagere med denne verden, men det kan kun interagere med verden, fordi vi ikke ved, hvordan vi kan modelere vejret og vindstrømmen, men fordi vi var tilbage i tiden og forestillede os, at dette var, hvor vi var, så kunne vi faktisk lære at navigere. Det var, om jeg skal gå op, ned eller blive, givet alt, der sker omkring mig, og til sidst er det, at jeg vil serve internet til den region. Det er, hvad problemet var, i en vis forstand.
Hvad er nogle af de udfordringer i at implementere forstærkninglæring i den virkelige verden i modsætning til et spil?
Jeg tror, at der er et par udfordringer. Jeg tror ikke, det nødvendigvis er om spil og den virkelige verden, det er om grundlæggende forskning og anvendt forskning. Fordi du kunne gøre anvendt forskning i spil, lad os sige, at du prøver at implementere den næste model i et spil, der skal sendes til millioner af mennesker, men jeg tror, at en af de primære udfordringer er ingeniøren. Hvis du arbejder, mange gange bruger du spil som et forskningsmiljø, fordi de indfanger mange af de egenskaber, vi bekymrer os om, men de indfanger dem i et mere veldefineret sæt af begrænsninger. Fordi af det, kan vi gøre forskningen, vi kan validere læringen, men det er en mere sikker sat, måske “sikker” er ikke det rigtige ord, men det er et mere begrænset sat, som vi bedre forstår.
Det er ikke, at forskningen nødvendigvis behøver at være meget forskellig, men jeg tror, at den virkelige verden bringer mange ekstra udfordringer med sig. Det er om at implementere systemer som sikkerhedsbegrænsninger, som vi havde til at sikre, at løsningen var sikker. Når du bare arbejder med spil, behøver du ikke nødvendigvis tænke på det. Hvordan kan du sikre, at ballonen ikke gør noget dumt, eller at forstærkninglæring-algoritmen ikke lærte noget, vi ikke havde forudset, og som ville have dårlige konsekvenser? Dette var en af de største bekymringer, vi havde, var sikkerhed. Selvfølgelig, hvis du bare spiller spil, så er vi ikke rigtig bekymrede for det, værst tilfælde, taber du spillet.
Dette er udfordringen, den anden er ingeniør-stakken. Det er meget forskelligt end hvis du er en forsker på egen hånd, der interagerer med en computer, fordi du vil validere det, det er fint, men nu har du en ingeniør-stak af et helt produkt, du skal håndtere. Det er ikke, som om de bare vil lade dig gå amok og gøre, hvad du vil, så jeg tror, at du skal blive meget mere bekendt med den ekstra del også. Jeg tror, at størrelsen af holdet også kan være meget forskellig, som Loon på det tidspunkt havde dusinvis, hvis ikke hundredvis af mennesker. Vi interagerede stadig med et lille antal af dem, men så havde de en kontrolrum, der ville tale med luftfarts-personale.
Vi var uvæsentlige omkring det, men så havde du mange flere interessenter i en vis forstand. Jeg tror, at mange af forskellene er, at dine antagelser ikke holder. Mange af de antagelser, du gør, som disse algoritmer er baseret på, når de kommer til den virkelige verden, holder de ikke, og så skal du figure ud, hvordan du håndterer det. Verden er ikke så venlig som noget som helst, du gør i spil, det er mest, hvis du taler om et meget begrænset spil, du gør på egen hånd.
Et eksempel, jeg virkelig elsker, er, at de gav os alt, vi var som, “Okay, så nu kan vi prøve nogle af disse ting for at løse dette problem,” og så gik vi til det, og så kom vi tilbage til Loon-ingeniørerne to uger senere, “Vi har løst jeres problem.” Vi var rigtig smarte, de så på os med et smil på deres ansigt som, “I har ikke, vi ved, I ikke kan løse dette problem, det er for svært,” som, “Nej, vi gjorde, vi løste absolut jeres problem, se, vi har 100% nøjagtighed.” Som, “Dette er bogstaveligt umuligt, nogle gange har du ikke vindstrømme, der giver dig mulighed for at…” “Nej, lad os se, hvad der sker.”
Vi fandt ud af, hvad der skete. Ballonen, forstærkninglæring-algoritmen lærte at gå til centrum af regionen, og så ville den gå op, og op, og så ville ballonen sprænge, og så ville ballonen gå ned, og den var inde i regionen for evigt. De var som, “Dette er tydeligvis ikke, hvad vi vil have,” men så var det, som om, “Hvordan kan vi løse det?” De var som, “Oh, ja, der er et par ting, men en af de ting, vi gør, er, at vi sikrer, at ballonen ikke kan gå op over niveauet, hvor den vil sprænge.”
Disse begrænsninger i den virkelige verden, disse aspekter af, hvordan din løsning faktisk interagerer med andre ting, er let at overse, når du bare er en forstærkninglæring-forsker, der arbejder med spil, og så når du faktisk kommer til den virkelige verden, er du som, “Oh, vent, disse ting har konsekvenser, og jeg skal være bekendt med det.” Jeg tror, at dette er en af de primære udfordringer.
Jeg tror, at den anden er, at cyklussen af disse eksperimenter er rigtig lang, som i et spil kan jeg bare trykke på play. Værst tilfælde, efter en uge har jeg resultater, men så hvis jeg faktisk skal flyve balloner i stratosfæren, så har vi denne udtryk, jeg kan lide at bruge i mit oplæg, som er, vi var A/B-test af stratosfæren, fordi til sidst, efter vi havde løsningen og vi var sikre på det, så ville vi gerne sikre, at det faktisk var statistisk bedre. Vi fik 13 balloner, tror jeg, og vi fløj dem i Stillehavet i mere end en måned, fordi det var, hvor lang tid det tog for os at validere, at alt, hvad vi havde kommet med, faktisk var bedre. Tids-skalaen er meget forskellig også, så du får ikke så mange chancer for at prøve ting af.
I modsætning til spil, er der ikke en million iterationer af det samme spil, der kører samtidigt.
Ja. Vi havde det til træning, fordi vi udnyttede simulation, selv om, igen, simulatoren er meget langsommere end noget spil, du ville have, men vi kunne håndtere det ingeniørmæssigt. Når du gør det i den virkelige verden, så er det forskelligt.
Hvad er din forskning, du arbejder på i dag?
Nu er jeg ved University of Alberta, og jeg har en forskningsgruppe her med mange studerende. Min forskning er meget mere divers i en vis forstand, fordi mine studerende giver mig mulighed for at gøre det. En ting, jeg er særligt begejstret for, er denne idé om kontinuerlig læring. Hvad sker, er, at næsten hver gang, vi taler om maskinlæring i almindelighed, så gør vi nogle beregninger, enten ved at bruge en simulator eller ved at behandle data, og så lærer vi en maskinlærings-model, og vi implementerer den model, og vi håber, at den gør det godt, og det er fint. Mange gange er det præcis, hvad du har brug for, mange gange er det perfekt, men nogle gange er det ikke, fordi nogle gange er problemene i den virkelige verden for komplekse til, at du kan forvente, at en model, uanset hvor stor den er, faktisk var i stand til at indfange alle kompleksiteterne i verden, så du skal tilpasse dig.
En af de projekter, jeg er involveret i, for eksempel, her ved University of Alberta, er et vandbehandlingsanlæg. Det handler om, hvordan vi kan komme med forstærkninglæring-algoritmer, der kan støtte andre mennesker i beslutningsprocessen eller gøre det autonomt for vandbehandling. Vi har data, vi kan se data, og nogle gange ændrer vandkvaliteten sig inden for timer, så selv hvis du siger, “Hver dag vil jeg træne min maskinlærings-model fra dagen før, og jeg vil implementere den inden for timer af dagen,” så er den model ikke længere gyldig, fordi der er data-drift, det er ikke stationært. Det er rigtig svært for dig at modelere disse ting, fordi måske er det en skovbrand, der er i gang upstream, eller måske er sneen begyndt at smelte, så du skal modelere hele verden for at kunne gøre det.
Selvfølgelig gør ingen det, vi gør det ikke som mennesker, så hvad gør vi? Vi tilpasser os, vi bliver ved med at lære, vi er som, “Oh, denne ting, jeg gjorde, virker ikke længere, så jeg kan lige så godt lære at gøre noget andet.” Jeg tror, at der er mange publikationer, især de virkelige, der kræver, at du skal lære kontinuerligt og for evigt, og dette er ikke den standardmåde, vi taler om maskinlæring på. Mange gange taler vi om, “Jeg skal gøre en stor beregning, og jeg skal implementere en model,” og måske implementerer jeg en model, mens jeg allerede gør mere beregning, fordi jeg vil implementere en model et par dage eller uger senere, men nogle gange passer tids-skalaen ikke.
Spørgsmålet er, “Hvordan kan vi lære kontinuerligt for evigt, så vi bare bliver bedre og tilpasser os?” og dette er rigtig svært. Vi har et par publikationer om dette, som vores nuværende maskineri ikke er i stand til at gøre det, som mange af de løsninger, vi har, der er guld-standard i feltet, hvis du bare har noget, der bare fortsætter med at lære i stedet for at stoppe og implementere, så bliver tingene dårlige rigtig hurtigt. Dette er en af de ting, jeg er rigtig begejstret for, som jeg tror, at forstærkninglæring er særligt velegnet til at gøre dette, fordi mange af vores algoritmer er i gang med at behandle data, mens data kommer, og så er mange af algoritmerne bare i en vis forstand direkte til at lære. Det betyder ikke, at de gør det, eller at de er gode til det, men vi behøver ikke at spørge os selv, og jeg tror, at der er mange interessante forskningsspørgsmål om, hvad vi kan gøre.
Hvad er nogle af de fremtidige anvendelser med denne kontinuerlige læring, du er mest begejstret for?
Dette er milliard-dollarspørgsmålet, fordi i en vis forstand har jeg ledt efter disse anvendelser. Jeg tror, at som forsker, jeg har været i stand til at stille de rigtige spørgsmål, det er mere end halvdelen af arbejdet, så jeg tror, at i vores forstærkninglæring mange gange er jeg blevet drevet af problemer. Det er som om, “Oh, se, vi har denne udfordring, lad os sige, fem balloner i stratosfæren, så nu har vi at løse dette problem,” og så langs vejen laver du videnskabelige fremskridt. Lige nu arbejder jeg med andre API’er som Adam White, Martha White på dette, som er projekter, der faktisk er ledet af dem på dette vandbehandlingsanlæg. Det er noget, jeg er rigtig begejstret for, fordi det er noget, der er rigtig svært at beskrive med sprog i en vis forstand, så det er som om, det er ikke, at alle de nuværende succesfulde succeser, vi har med sprog, er let anvendelige der.
De kræver denne kontinuerlige læring-aspekt, som jeg sagde, du har vand, der ændrer sig ret ofte, enten det er turbiditet, temperatur og så videre, og det opererer på forskellige tids-skalaer. Jeg tror, at det er umuligt at undgå, at vi skal lære kontinuerligt. Det har en enorm social impact, det er svært at forestille sig noget, der er mere vigtigt end at give drikkevand til befolkningen, og nogle gange betyder det rigtig meget. Fordi det er let at overse det faktum, at nogle gange i Canada, for eksempel, når vi går til disse mere sparsomt befolkede regioner som i den nordlige del og så videre, så har vi ikke engang en operatør til at operere et vandbehandlingsanlæg. Det er ikke, som om dette nødvendigvis skal erstatte operatører, men det er til at give os mulighed for at gøre ting, som vi ellers ikke kunne, fordi vi bare ikke har personale eller styrke til at gøre det.
Jeg tror, at det har en enorm potentiel social impact, det er et ekstremt svært forskningsspørgsmål. Vi har ikke en simulator, vi har ikke mulighed for at anskaffe en, så så skal vi bruge den bedste data, vi har, vi skal lære online, så der er mange udfordringer der. Dette er en af de ting, jeg er begejstret for. En anden er, og dette er ikke noget, jeg har arbejdet meget med, men en anden er afkøling af bygninger, og igen, tænk på vejret, på klimaforandringer og ting, vi kan have en impact på, ret ofte er det som om, hvordan beslutter vi, hvordan vi skal afkøle en bygning? Ligesom denne bygning, vi har hundredvis af mennesker i dag, dette er meget forskelligt fra, hvad det var sidste uge, og skal vi bruge præcis den samme politik? På det mest, har vi en termostat, så vi er som, “Oh, ja, det er varmt, så vi kan måske være mere smarte omkring det og tilpasse os,” igen, og nogle gange er der mange mennesker i et rum, ikke det andet.
Der er mange af disse muligheder om kontrollerede systemer, der er høj-dimensionale, ret svært at omfatte i vores tanker, som vi kan måske gøre meget bedre end de standard-tilgange, vi har i feltet i dag.
I nogle steder er op til 75% af forbrug af kraft rent faktisk aircondition-anlæg, så det giver rigtig meget mening.
Præcis, og jeg tror, at mange af disse i dit hus, de er allerede i en vis forstand nogle produkter, der gør maskinlæring, og så lærer de fra deres kunder. I disse bygninger kan du have en meget mere fin-grænet tilgang, som Florida, Brasilien, det er mange steder, der har dette behov. Afkøling af datacenter, dette er en anden også, der er nogle virksomheder, der starter med at gøre dette, og dette lyder næsten som science fiction, men der er en mulighed for at lære kontinuerligt og tilpasse sig, mens behovet kommer. Dette kan have en enorm impact på disse kontrollerede systemer, der er høj-dimensionale og så videre, ligesom når vi fløj ballonerne. For eksempel, en af de ting, vi kunne vise, var, hvordan forstærkninglæring, og specifikt dyb forstærkninglæring, kan lære beslutninger baseret på sensorer, der er meget mere komplekse end det, mennesker kan designe.
Bare ved definition, ser du på, hvordan et menneske ville designe en respons-kurve, ligesom, “Nå, det er sandsynligvis lineært, kvadratisk,” men når du har en neural netværk, kan den lære alle non-lineariteterne, der gør det til en meget fin-grænet beslutning, der nogle gange er ret effektiv.
Tak for det fantastiske interview, læsere, der ønsker at lære mere, skal besøge følgende ressourcer:












