Connect with us

Marlos C. Machado, adjunct-hoogleraar aan de University of Alberta, Amii Fellow, CIFAR AI Chair – Interview Series

Interviews

Marlos C. Machado, adjunct-hoogleraar aan de University of Alberta, Amii Fellow, CIFAR AI Chair – Interview Series

mm

Marlos C. Machado is een Fellow in Residence bij het Alberta Machine Intelligence Institute (Amii), een adjunct-hoogleraar aan de University of Alberta en een Amii Fellow, waar hij ook een Canada CIFAR AI Chair bekleedt. Marlos’ onderzoek richt zich voornamelijk op het probleem van reinforcement learning. Hij behaalde zijn B.Sc. en M.Sc. aan de UFMG in Brazilië en zijn Ph.D. aan de University of Alberta, waar hij het idee van tijdelijk uitgebreide exploratie via opties populair maakte.

Hij was onderzoeker bij DeepMind van 2021 tot 2023 en bij Google Brain van 2019 tot 2021, waar hij belangrijke bijdragen leverde aan reinforcement learning, met name de toepassing van diepe reinforcement learning voor het besturen van Loon’s stratosferische ballonnen. Marlos’ werk is gepubliceerd in de toonaangevende conferenties en tijdschriften op het gebied van AI, waaronder Nature, JMLR, JAIR, NeurIPS, ICML, ICLR en AAAI. Zijn onderzoek is ook gepresenteerd in populaire media zoals BBC, Bloomberg TV, The Verge en Wired.

We gingen zitten voor een interview op de jaarlijkse Upper Bound-conferentie van 2023 over AI, die gehouden wordt in Edmonton, AB en wordt gehost door Amii (Alberta Machine Intelligence Institute).

Uw primaire focus is geweest op reinforcement learning, wat trekt u aan in deze vorm van machine learning?

Wat ik leuk vind aan reinforcement learning is dit concept, het is een heel natuurlijke manier, naar mijn mening, van leren, dat wil zeggen dat je leert door interactie. Het voelt alsof het de manier is waarop wij als mensen leren, in zekere zin. Ik hou niet van antropomorfisme van AI, maar het is gewoon alsof het een intuïtieve manier is waarop je dingen uitprobeert, sommige dingen voelen goed, sommige dingen voelen slecht, en je leert om de dingen te doen die je beter laten voelen. Een van de dingen die ik fascinerend vind aan reinforcement learning is het feit dat, omdat je daadwerkelijk interacteert met de wereld, je een agent bent die we bespreken, die dingen uitprobeert in de wereld en de agent kan een hypothese opstellen en die hypothese testen.

De reden hiervoor is dat het ontdekking van nieuw gedrag mogelijk maakt. Bijvoorbeeld, een van de beroemdste voorbeelden is AlphaGo, de zet 37 waarover ze praten in de documentaire, die als creativiteit werd beschreven. Het was iets dat nog nooit eerder was gezien, het liet ons allemaal met open mond staan. Het is niet ergens, het was gewoon door interactie met de wereld, dat je dit soort dingen kunt ontdekken. Je krijgt deze mogelijkheid om te ontdekken, net als een van de projecten waar ik aan werkte, was het vliegen van zichtbare ballonnen in de stratosfeer, en we zagen heel vergelijkbare dingen.

We zagen gedrag ontstaan dat iedereen onder de indruk bracht en dat we nooit hadden bedacht, maar het is briljant. Ik denk dat reinforcement learning uniek geschikt is om dit soort gedrag te laten ontdekken, omdat je interacteert, omdat in zekere zin een van de echt moeilijke dingen contrafeiten zijn, zoals wat zou er gebeurd zijn als ik dat had gedaan in plaats van wat ik deed? Dit is een supermoeilijk probleem in het algemeen, maar in veel instellingen voor machine learning-studies, is er niets dat je eraan kunt doen. In reinforcement learning kun je dat wel, “Wat zou er gebeurd zijn als ik dat had gedaan?” Ik kan het net zo goed de volgende keer proberen dat ik deze ervaring heb. Ik denk dat dit interactieve aspect ervan, ik vind het echt leuk.

Natuurlijk ga ik niet hypocriet zijn, ik denk dat veel van de leuke toepassingen die ermee kwamen, het heel interessant maakten. Zoals terugkijken naar decennia en decennia geleden, zelfs toen we het hadden over de vroege voorbeelden van grote successen van reinforcement learning, dit maakte het voor mij heel aantrekkelijk.

Wat was uw favoriete historische toepassing?

Ik denk dat er twee heel beroemde zijn, een is de vliegende helikopter die ze deden aan Stanford met reinforcement learning, en een andere is TD-Gammon, die een wereldkampioen backgammon-speler werd. Dit was terug in de jaren ’90, en dus was dit tijdens mijn PhD, ik zorgde ervoor dat ik een stage deed bij IBM met Gerald Tesauro en Gerald Tesauro was de man die het TD-Gammon-project leidde, dus het was alsof dit echt cool was. Het is grappig omdat toen ik begon met reinforcement learning, was ik niet volledig op de hoogte van wat het was. Toen ik me aanmeldde voor de graduate school, herinner ik me dat ik naar veel websites van professoren ging omdat ik machine learning wilde doen, heel in het algemeen, en ik las de beschrijving van het onderzoek van iedereen, en ik was als, “Oh, dit is interessant.” Toen ik terugkijk, zonder dat ik de sector kende, koos ik alle beroemde professoren in ons reinforcement learning, maar niet omdat ze beroemd waren, maar omdat de beschrijving van hun onderzoek aantrekkelijk was. Ik was als, “Oh, deze website is echt leuk, ik wil met deze man en deze man en deze vrouw werken,” dus in zekere zin was het-

Alsof u ze op een natuurlijke manier vond.

Exact, dus toen ik terugkeek, zei ik als, “Oh, dit zijn de mensen met wie ik lang geleden wilde werken,” of dit zijn de papers die ik las voordat ik eigenlijk wist wat ik deed, ik was als, “Oh, dit is iets dat ik moet lezen,” het kwam steeds terug bij reinforcement learning.

Terwijl u bij Google Brain was, werkte u aan de autonome navigatie van stratosferische ballonnen. Waarom was dit een goede use case voor het bieden van internettoegang aan moeilijk bereikbare gebieden?

Dat ben ik geen expert in, dit is de pitch die Loon, een dochteronderneming van Alphabet, deed. Toen we door de manier gingen waarop we internet bieden aan veel mensen in de wereld, is het dat je een antenne bouwt, zoals zeg een antenne in Edmonton, en deze antenne laat je internet gebruiken voor een regio van laten we zeggen vijf, zes kilometer straal. Als je een antenne in het centrum van New York plaatst, serveer je internet aan miljoenen mensen, maar stel je voor dat je internet wilt bieden aan een stam in de Amazoneregion. Misschien heb je 50 mensen in de stam, de economische kosten van het plaatsen van een antenne daar, maken het echt moeilijk, om nog maar te zwijgen over het feit dat je zelfs deze regio niet kunt bereiken.

Economisch gezien, is het niet rendabel om een grote infrastructuurinvestering te doen in een moeilijk bereikbaar gebied dat zo dunbevolkt is. Het idee van ballonnen was gewoon, “Maar wat als we een antenne konden bouwen die echt hoog was? Wat als we een antenne konden bouwen die 20 kilometer hoog was?” Natuurlijk weten we niet hoe we zo’n antenne kunnen bouwen, maar we konden een ballon daar plaatsen, en dan kon de ballon een regio serveren die een straal van 10 keer groter was, of als je het over straal hebt, dan is het 100 keer groter gebied van internet. Als je hem daar plaatst, zeg in het midden van het bos of in het midden van de jungle, dan kun je misschien meerdere stammen serveren die anders een aparte antenne nodig zouden hebben.

Het bieden van internettoegang aan deze moeilijk bereikbare gebieden was een van de motivaties. Ik herinner me dat Loon’s motto was, niet om internet te bieden aan de volgende miljard mensen, maar om internet te bieden aan de laatste miljard mensen, wat extreem ambitieus was in zekere zin. Het is niet de volgende miljard, maar het is gewoon, de moeilijkste miljard mensen om te bereiken.

Wat waren de navigatieproblemen die u probeerde op te lossen?

De manier waarop deze ballonnen werken, is dat ze niet aangedreven worden, net zoals de manier waarop mensen een hete luchtballon navigeren, dat is, je gaat omhoog of omlaag en je vindt de windstroom die je in een specifieke richting blaast, dan rijd je op die wind, en dan is het, “Oh, ik wil daar niet meer naartoe,” misschien ga je dan omhoog of omlaag en vind je een andere, enzovoort. Dit is wat het ook doet met die ballonnen. Het is geen hete luchtballon, het is een ballon met een vaste volume die in de stratosfeer vliegt.

Alles wat het kan doen vanuit een navigatieperspectief, is omhoog gaan, omlaag gaan, of blijven waar het is, en dan moet het winden vinden die het naar waar het wil zijn, laten gaan. In die zin is dit hoe we zouden navigeren, en er zijn zo veel uitdagingen, eigenlijk. De eerste is dat, als we het eerst over de formulering hebben, je in een regio wilt zijn, internet serveren, maar je wilt ook zeker zijn dat deze ballonnen op zonne-energie werken, dat je de stroom behoudt. Er is dit multi-objectief optimalisatieprobleem, om niet alleen te zorgen dat ik in de regio ben die ik wil zijn, maar dat ik ook stroom-efficiënt ben op een manier, dus dit is het eerste ding.

Dit was het probleem zelf, maar toen we naar de details keken, wisten we niet hoe de winden eruitzagen, we weten hoe de winden eruitzagen waar we waren, maar we wisten niet hoe de winden eruitzagen 500 meter boven ons. We hebben wat we in AI partiële observabiliteit noemen, dus we hebben die gegevens niet. We kunnen voorspellingen hebben, en er zijn papers geschreven over dit, maar de voorspellingen kunnen vaak tot 90 graden verkeerd zijn. Het is een echt moeilijk probleem in de zin van hoe je met deze partiële observabiliteit omgaat, het is een extreem hoogdimensionaal probleem omdat we het over honderden verschillende lagen wind hebben, en dan moet je de snelheid van de wind, de richting van de wind, de manier waarop we het modelleerden, hoe zeker we zijn van die voorspelling van de onzekerheid, overwegen.

Dit maakt het probleem heel moeilijk om mee om te gaan. Een van de dingen waar we het meest mee worstelden in dit project, was dat, nadat alles was gedaan enzovoort, het gewoon was, “Hoe kunnen we overbrengen hoe moeilijk dit probleem is?” Omdat het moeilijk is om ons voor te stellen, omdat het niet iets is dat je op het scherm ziet, het zijn honderden dimensies en winden, en wanneer was de laatste keer dat ik een meting van die wind had? In zekere zin, moet je al die dingen verwerken terwijl je aan stroom, de tijd van de dag, waar je wilt zijn, denkt, het is veel.

Wat is de machine learning die het onderzoekt? Is het simpelweg windpatronen en temperatuur?

De manier waarop het werkt, is dat we een model van de winden hadden dat een machine learning-systeem was, maar het was geen reinforcement learning. We hadden historische gegevens over allerlei verschillende hoogtes, dus toen bouwden we een machine learning-model op basis daarvan. Als ik “we” zeg, was ik daar geen deel van, dit was iets dat Loon deed voordat Google Brain erbij betrokken raakte. Ze hadden dit windmodel dat verder ging dan alleen de verschillende hoogtes, dus hoe doe je het interpoleren tussen de verschillende hoogtes?

Je zou kunnen zeggen, “Laten we zeggen, twee jaar geleden, zo zag de wind eruit, maar wat het eruitzag, misschien 10 meter boven, weten we niet”. Toen zetten we een Gaussian proces daarop, dus ze hadden papers geschreven over hoe goed dat model was. De manier waarop we het deden, was dat we vanuit een reinforcement learning-perspectief begonnen, we hadden een heel goed simulator van de dynamica van de ballon, en toen hadden we ook deze windsimulator. Toen zeiden we, “Laten we teruggaan in de tijd en doen alsof ik in 2010 ben.” We hebben gegevens over wat de wind was in 2010 over de hele wereld, maar heel grof, maar toen konden we dit machine learning-model, dit Gaussian proces, erop leggen, zodat we daadwerkelijk de metingen van de winden kregen, en toen konden we ruis introduceren, we konden allerlei dingen doen.

Toen hadden we uiteindelijk, omdat we de dynamica van het model en de winden hadden, en we gingen terug in de tijd en deden alsof we daar waren, toen hadden we eigenlijk een simulator.

Het is alsof u een digitale tweeling had in de tijd.

Exact, we ontwierpen een beloningsfunctie die het op het doelwit blijven en een beetje stroom-efficiënt was, maar we ontwierpen deze beloningsfunctie die we hadden, zodat de ballon kon leren door interactie met deze wereld, maar het kan alleen interactie hebben met de wereld omdat we niet weten hoe we het weer en de winden kunnen modelleren, maar omdat we deden alsof we in het verleden waren, en toen konden we leren navigeren. Eigenlijk was het, ga ik omhoog, omlaag, of blijf ik? Gegeven alles wat er om me heen gebeurt, uiteindelijk is het, ik wil internet serveren aan die regio. Dat was het probleem, in zekere zin.

Wat zijn enkele van de uitdagingen bij het inzetten van reinforcement learning in de echte wereld in vergelijking met een gamesetting?

Ik denk dat er een paar uitdagingen zijn. Ik denk niet dat het noodzakelijkerwijs over games en de echte wereld gaat, het gaat over fundamenteel onderzoek en toegepast onderzoek. Omdat je toegepast onderzoek kunt doen in games, laten we zeggen dat je de volgende model probeert te deployen in een game die naar miljoenen mensen gaat, maar ik denk dat een van de belangrijkste uitdagingen de engineering is. Als je werkt, veel keren gebruik je games als onderzoeksomgeving omdat ze veel van de eigenschappen vangen die we belangrijk vinden, maar ze vangen ze in een meer gedefinieerde set van beperkingen. Omdat van dat, kunnen we het onderzoek doen, kunnen we het leren valideren, maar het is een beetje een veiligere set. Misschien is “veilig” niet het juiste woord, maar het is een meer beperkte omgeving die we beter begrijpen.

Het is niet dat het onderzoek noodzakelijkerwijs anders hoeft te zijn, maar ik denk dat de echte wereld, die veel extra uitdagingen met zich meebrengt. Het gaat over het deployen van systemen zoals veiligheidsbeperkingen, zoals we ervoor moesten zorgen dat de oplossing veilig was. Als je alleen games doet, denk je niet noodzakelijkerwijs aan dat. Hoe zorg je ervoor dat de ballon niet iets stoms doet, of dat de reinforcement learning-agent niet iets heeft geleerd dat we niet hadden voorzien, en dat slechte gevolgen heeft? Dit was een van de grootste zorgen die we hadden, was veiligheid. Natuurlijk, als je alleen games doet, maak je je niet echt druk om dat. Het ergste wat er kan gebeuren, is dat je het spel verliest.

Dit is de uitdaging, de andere is het engineeringsstack. Het is heel anders dan als je een onderzoeker bent die alleen met een computer werkt, omdat je een onderzoeksomgeving wilt valideren, het is prima, maar nu heb je een engineeringsstack van een heel product dat je moet omgaan met. Het is niet dat ze je gewoon laten doen wat je wilt, dus ik denk dat je veel meer vertrouwd moet raken met dat extra stukje. Ik denk dat de grootte van het team ook heel anders kan zijn, zoals Loon op dat moment, ze hadden tientallen, zo niet honderden mensen. We werkten nog steeds met een klein aantal van hen, maar toen hadden ze een controlekamer die daadwerkelijk met de luchtvaartmedewerkers sprak.

We waren onwetend over dat, maar toen je veel meer stakeholders hebt, in zekere zin. Ik denk dat veel van het verschil is, dat, een, engineering, veiligheid enzovoort, en misschien de andere, dat je aannames niet standhouden. Veel van de aannames die je maakt die deze algoritmes gebaseerd zijn op, als ze in de echte wereld komen, standhouden ze niet, en dan moet je figuur uit hoe je daarmee omgaat. De wereld is niet zo vriendelijk als elke toepassing die je in games doet, het is voornamelijk als je het over een heel beperkt spel hebt dat je alleen doet.

Een voorbeeld dat ik echt leuk vind, is dat ze ons alles gaven, we waren als, “Oké, dus nu kunnen we proberen om sommige van deze dingen op te lossen,” en toen gingen we het doen, en toen kwamen we een week later, twee weken later, terug bij de Loon-engineers als, “We hebben uw probleem opgelost.” We waren echt slim, ze keken naar ons met een glimlach op hun gezicht als, “U hebt het niet opgelost, we weten dat u dit probleem niet kunt oplossen, het is te moeilijk,” als, “Nee, we hebben het opgelost, we hebben het absoluut opgelost, kijk, we hebben 100% nauwkeurigheid.” Als, “Dit is letterlijk onmogelijk, soms heb je niet de winden die je naar waar je wilt, laten gaan…” “Nee, laten we kijken wat er aan de hand is.”

We ontdekten wat er aan de hand was. De ballon, het reinforcement learning-algoritme, leerde naar het centrum van de regio te gaan, en toen ging het omhoog, en omhoog, en toen barstte de ballon, en toen ging de ballon omlaag en het was voor altijd in de regio. Ze waren als, “Dit is duidelijk niet wat we willen,” maar toen konden we natuurlijk zien wat er aan de hand was. Ze waren als, “Oh yeah, dus hoe lossen we dat op?” Ze waren als, “Oh yeah, er zijn een paar dingen, maar een van de dingen, we zorgen ervoor dat de ballon niet boven het niveau kan gaan waarop het zal barsten.”

Deze beperkingen in de echte wereld, deze aspecten van hoe uw oplossing daadwerkelijk met andere dingen interacteert, zijn gemakkelijk over het hoofd te zien als je alleen een reinforcement learning-onderzoeker bent die aan games werkt, en dan, als je daadwerkelijk naar de echte wereld gaat, ben je als, “Oh wacht, deze dingen hebben gevolgen, en ik moet me daarvan bewust zijn.” Ik denk dat dit een van de belangrijkste moeilijkheden is.

Ik denk dat de andere is, het is gewoon, de cyclus van deze experimenten is echt lang, zoals in een spel kan ik gewoon op play drukken. Het ergste wat er kan gebeuren, is dat ik na een week resultaten heb, maar dan, als ik daadwerkelijk ballonnen in de stratosfeer moet vliegen, hebben we deze uitdrukking die ik leuk vind om in mijn gesprek te gebruiken, dat we de stratosfeer A/B-testten, omdat uiteindelijk, nadat we de oplossing hadden en we er zeker van waren, wilden we ervoor zorgen dat het daadwerkelijk statistisch beter was. We kregen 13 ballonnen, denk ik, en we vlogen ze in de Stille Oceaan voor meer dan een maand, omdat dat de tijd was die het kostte om zelfs maar te valideren dat alles wat we hadden bedacht, daadwerkelijk beter was. De tijdschaal is heel anders, dus je krijgt niet zo veel kansen om dingen uit te proberen.

In tegenstelling tot games, zijn er geen miljoen iteraties van hetzelfde spel die tegelijkertijd worden uitgevoerd.

Ja. We hadden dat voor training omdat we een simulator gebruikten, ook al is de simulator veel langzamer dan elk spel dat je zou hebben, maar we konden ermee omgaan vanuit een engineeringsperspectief. Als je het in de echte wereld doet, is het anders.

Wat is uw onderzoek dat u vandaag doet?

Nu ben ik aan de University of Alberta, en ik heb een onderzoeksGroep hier met veel studenten. Mijn onderzoek is veel diverser in zekere zin, omdat mijn studenten me in staat stellen om dat te doen. Een ding waar ik erg enthousiast over ben, is dit concept van continue leren. Wat gebeurt, is dat bijna elke keer dat we over machine learning praten in het algemeen, we een berekening gaan doen, hetzij met een simulator, hetzij met een dataset en het verwerken van de gegevens, en we leren een machine learning-model, en we deployen dat model en we hopen dat het oké doet, en dat is prima. Veel keren is dat exact wat je nodig hebt, veel keren is dat perfect, maar soms is het niet, omdat soms de problemen in de echte wereld te complex zijn om te verwachten dat een model, het maakt niet uit hoe groot het is, daadwerkelijk alle complexiteiten van de wereld kan incorporeren, dus je moet aanpassen.

Een van de projecten waar ik bij betrokken ben, bijvoorbeeld, hier aan de University of Alberta, is een waterzuiveringsinstallatie. Het gaat erom hoe we reinforcement learning-algoritmes kunnen ontwikkelen die andere mensen in het beslissingsproces kunnen ondersteunen, of hoe we het autonoom kunnen doen voor waterzuivering. We hebben de gegevens, we kunnen de gegevens zien, en soms verandert de kwaliteit van het water binnen enkele uren, dus zelfs als je zegt, “Elke dag ga ik mijn machine learning-model trainen van de vorige dag, en ik ga het deployen binnen enkele uren van uw dag,” dat model is niet langer geldig, omdat er gegevensdrift is, het is niet stationair. Het is heel moeilijk om die dingen te modelleren, omdat misschien een bosbrand aan de gang is stroomopwaarts, of misschien begint de sneeuw te smelten, dus je moet de hele wereld modelleren om dat te kunnen doen.

Natuurlijk doet niemand dat, we doen dat niet als mensen, dus wat doen we? We passen ons aan, we blijven leren, we zijn als, “Oh, deze ding die ik deed, werkt niet meer, dus ik kan net zo goed iets anders leren.” Ik denk dat er veel publicaties zijn, voornamelijk de echte wereld, die vereisen dat je constant en voor altijd leert, en dit is niet de standaardmanier waarop we over machine learning praten. Veel keren praten we over, “Ik ga een grote berekening doen, en ik ga een model deployen,” en misschien deploy ik een model terwijl ik al weer een nieuwe berekening doe, omdat ik over een paar dagen, weken, een model ga deployen, maar soms werkt de tijdschaal van die dingen niet uit.

De vraag is, “Hoe kunnen we constant en voor altijd leren, zodat we steeds maar beter worden en ons aanpassen?” en dit is heel moeilijk. We hebben een paar papers over dit, zoals onze huidige machinerie, die niet in staat is om dit te doen, zoals veel van de oplossingen die we hebben, die de gouden standaard in het veld zijn, als je ze gewoon laat doorgaan met leren in plaats van stoppen en deployen, worden dingen snel slecht. Dit is een van de dingen waar ik erg enthousiast over ben, die ik denk dat speciaal is, nu dat we zo veel succesvolle dingen hebben gedaan, deployen van vaste modellen, en we zullen dat blijven doen, denkend als onderzoeker, “Wat is de frontier van het gebied?” Ik denk dat een van de frontiers die we hebben, dit aspect van continue leren is.

Ik denk dat een van de dingen die reinforcement learning speciaal geschikt maakt om dit te doen, is dat veel van onze algoritmes, ze verwerken gegevens terwijl de gegevens binnenkomen, en dus veel van de algoritmes zijn direct geschikt om te leren. Het betekent niet dat ze dat doen of dat ze goed zijn, maar we hoeven onszelf niet te vragen, en ik denk dat we veel interessante onderzoeksVragen hebben over wat we kunnen doen.

Wat zijn enkele van de toekomstige toepassingen met dit continue leren waar u het meest enthousiast over bent?

Dit is de miljarddollarvraag, omdat in zekere zin, ik heb naar die toepassingen gezocht. Ik denk dat als onderzoeker, ik in staat ben om de juiste vragen te stellen, het is meer dan de helft van het werk, dus ik denk dat in onze reinforcement learning, veel keren, ik graag door problemen word gedreven. Het is gewoon, “Oh, we hebben deze uitdaging, laten we zien hoe we dit probleem kunnen oplossen,” en dan, onderweg, maak je wetenschappelijke vooruitgang. Nu werk ik met andere, zoals Adam White, Martha White, aan dit project, dat eigenlijk door hen wordt geleid, over een waterzuiveringsinstallatie. Het is iets waar ik echt enthousiast over ben, omdat het een van de dingen is, die echt moeilijk is om met taal te beschrijven, in zekere zin.

Het heeft een enorme sociale impact, het is moeilijk om je voor te stellen dat er iets belangrijker is dan het bieden van drinkwater aan de bevolking, en soms maakt het echt een groot verschil. Omdat het gemakkelijk is om over het hoofd te zien dat soms, in Canada, bijvoorbeeld, als we naar deze meer dunbevolkte gebieden gaan, zoals in het noorden enzovoort, soms hebben we niet eens een operator om een waterzuiveringsinstallatie te bedienen. Het is niet dat dit noodzakelijkerwijs de operator moet vervangen, maar het is om ons te empoweren tot dingen die we anders niet zouden kunnen, omdat we gewoon niet de mankracht of de sterkte hebben om dat te doen.

Ik denk dat het een enorm potentieel heeft voor sociale impact, het is een extreem moeilijk onderzoeksprobleem. We hebben geen simulator, we hebben geen middelen om er een te verkrijgen, dus dan moeten we de beste gegevens gebruiken, we moeten online leren, dus er zijn veel uitdagingen daar. Dit is een van de dingen waar ik enthousiast over ben. Een ander ding, en dit is niet iets waar ik veel aan heb gedaan, maar een ander ding is het koelen van gebouwen, en weer, denkend aan het weer, aan klimaatverandering en dingen waar we een impact op kunnen hebben, het is vaak gewoon, hoe beslissen we hoe we een gebouw gaan koelen? Zoals dit gebouw dat we vandaag hebben, met honderden mensen, dit is heel anders dan wat het vorige week was, en gaan we exact hetzelfde beleid gebruiken? Het meest wat we hebben, is een thermostaat, dus we zijn als, “Oh yeah, het is warm, dus we kunnen waarschijnlijk slimmer zijn over dit en aanpassen,” weer, en soms zijn er veel mensen in een kamer, niet in de andere.

Er zijn veel van deze kansen over gecontroleerde systemen die hoogdimensionaal zijn, heel moeilijk om mee om te gaan in onze geest, die we waarschijnlijk veel beter kunnen doen dan de standaardbenaderingen die we nu in het veld hebben.

In sommige gebieden is tot 75% van het energieverbruik letterlijk airconditioning, dus dat maakt veel zin.

Exact, en ik denk dat veel van dit in uw huis, zijn er al een soort machine learning-producten die dat doen, en dan leren ze van hun klanten. In deze gebouwen, kunt u een veel fijnere aanpak hebben, zoals Florida, Brazilië, het is veel plaatsen die deze behoefte hebben. Het koelen van datacenters, dit is een ander ding waar sommige bedrijven mee beginnen, en dit klinkt bijna als sciencefiction, maar er is een mogelijkheid om constant te leren en aan te passen naarmate de behoefte ontstaat. Dit kan een enorme impact hebben op deze controleproblemen die hoogdimensionaal zijn enzovoort, zoals toen we de ballonnen vlogen. Bijvoorbeeld, een van de dingen die we konden laten zien, was precies hoe reinforcement learning, en specifiek diepe reinforcement learning, beslissingen kan leren op basis van sensoren die veel complexer zijn dan wat mensen kunnen ontwerpen.

Gewoon door definitie, kijk je naar hoe een mens een responscurve zou ontwerpen, het is gewoon, “Nou, het is waarschijnlijk lineair, kwadratisch,” maar als je een neurale netwerk hebt, kan het alle niet-lineaire aspecten leren die het een veel fijnere beslissing maken, die soms heel effectief is.

Bedankt voor het geweldige interview, lezers die meer willen leren, moeten de volgende bronnen bezoeken:

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.