Verbind je met ons

Interviews

Marlos C. Machado, Adjunct Professor aan de Universiteit van Alberta, Amii Fellow, CIFAR AI Chair - Interviewreeks

mm

Marlos C. Machado is een Fellow in Residence bij het Alberta Machine Intelligence Institute (Amii), adjunct-professor aan de Universiteit van Alberta, en een Amii-fellow, waar hij ook een Canadese CIFAR AI-leerstoel bekleedt. Het onderzoek van Marlos richt zich vooral op het probleem van bekrachtigend leren. Hij behaalde zijn B.Sc. en M.Sc. van UFMG, in Brazilië, en zijn Ph.D. van de Universiteit van Alberta, waar hij het idee van tijdelijk uitgebreide verkenning via opties populair maakte.

Hij was onderzoeker bij DeepMind van 2021 tot 2023 en bij Google Brain van 2019 tot 2021, gedurende welke tijd hij een belangrijke bijdrage leverde aan het versterken van het leren, in het bijzonder de toepassing van diep versterkend leren om de stratosferische ballonnen van Loon te beheersen. Marlos' werk is gepubliceerd in de toonaangevende conferenties en tijdschriften op het gebied van AI, waaronder Nature, JMLR, JAIR, NeurIPS, ICML, ICLR en AAAI. Zijn onderzoek is ook te zien geweest in populaire media zoals BBC, Bloomberg TV, The Verge en Wired.

We gingen zitten voor een interview op de jaarlijkse 2023 Bovengrens conferentie over AI die wordt gehouden in Edmonton, AB en wordt georganiseerd door Amii (Alberta Machine Intelligence Instituut).

Je primaire focus ligt op versterkend leren. Wat trekt je aan dit soort machinaal leren?

Wat ik zo mooi vind aan reinforcement learning is dit concept. Het is een heel natuurlijke manier van leren, naar mijn mening. Je leert door interactie. Het voelt alsof dit is hoe wij als mensen leren, in zekere zin. Ik wil AI niet antropomorfiseren, maar het is gewoon een intuïtieve manier waarop je dingen uitprobeert. Sommige dingen voelen goed, sommige dingen voelen slecht, en je leert de dingen te doen waar je je beter door voelt. Een van de dingen die ik zo fascineer aan reinforcement learning is het feit dat je, omdat je daadwerkelijk met de wereld interageert, deze agent bent waar we het over hebben. Je probeert dingen in de wereld uit en de agent kan een hypothese bedenken en die hypothese testen.

De reden dat dit belangrijk is, is omdat het de ontdekking van nieuw gedrag mogelijk maakt. Een van de bekendste voorbeelden is bijvoorbeeld AlphaGo, de 37e beweging waar ze het in de documentaire over hebben. Deze beweging wordt door mensen creativiteit genoemd. Het was iets wat nog nooit eerder was gezien, het liet ons allemaal versteld staan. Het is nergens, het is gewoon door interactie met de wereld dat je die dingen ontdekt. ​​Je krijgt dit vermogen om te ontdekken, zoals een van de projecten waaraan ik werkte, het laten vliegen van zichtbare ballonnen in de stratosfeer, en we zagen ook zeer vergelijkbare dingen.

We zagen gedrag ontstaan ​​waar iedereen van onder de indruk was en waar we nooit over nagedacht hadden, maar het is briljant. Ik denk dat reinforcement learning uniek is in de positie om ons dit soort gedrag te laten ontdekken, omdat je interactie hebt. Want in zekere zin is een van de echt moeilijke dingen counterfactuals, zoals: wat zou er gebeurd zijn als ik dát had gedaan in plaats van wat ik deed? Dit is over het algemeen een supermoeilijk probleem, maar in veel situaties binnen machine learning-onderzoek kun je er niets aan doen. Bij reinforcement learning kun je zeggen: "Wat zou er gebeurd zijn als ik dát had gedaan?" Ik kan het net zo goed proberen de volgende keer dat ik dit meemaak. Ik denk dat dit interactieve aspect ervan me erg aanspreekt.

Natuurlijk ga ik niet hypocriet zijn, ik denk dat veel van de coole applicaties die erbij kwamen het behoorlijk interessant maakten. Zoals decennia en decennia geleden teruggaan, zelfs als we het hebben over de vroege voorbeelden van groot succes van versterkend leren, dit maakte het allemaal erg aantrekkelijk voor mij.

Wat was je favoriete historische toepassing?

Ik denk dat er twee heel bekende zijn: de vliegende helikopter die ze bij Stanford maakten met reinforcement learning, en de andere is TD-Gammon, een backgammonspeler die wereldkampioen werd. Dit was in de jaren 90, dus tijdens mijn promotieonderzoek heb ik stage gelopen bij IBM met Gerald Tesauro. Gerald Tesauro was de man die het TD-Gammon-project leidde, dus ik dacht: dit is echt cool. Het is grappig, want toen ik begon met reinforcement learning, wist ik nog niet helemaal wat het inhield. Toen ik me aanmeldde voor een masteropleiding, herinner ik me dat ik naar veel websites van professoren ging omdat ik machine learning wilde doen, heel in het algemeen, en ik las de beschrijvingen van hun onderzoek en dacht: "Oh, dit is interessant." Als ik terugkijk, zonder het vakgebied te kennen, heb ik alle beroemde professoren in ons reinforcement learning-onderzoek gekozen, maar niet omdat ze beroemd waren, maar omdat de beschrijving van hun onderzoek me aansprak. Ik dacht zoiets van: "Oh, deze website is echt leuk, ik wil met deze man en deze man en deze vrouw samenwerken," dus in zekere zin was het-

Alsof je ze organisch hebt gevonden.

Precies, dus als ik terugkijk en denk: "Oh, dit zijn de mensen met wie ik lang geleden heb gesolliciteerd", of "dit zijn de documenten waarvan ik, voordat ik eigenlijk wist wat ik deed, de beschrijving in het document van iemand anders las en dacht: "Oh, dit moet ik lezen", dan kom ik steeds weer terug bij reinforcement learning.

Bij Google Brain werkte je aan autonome navigatie van stratosferische ballonnen. Waarom was dit een goede use-case om internettoegang te bieden aan moeilijk bereikbare gebieden?

Ik ben daar geen expert in, maar dit is de pitch waar Loon, de dochteronderneming van Alphabet, aan werkte. Als we kijken naar de manier waarop we internet aanbieden aan veel mensen wereldwijd, dan komt het erop neer dat je een antenne bouwt, bijvoorbeeld een antenne in Edmonton, en met deze antenne kun je internet aanbieden in een gebied met een straal van bijvoorbeeld vijf, zes kilometer. Als je een antenne in het centrum van New York plaatst, bedien je miljoenen mensen, maar stel je nu eens voor dat je internet probeert aan te bieden aan een stam in het Amazone-regenwoud. Misschien heb je wel 50 mensen in de stam, de economische kosten om daar een antenne te plaatsen, maken het erg moeilijk, om nog maar te zwijgen van de toegang tot die regio.

Economisch gezien is het niet zinvol om een ​​grote infrastructuurinvestering te doen in een moeilijk bereikbare regio die zo dunbevolkt is. Het idee van ballonnen was zoiets als: "Maar wat als we een antenne konden bouwen die echt hoog is? Wat als we een antenne konden bouwen die 20 kilometer hoog is?" Natuurlijk weten we niet hoe we die antenne moeten bouwen, maar we zouden er een ballon kunnen plaatsen, en dan zou de ballon een gebied kunnen bedienen met een straal van 10 keer zo groot, of, als je het over een straal hebt, dan is het internetgebied 100 keer zo groot. Als je hem daar plaatst, bijvoorbeeld midden in het bos of midden in de jungle, dan kun je misschien meerdere stammen bedienen die anders voor elk van hen één antenne nodig zouden hebben.

Het aanbieden van internettoegang aan deze moeilijk bereikbare regio's was een van de drijfveren. Ik herinner me dat Loons motto niet was om internet te bieden aan de volgende miljard mensen, maar om internet te bieden aan de laatste miljard mensen. Dat was in zekere zin extreem ambitieus. Het gaat niet om de volgende miljard mensen, maar om de moeilijkst bereikbare miljard mensen.

Wat waren de navigatieproblemen die u probeerde op te lossen?

Deze ballonnen werken zo dat ze niet worden voortgestuwd, net zoals mensen met luchtballonnen vliegen. Je gaat omhoog of omlaag en vindt de windstroom die je in een bepaalde richting blaast. Dan rijd je mee op die wind, en dan denk je: "Oh, ik wil daar niet meer heen." Misschien ga je dan omhoog of omlaag en vind je een andere, enzovoort. Dat geldt ook voor die ballonnen. Het is geen luchtballon, het is een ballon met een vast volume die in de stratosfeer zweeft.

Het enige wat het in zekere zin vanuit navigatieperspectief kan doen, is omhoog gaan, omlaag gaan, of blijven waar het is, en dan moet het winden vinden die het laten gaan waar het wil zijn. In die zin is dit hoe we zouden navigeren, en er zijn eigenlijk zoveel uitdagingen. De eerste is, als we het eerst over formulering hebben, dat je in een regio wilt zijn, het internet wilt bedienen, maar je wilt er ook voor zorgen dat deze ballonnen op zonne-energie werken, zodat je stroom behoudt. Er is dit multi-objectieve optimalisatieprobleem: niet alleen ervoor zorgen dat ik in de regio ben waar ik wil zijn, maar ook dat ik op een bepaalde manier energiezuinig ben, dus dat is het eerste.

Dit was het probleem zelf, maar als je dan naar de details kijkt, weet je niet hoe de wind eruitziet. Je weet hoe de wind er bij jou is, maar je weet niet hoe de wind er 500 meter boven je uitziet. Je hebt wat we in AI 'partiële waarneembaarheid' noemen, dus je hebt die data niet. Je kunt voorspellingen hebben, en daar zijn artikelen over geschreven, maar de voorspellingen kunnen vaak tot wel 90 graden afwijken. Het is een heel lastig probleem in de zin van hoe je met deze gedeeltelijke waarneembaarheid omgaat. Het is een extreem hoogdimensionaal probleem, omdat we het hebben over honderden verschillende windlagen. Je moet dan ook rekening houden met de windsnelheid, de windrichting, de manier waarop we die hebben gemodelleerd, en hoe zeker we zijn van die voorspelling en de onzekerheid.

Dit maakt het probleem alleen maar lastig te overzien. Een van de dingen waar we het meest mee worstelden in dat project, was dat we, nadat alles was afgerond, ons afvroegen hoe we konden overbrengen hoe moeilijk dit probleem is. Omdat het moeilijk te bevatten is, omdat het niet iets is dat je op het scherm ziet, het zijn honderden dimensies en winden, en wanneer heb ik die wind voor het laatst gemeten? In zekere zin moet je dat allemaal verwerken terwijl je nadenkt over stroom, het tijdstip van de dag, waar je wilt zijn, het is veel.

Wat bestudeert de machine learning? Gaat het alleen om windpatronen en temperatuur?

De manier waarop het werkt, is dat we een model van de wind hadden dat een machine-leersysteem was, maar het was geen lerend leren. Je hebt historische gegevens over allerlei verschillende hoogtes, dus daarbovenop hebben we een machine learning-model gebouwd. Als ik 'wij' zeg, maakte ik hier geen deel van uit, dit was iets dat Loon deed voordat Google Brain erbij betrokken raakte. Ze hadden een windmodel dat verder ging dan alleen de verschillende hoogtes, dus hoe interpoleer je tussen de verschillende hoogtes?

Je zou kunnen zeggen: "Stel, twee jaar geleden zag de wind er zo uit, maar hoe het er misschien 10 meter boven de grond uitzag, weten we niet." Dan leg je daar een Gaussisch proces bovenop, dus er waren papers geschreven over hoe goed die modellering was. We gingen uit van een reinforcement learning-perspectief. We hadden een zeer goede simulator van de dynamiek van de ballon, en daarnaast hadden we ook nog deze windsimulator. Vervolgens gingen we terug in de tijd en zeiden: "Laten we doen alsof we in 2010 zijn." We hebben gegevens over hoe de wind er in 2010 over de hele wereld uitzag, maar dan heel grof. We kunnen dit machine learning-model, dit Gaussische proces, er vervolgens overheen leggen, zodat we de windmetingen krijgen. Vervolgens kunnen we ruis toevoegen en allerlei andere dingen doen.

Uiteindelijk, omdat we de dynamiek van het model hadden en we de wind hadden en we terug in de tijd gingen en deden alsof dit was waar we waren, hadden we daadwerkelijk een simulator.

Het is als een digitale tweeling terug in de tijd.

Precies, we hebben een beloningsfunctie ontworpen die ervoor zorgde dat hij op koers bleef en een beetje energiezuinig was, maar we hebben deze beloningsfunctie ontworpen die de ballon liet leren door interactie met deze wereld. Hij kan echter alleen met de wereld communiceren omdat we niet weten hoe we het weer en de wind moeten modelleren, maar omdat we deden alsof we in het verleden leefden, en toen zijn we erin geslaagd te leren navigeren. Eigenlijk was het de vraag: ga ik omhoog, omlaag, of blijf ik? Gezien alles wat er om me heen gebeurt, komt het er uiteindelijk op neer dat ik die regio van internet wil voorzien. Dat was in zekere zin het probleem.

Wat zijn enkele van de uitdagingen bij het inzetten van versterkend leren in de echte wereld versus een spelomgeving?

Ik denk dat er een paar uitdagingen zijn. Ik denk niet eens dat het per se om games en de echte wereld gaat, maar om fundamenteel en toegepast onderzoek. Je zou toegepast onderzoek in games kunnen doen, bijvoorbeeld door het volgende model te implementeren in een game die naar miljoenen mensen gaat, maar ik denk dat een van de grootste uitdagingen de engineering is. Als je aan het werk bent, gebruik je games vaak als onderzoeksomgeving, omdat ze veel van de eigenschappen vastleggen die we belangrijk vinden, maar ze vangen ze binnen een beter gedefinieerde set beperkingen. Daardoor kunnen we onderzoek doen en de leerervaring valideren, maar het is een soort veiligere set. Misschien is 'veiliger' niet het juiste woord, maar het is meer een beperkte setting die we beter begrijpen.

Het is niet zo dat het onderzoek per se heel anders hoeft te zijn, maar ik denk dat de echte wereld veel extra uitdagingen met zich meebrengt. Het gaat om het implementeren van systemen zoals veiligheidsbeperkingen, zoals we ervoor moesten zorgen dat de oplossing veilig was. Als je alleen maar games speelt, denk je daar niet per se over na. Hoe zorg je ervoor dat de ballon geen domme dingen doet, of dat de reinforcement learning agent niet iets leert wat we niet hadden voorzien, en dat dat nare gevolgen heeft? Dit was een van onze grootste zorgen: veiligheid. Natuurlijk, als je alleen maar games speelt, maken we ons daar niet echt zorgen over. In het ergste geval verlies je de game.

Dit is de uitdaging, de andere is de engineering stack. Het is heel anders dan wanneer je als onderzoeker alleen met een computerspel werkt omdat je het wilt valideren. Dat is prima, maar nu heb je een engineering stack van een heel product waar je mee aan de slag moet. Het is niet zo dat ze je zomaar hun gang laten gaan en doen wat je wilt, dus ik denk dat je ook veel meer vertrouwd moet raken met dat extra stukje. Ik denk dat de grootte van het team ook enorm kan verschillen. Zoals Loon destijds, met tientallen, zo niet honderden mensen. We hadden natuurlijk nog steeds contact met een klein aantal van hen, maar ze hadden een controlekamer die daadwerkelijk met het luchtvaartpersoneel communiceerde.

We hadden daar geen idee van, maar je hebt in zekere zin veel meer stakeholders. Ik denk dat een groot deel van het verschil is dat, ten eerste, techniek, veiligheid, enzovoort, en ten tweede natuurlijk dat je aannames niet kloppen. Veel van de aannames waarop je deze algoritmes baseert, kloppen niet in de echte wereld, en dan moet je uitzoeken hoe je daarmee omgaat. De wereld is niet zo gebruiksvriendelijk als welke applicatie je ook in games gaat gebruiken, vooral als je het hebt over een game met veel beperkingen die je zelf maakt.

Een voorbeeld dat ik echt geweldig vind, is dat ze ons alles gaven. We dachten: "Oké, nu kunnen we een paar van deze dingen proberen om dit probleem op te lossen." En toen gingen we aan de slag. En een week later, twee weken later, kwamen we terug bij de Loon-ingenieurs en zeiden: "We hebben jullie probleem opgelost." We waren echt slim. Ze keken ons aan met een grijns op hun gezicht, alsof ze zeiden: "Dat hebben jullie niet gedaan, we weten dat jullie dit probleem niet kunnen oplossen, het is te moeilijk." En dan: "Nee, dat hebben we wel gedaan, we hebben jullie probleem absoluut opgelost, kijk, we zijn 100% accuraat." Zo van: "Dit is letterlijk onmogelijk, soms heb je niet de wind die het je laat..." "Nee, laten we eens kijken wat er aan de hand is."

We kwamen erachter wat er aan de hand was. De ballon, het reinforcement learning-algoritme, leerde om naar het midden van het gebied te gaan, en dan ging hij omhoog, en omhoog, en dan knapte de ballon, en dan zakte de ballon weer, en bleef hij voor altijd in het gebied. Ze zeiden: "Dit is duidelijk niet wat we willen", maar dit was natuurlijk simulatie, maar toen zeiden we: "O ja, dus hoe lossen we dat op?" Ze zeiden: "O ja, natuurlijk zijn er een paar dingen, maar één daarvan is dat we ervoor zorgen dat de ballon niet boven het niveau komt waar hij zal barsten."

Deze beperkingen in de echte wereld, deze aspecten van hoe jouw oplossing daadwerkelijk samenwerkt met andere dingen, worden makkelijk over het hoofd gezien als je gewoon een reinforcement learning-onderzoeker bent die aan games werkt. Maar als je dan in de echte wereld bent, denk je: "Oh wacht, dit soort dingen hebben consequenties, daar moet ik me bewust van zijn." Ik denk dat dit een van de grootste moeilijkheden is.

Ik denk dat de andere net zo is als de cyclus van deze experimenten, die heel lang is, net als in een spel waar ik gewoon op 'play' kan drukken. In het ergste geval heb ik na een week al resultaten, maar als ik dan daadwerkelijk ballonnen in de stratosfeer moet laten vliegen, hebben we die uitdrukking die ik graag in mijn presentatie gebruik, die zegt dat we de stratosfeer aan het A/B-testen waren. Want uiteindelijk, nadat we de oplossing hebben en er vertrouwen in hebben, willen we er zeker van zijn dat het statistisch gezien ook daadwerkelijk beter is. We kregen 13 ballonnen, denk ik, en we lieten ze meer dan een maand in de Stille Oceaan vliegen, want zo lang duurde het voordat we überhaupt konden valideren dat alles wat we hadden bedacht, daadwerkelijk beter was. De tijdschaal is ook veel anders, dus je krijgt niet zoveel kansen om dingen uit te proberen.

In tegenstelling tot games, zijn er niet een miljoen versies van hetzelfde spel die tegelijkertijd draaien.

Ja. We hadden dat voor de training omdat we simulatie gebruikten, ook al is de simulator, nogmaals, veel langzamer dan welke game dan ook, maar we konden daar technisch gezien mee omgaan. Als je het in de echte wereld doet, is het anders.

Waaraan doet u momenteel onderzoek?

Nu werk ik aan de Universiteit van Alberta en heb ik hier een onderzoeksgroep met veel studenten. Mijn onderzoek is in zekere zin veel diverser, omdat mijn studenten me de mogelijkheid bieden dit te doen. Waar ik vooral enthousiast over ben, is het idee van continu leren. Wat er gebeurt, is dat vrijwel elke keer dat we het over machine learning in het algemeen hebben, we een berekening uitvoeren, met een simulator, met een dataset en de verwerking van de data, en we gaan een machine learning-model leren, en we implementeren dat model en we hopen dat het goed werkt, en dat is prima. Vaak is dat precies wat je nodig hebt, vaak is dat perfect, maar soms ook niet, omdat de problemen soms zijn dat de echte wereld te complex is om te verwachten dat een model, hoe groot het ook is, daadwerkelijk alles kan bevatten wat je wilde, alle complexiteiten ter wereld, dus je moet je aanpassen.

Een van de projecten waar ik bijvoorbeeld bij betrokken ben, hier aan de Universiteit van Alberta, is een waterzuiveringsinstallatie. In principe draait het erom hoe we algoritmen voor reinforcement learning ontwikkelen die andere mensen kunnen ondersteunen bij het besluitvormingsproces, of hoe we dit autonoom kunnen doen voor waterzuivering. We hebben de data, we kunnen de data zien, en soms verandert de waterkwaliteit binnen enkele uren. Dus zelfs als je zegt: "Elke dag ga ik mijn machine learning-model van de vorige dag trainen en ik ga het binnen enkele uren van jouw dag implementeren", dan is dat model niet meer geldig omdat er sprake is van datadrift, het is niet stationair. Het is erg moeilijk om zulke dingen te modelleren, want misschien is er een bosbrand die stroomopwaarts woedt, of misschien begint de sneeuw te smelten. Je zou dus de hele wereld moeten modelleren om dit te kunnen doen.

Natuurlijk doet niemand dat, wij mensen doen dat ook niet, dus wat doen we dan? We passen ons aan, we blijven leren, we denken: "Oh, dit ding dat ik deed, werkt niet meer, dus ik kan net zo goed iets anders leren." Ik denk dat er veel publicaties zijn, vooral die uit de praktijk, die vereisen dat je constant en eindeloos blijft leren, en dit is niet de standaardmanier waarop we over machine learning praten. Vaak hebben we het over: "Ik ga een grote hoeveelheid berekeningen uitvoeren en een model implementeren", en misschien implementeer ik het model terwijl ik al bezig ben met meer berekeningen, omdat ik een model een paar dagen of weken later implementeer, maar soms werkt de tijdschaal van die dingen niet.

De vraag is: "Hoe kunnen we continu blijven leren, zodat we alleen maar beter worden en ons aanpassen?" En dat is echt lastig. We hebben hier een paar artikelen over, zoals dat onze huidige apparatuur dit niet kan. Veel van de oplossingen die we hebben en die de gouden standaard vormen in dit veld, zoals: als je iets hebt en blijft leren in plaats van te stoppen en te implementeren, dan gaat het snel mis. Dit is een van de dingen waar ik echt enthousiast over ben. Ik denk dat het net zo is als nu we zoveel succesvolle dingen hebben gedaan, vaste modellen implementeren en we zullen ermee doorgaan. Als onderzoeker denk ik: "Wat is de grens van het gebied?" Ik denk dat een van de grenzen die we hebben, dit aspect van continu leren is.

Ik denk dat reinforcement learning hiervoor bijzonder geschikt is, omdat veel van onze algoritmen data verwerken terwijl die binnenkomt. Veel algoritmen zijn dus in zekere zin direct geschikt om te leren. Dat betekent niet dat ze dat ook doen of dat ze daar goed in zijn, maar we hoeven onszelf geen vragen te stellen. Ik denk dat er veel interessante onderzoeksvragen zijn over wat we kunnen doen.

Over welke toekomstige toepassingen die dit voortdurende leren gebruiken, ben je het meest enthousiast?

Dit is de vraag van een miljard dollar, want in zekere zin ben ik op zoek geweest naar die toepassingen. Ik denk dat ik als onderzoeker in zekere zin de juiste vragen heb kunnen stellen, het is meer dan de helft van het werk, dus ik denk dat ik in ons reinforcement learning vaak graag door problemen word gedreven. Het is net zoiets van: "Kijk, we hebben een uitdaging, laten we zeggen vijf ballonnen in de stratosfeer, dus nu moeten we bedenken hoe we dit kunnen oplossen," en ondertussen boek je wetenschappelijke vooruitgang. Momenteel werk ik hieraan samen met andere API's zoals Adam White en Martha White, en dat zijn de projecten die zij daadwerkelijk leiden voor deze waterzuiveringsinstallatie. Het is iets waar ik erg enthousiast over ben, omdat het eigenlijk moeilijk is om het zelfs maar met taal te beschrijven, dus het is gewoon zo dat alle huidige spannende successen die we met taal hebben behaald, daar gemakkelijk toepasbaar zijn.

Ze vereisen dit aspect van continu leren, zoals ik al zei: je moet het water vrij vaak verversen, of het nu gaat om de troebelheid, de temperatuur, enzovoort, en het werkt op verschillende tijdschalen. Ik denk dat het onvermijdelijk is dat we continu moeten leren. Het heeft een enorme maatschappelijke impact, je kunt je moeilijk iets belangrijkers voorstellen dan het daadwerkelijk voorzien van drinkwater aan de bevolking, en soms is dat zelfs van groot belang. Omdat het gemakkelijk over het hoofd wordt gezien dat we in Canada, bijvoorbeeld wanneer we naar deze dunner bevolkte gebieden gaan, zoals in het noorden, soms niet eens een operator hebben om een ​​waterzuiveringsinstallatie te bedienen. Het is niet zo dat dit per se operators moet vervangen, maar het is bedoeld om ons daadwerkelijk van energie te voorzien voor de dingen die we anders niet zouden kunnen, omdat we gewoon niet het personeel of de kracht hebben om dat te doen.

Ik denk dat het een enorme potentiële maatschappelijke impact heeft, het is een extreem uitdagend onderzoeksprobleem. We hebben geen simulator, we hebben niet de middelen om er een aan te schaffen, dus moeten we de beste data gebruiken, we moeten online leren, dus er zijn veel uitdagingen, en dit is een van de dingen waar ik enthousiast over ben. Een andere, en dit is niet iets waar ik veel mee bezig ben, is het koelen van gebouwen. En nogmaals, als je denkt aan het weer, aan klimaatverandering en dingen waar we invloed op kunnen hebben, is het vaak gewoon: hoe beslissen we hoe we een gebouw gaan koelen? Zoals dit gebouw waar we vandaag honderden mensen hebben, dit is heel anders dan vorige week, en gaan we precies hetzelfde beleid hanteren? We hebben hooguit een thermostaat, dus we denken: "Oh ja, het is warm, dus we kunnen hier waarschijnlijk slimmer mee omgaan en ons aanpassen", en soms zijn er veel mensen in de ene kamer, niet in de andere.

Er zijn veel mogelijkheden voor gecontroleerde systemen met een hoge dimensie, die we nauwelijks kunnen bevatten. En die we waarschijnlijk veel beter kunnen doen dan de standaardbenaderingen die we nu op dit gebied hebben.

Op sommige plaatsen bestaat 75% van het stroomverbruik letterlijk uit airconditioningunits, dus dat is logisch.

Precies, en ik denk dat veel hiervan in jouw huis in zekere zin al producten zijn die machine learning toepassen en die vervolgens van hun klanten leren. In deze gebouwen kun je een veel gedetailleerdere aanpak hanteren, zoals in Florida en Brazilië, waar veel plaatsen deze behoefte hebben. Het koelen van datacenters, dit is er ook een, er zijn bedrijven die hiermee beginnen, en dit klinkt bijna als sciencefiction, maar er is een mogelijkheid om constant te leren en zich aan te passen naarmate de behoefte zich voordoet. Dit kan een enorme impact hebben op deze regelproblemen die hoogdimensionaal zijn, zoals bij het oplaten van ballonnen. Een van de dingen die we bijvoorbeeld konden laten zien, was hoe reinforcement learning, en met name deep reinforcement learning, beslissingen kan leren op basis van sensoren die veel complexer zijn dan wat mensen kunnen ontwerpen.

Per definitie kijk je naar hoe een mens een responscurve zou ontwerpen, gewoon een gevoel van: "Nou, het zal waarschijnlijk lineair of kwadratisch zijn." Maar als je een neuraal netwerk hebt, kan het alle niet-lineariteiten leren, waardoor het een veel gedetailleerder besluit wordt, en soms zelfs heel effectief.

Bedankt voor het geweldige interview, lezers die meer willen weten, zouden de volgende bronnen moeten bezoeken:

Antoine is een visionair leider en oprichter van Unite.AI, gedreven door een onwrikbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Als serieel ondernemer gelooft hij dat AI net zo ontwrichtend voor de maatschappij zal zijn als elektriciteit, en wordt hij vaak betrapt op het uiten van lyrische verhalen over de potentie van ontwrichtende technologieën en AGI.

Als futuristisch, hij is toegewijd aan het onderzoeken hoe deze innovaties onze wereld zullen vormgeven. Daarnaast is hij de oprichter van Effecten.io, een platform dat zich richt op investeringen in geavanceerde technologieën die de toekomst opnieuw definiëren en hele sectoren opnieuw vormgeven.