Rozhovory

Marlos C. Machado, Adjunct Professor at the University of Alberta, Amii Fellow, CIFAR AI Chair – Interview Series

Published June 13, 2023

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Marlos C. Machado je Fellow v rezidenci na Alberta Machine Intelligence Institute (Amii), adjunct professor na University of Alberta a Amii fellow, kde také drží Canada CIFAR AI Chair. Výzkum Marlosova se většinou zaměřuje na problém učení s posilováním. Získal titul B.Sc. a M.Sc. na UFMG v Brazílii a titul Ph.D. na University of Alberta, kde popularizoval myšlenku prodlouženého průzkumu pomocí možností.

Byl výzkumníkem v DeepMind od roku 2021 do 2023 a v Google Brain od roku 2019 do 2021, během kterého čas udělal významné příspěvky k učení s posilováním, zejména aplikaci hlubokého učení s posilováním na kontrolu stratosférických balónů Loon. Práce Marlosova byla publikována v předních konferencích a časopisech v oblasti AI, včetně Nature, JMLR, JAIR, NeurIPS, ICML, ICLR a AAAI. Jeho výzkum byl také uveden v populárních médiích, jako je BBC, Bloomberg TV, The Verge a Wired.

Usedli jsme si k rozhovoru na roční konferenci Upper Bound 2023 o AI, která se koná v Edmontonu, AB a je hostována Amii (Alberta Machine Intelligence Institute).

Vaše primární zaměření bylo na učení s posilováním, co vás přitahuje k tomuto typu strojového učení?

To, co mi na učení s posilováním připadá zajímavé, je tento koncept, je to velmi přirozený způsob, podle mého názoru, učení, tj. učíte se interakcí. Zdá se, že je to způsob, jakým se učíme jako lidé, v jistém smyslu. Nerad anthropomorfizuji AI, ale je to prostě intuivní způsob, že budete zkoušet věci, některé věci se vám budou líbit, některé věci se vám nebudou líbit, a naučíte se dělat věci, které vám dělají dobře. Jednou z věcí, které mě fascinují na učení s posilováním, je fakt, že protože skutečně interagujete se světem, jste tento agent, o kterém mluvíme, který se snaží věci ve světě a agent může přijít s hypotézou a otestovat tuto hypotézu.

Důvod, proč toto záleží, je ten, že umožňuje objevování nových chování. Například jedním z nejznámějších příkladů je AlphaGo, tah 37, o kterém se mluví v dokumentu, který je tímto tahem, který lidé říkají, že to byla kreativita. To nebylo nikde, to było prostě interakcí se světem, a dostanete tuto schopnost objevovat, jako jeden z projektů, na kterém jsem pracoval, byl létání viditelných balónů ve stratosféře, a viděli jsme velmi podobné věci.

Viděli jsme, jak se chování vyvíjí, což nás všechny ohromilo a jako bychom nikdy nemysleli, že to je géniové. Myslím, že učení s posilováním je jedinečně situováno, aby umožnilo objevit tento typ chování, protože interagujete, protože v jistém smyslu je jedna z opravdu difících věcí kontrafakt, jako co by se stalo, kdybych udělal tohle místo toho, co jsem udělal? To je super difícitní problém obecně, ale ve mnoha nastaveních studií strojového učení není nic, co můžete udělat. V učení s posilováním můžete, “Co by se stalo, kdybych udělal tohle?” Mohl bych to zkusit příště, když budu mít tuto zkušenost. Myslím, že tato interaktivní stránka, tu opravdu mám rád.

Samozřejmě, že nebudu hypokrit, myslím, že spousta cool aplikací, které přišly s tím, dělá to bastante zajímavým. Jako návrat desetiletí a desetiletí zpět, dokonce když mluvíme o raných příkladech velkých úspěchů učení s posilováním, tohle všechno dělá to pro mě velmi atraktivním.

Jaká byla vaše oblíbená historická aplikace?

Myslím, že existují dvě velmi slavné, jedna je létající vrtulník, který udělali na Stanfordu s učení s posilováním, a druhá je TD-Gammon, což je backgammonový hráč, který se stal světovým šampionem. To bylo zpět v 90. letech, a tak tohle bylo během mého PhD, udělal jsem si jistý, že jsem udělal stáž na IBM s Geraldem Tesaurem a Gerald Tesauro byl člověk, který vedl projekt TD-Gammon, takže to bylo jako tohle je opravdu cool. Je to zábavné, protože když jsem začal dělat učení s posilováním, nebylo to, že jsem byl plně vědom toho, co to je. Když jsem se hlásil na grad school, vzpomínám, že jsem šel na spoustu webových stránek profesorů, protože jsem chtěl dělat strojové učení, jako velmi obecně, a četl jsem popis výzkumu každého, a byl jsem jako, “Ó, tohle je zajímavé.” Když se ohlížím zpět, bez znalosti oblasti, jsem si vybral všechny slavné profesory v našem učení s posilováním, ale ne proto, že byli slavní, ale protože popis jejich výzkumu byl lákavý. Byl jsem jako, “Ó, tohle je opravdu pěkné, chci pracovat s tímto chlapem a tím chlapem a tou ženou,” takže v jistém smyslu to bylo-

Jako byste je našli organicky.

Přesně, takže když se ohlížím zpět, říkám, “Ó, tito jsou lidé, se kterými jsem pracoval před dlouhou dobou,” nebo tito jsou papíry, které jsem četl předtím, než jsem vlastně věděl, co dělám, byl jsem jako, “Ó, tohle je něco, co bych měl číst,” takže to mě vždycky vrátilo k učení s posilováním.

Zatímco jste byl v Google Brain, pracoval jste na autonomní navigaci stratosférických balónů. Proč to byla dobrá aplikace pro poskytování internetového přístupu do obtížně dostupných oblastí?

To, že nejsem odborník, tohle je pitch, který Loon, který byl dceřinou společností Alphabet, pracoval. Když procházíme tím, jak poskytujeme internet spoustě lidí na světě, je to, že postavíte anténu, jako například postavíte anténu v Edmontonu, a tato anténa vám umožňuje sloužit internet do regionu o poloměru pět, šest kilometrů. Pokud postavíte anténu v centru New Yorku, sloužíte milionům lidí, ale teď si představte, že se snažíte sloužit internet do kmene v amazonském deštném pralese. Možná máte 50 lidí v kmeni, ekonomická cena umístění antény tam je opravdu vysoká, nezmíníte-li si ani přístup do této oblasti.

Ekonomicky řečeno, to nedává smysl, aby se investovalo do velké infrastruktury v obtížně dostupné oblasti, která je tak řídce osídlená. Nápad s balóny byl prostě, “Co kdybychom mohli postavit anténu, která je opravdu vysoká? Co kdybychom mohli postavit anténu, která je 20 kilometrů vysoká?” Samozřejmě, že nevíme, jak postavit takovou anténu, ale mohli bychom umístit balón tam, a pak by balón mohl sloužit regionu, který je 10krát větší, nebo pokud mluvíme o poloměru, pak je to 100krát větší oblast internetu. Pokud ho umístíte tam, řekněme uprostřed lesa nebo uprostřed džungle, pak možná můžete sloužit několik kmenů, které by jinak vyžadovaly samostatnou anténu pro každého z nich.

Sloužení internetového přístupu do těchto obtížně dostupných oblastí bylo jednou z motivací. Vzpomínám, že motto Loon bylo, aby neposkytoval internet dalším miliardám lidí, ale aby poskytoval internet posledním miliardám lidí, což bylo extrémně ambiciózní. Není to další miliarda, ale je to prostě poslední miliarda lidí, které je nejtěžší dosáhnout.

Jaké byly navigační problémy, které jste se snažili vyřešit?

Způsob, jakým tyto balóny fungují, je, že nejsou poháněny, stejně jako lidé navigují horkovzdušné balóny, je to, že buď jdete nahoru nebo dolů a najdete větrný proud, který vás táhne do konkrétního směru, a pak na něm jezdíte, a pak je to, “Ó, nechci jít tam nữa,” možná pak jdete nahoru nebo dolů a najdete jiný větrný proud a tak dále. Tohle dělá také tento balón. Není to horkovzdušný balón, je to balón s pevným objemem, který létá ve stratosféře.

Vše, co může udělat z hlediska navigace, je jít nahoru, jít dolů nebo zůstat tam, kde je, a pak musí najít větry, které mu umožní jít tam, kam chce. V tomto smyslu je to, jak bychom navigovali, a existuje spousta výzev, vlastně. První z nich je, že mluvíme o formulaci, chcete být v regionu, sloužit internet, ale také chcete zajistit, aby tyto balóny byly solárně poháněny, aby jste uchovali energii. Je to multiobjektivní optimalizační problém, abyste nejen zajistili, že jste v regionu, který chcete, ale také abyste byli energeticky efektivní.

Tohle byla samotná problém, ale když se podíváte na detaily, nevíte, jak vypadají větry, víte, jak vypadají větry tam, kde jste, ale nevíte, jak vypadají větry 500 metrů nad vámi. Máte to, co nazýváme v AI částečnou pozorovatelností, takže nemáte tu data. Můžete mít předpovědi, a existují papíry o tom, ale předpovědi jsou často až 90 stupňů špatné. Je to opravdu difícitní problém, protože máte co dočinění s touto částečnou pozorovatelností, je to extrémně vysokodimenzionální problém, protože mluvíme o stovkách různých vrstev větru, a pak musíte vzít v úvahu rychlost větru, směr větru, způsob, jakým jsme to modelovali, jak jsme si jisti na té předpovědi neurčitosti.

Tohle dělá problém opravdu těžkým. Jednou z věcí, se kterou jsme nejvíce bojovali v tomto projektu, bylo, jak můžeme vysvětlit, jak těžký je tento problém, protože je těžké zabalit naše mysli kolem něj, protože to není věc, kterou vidíte na obrazovce, jsou to stovky dimenzí a větry, a kdy jste naposledy měli měření toho větru? V jistém smyslu musíte strávit všechny tyto věci, zatímco přemýšlíte o energii, čase dne, kde chcete být, je toho spousta.

Co se strojovému učení učí? Je to prostě větrné vzory a teplota?

Způsob, jak to funguje, je, že máme model větrů, který je systémem strojového učení, ale není to učení s posilováním. Máte historická data o různých nadmořských výškách, takže pak postavíte model strojového učení na základě toho. Když říkám “my”, nebyl jsem součástí toho, tohle byla věc, kterou Loon udělal, dokonce předtím, než se Google Brain zapojil. Měli tento model větrů, který byl nad rámec pouze různých nadmořských výšek, takže jak interpolujete mezi různými nadmořskými výškami? Můžete říci, “Řekněme, že před dvěma lety, tohle je, jak vypadaly větry, ale co to vypadalo, třeba 10 metrů nad tím, nevíme”. Pak umístíte Gaussian proces na základě toho, takže měli papíry o tom, jak dobrý byl ten model.

Způsob, jakým jsme to udělali, je, že jsme začali z perspektivy učení s posilováním, měli jsme velmi dobrý simulátor dynamiky balónu, a pak jsme také měli tento simulátor větrů. Pak co jsme udělali, bylo, že jsme se vrátili v čase a řekli, “Pojďme se tvářit, že jsem v roce 2010.” Máme data o tom, jak vypadaly větry v roce 2010 po celém světě, ale velmi hrubá, ale pak můžeme nałožit tento model strojového učení, tento Gaussian proces na základě toho, abychom dostali skutečná měření větrů, a pak můžeme zavést šum, můžeme udělat spoustu věcí.

Pak nakonec, protože máme dynamiku modelu a máme větry a jsme se vracíme v čase, abychom se tvářili, že jsme tam, vlastně jsme měli simulátor.

Je to jako digitální dvojče zpět v čase.

Přesně, navrhli jsme funkci odměny, která byla zůstat na cíli a být trochu energeticky efektivní, ale navrhli jsme tuto funkci odměny, kterou jsme měli balón učit interakcí s tímto světem, ale mohl interagovat se světem pouze proto, že nevíme, jak modelovat počasí a větry, ale protože jsme se tvářili, že jsme v minulosti, a pak jsme se naučili navigovat. Základní věcí bylo, zda jít nahoru, dolů nebo zůstat? Vzhledem ke všemu, co se děje kolem mě, na konci dne je to, že chci sloužit internet do toho regionu. To bylo problém, v jistém smyslu.

Jaké jsou některé z výzev při nasazení učení s posilováním v reálném světě oproti hernímu nastavení?

Myslím, že existují pár výzev. Nerad bych řekl, že to nutně jde o hry a reálný svět, ale o fundamentální výzkum a aplikovaný výzkum. Protože byste mohli dělat aplikovaný výzkum v hrách, řekněme, že se snažíte nasadit další model do hry, která půjde milionům lidí, ale myslím, že jednou z hlavních výzev je inženýrství. Pokud pracujete, často používáte hry jako výzkumné prostředí, protože zachycují spoustu vlastností, o které se staráme, ale zachycují je v více definovaném souboru omezení. Protože toho, můžeme dělat výzkum, můžeme ověřit učení, ale je to spíše bezpečnější nastavení, které lépe rozumíme.

Není to, že výzkum nutně potřebuje být velmi odlišný, ale myslím, že reálný svět přináší spoustu dalších výzev. Je to o nasazení systémů, jako jsou bezpečnostní omezení, jako jsme museli zajistit, aby řešení bylo bezpečné. Když jste jen dělali hry, nemusíte nutně přemýšlet o tom. Jak zajistíte, aby balón nedělal něco hloupého, nebo aby se agent učení s posilováním nenaučil něco, co jsme neočekávali, a co by mělo špatné důsledky? To byla jedna z našich největších starostí, byla bezpečnost. Samozřejmě, pokud jste jen hráli hry, pak se o to opravdu nestaráme, v nejhorším případě prohráli jste hru.

Tohle je výzva, další je inženýrský stack. Je to velmi odlišné od toho, když jste výzkumník na svém vlastním, který chce ověřit interakci s počítačovou hrou, protože chce ověřit, je to v pořádku, ale teď máte inženýrský stack celého produktu, se kterým musíte pracovat. Není to, že vám prostě dovolí jít šílený a dělat, co chcete, takže myslím, že musíte se stát mnohem více obeznámený s touto další částí. Myslím, že velikost týmu může být také značně odlišná, jako Loon v té době, měli desítky, ne-li stovky lidí. My jsme byli stále samozřejmě interagující s malým počtem z nich, ale pak měli kontrolní místnost, která by skutečně mluvila s leteckým personálem.

Byli jsme bezradní, ale pak máte mnoho více zúčastněných stran, v jistém smyslu. Myslím, že spousta rozdílů je, že vaše předpoklady neplatí. Spousta předpokladů, které děláte, na kterých jsou tyto algoritmy založeny, když jdou do reálného světa, neplatí, a pak musíte zjistit, jak s tím nakládat. Svět není tak přátelský jako jakákoli aplikace, kterou budete dělat v hrách, je to hlavně pokud mluvíte o velmi omezené hře, kterou děláte sami.

Jedním z příkladů, který jsem opravdu miloval, je, že nám dali všechno, jsme jako, “Ó, teď můžeme zkusit některé z těchto věcí, aby se vyřešil tento problém,” a pak jsme šli to udělat, a pak o týden později, dva týdny později, jsme se vrátili k inženýrům Loon, jako, “Vyřešili jsme váš problém.” Byli jsme realmente chytří, podívali se na nás s úšklebkem na tváři, jako, “Ne, nevyřešili jste ten problém, víme, že nemůžete vyřešit ten problém, je to příliš těžké,” jako, “Ne, vyřešili jsme ten problém, absolutně vyřešili váš problém, podívejte se, máme 100% přesnost.” Jako, “To je doslova nemožné, někdy nemáte větry, které vám umožní …” “Ne, podívejte se, co se děje.”

Zjistili jsme, co se dělo. Balón, algoritmus učení s posilováním se naučil jít do centra regionu, a pak šel nahoru, a nahoru, a pak balón praskl, a pak balón šel dolů a byl uvnitř regionu navždy. Byli jako, “Tohle je jasně ne to, co chceme,” ale pak samozřejmě tohle byla simulace, ale pak říkáme, “Ó, tak jak můžeme to vyřešit?” Byli jako, “Ó, samozřejmě, existuje pár věcí, ale jedna z věcí, je, že zajistíme, aby balón nemohl jít nad úroveň, kde praskne.”

Tyto omezení v reálném světě, tyto aspekty, jak vaše řešení skutečně interaguje s jinými věcmi, je snadné přehlédnout, když jste jen výzkumník učení s posilováním, který pracuje na hrách, a pak, když skutečně jdete do reálného světa, jste jako, “Ó, tyto věci mají důsledky, a musím být si toho vědom.” Myslím, že tohle je jedna z hlavních difficítí.

Myslím, že další je, že cyklus těchto experimentů je opravdu dlouhý, jako v hře můžete prostě stisknout play. V nejhorším případě, po týdnu máte výsledky, ale pak, pokud skutečně máte létat balóny ve stratosféře, máme tento výraz, který rád používám ve své přednášce, že jsme testovali stratosféru, protože nakonec, když máte řešení a jste si jisti, že je to dobré, tak chcete zajistit, aby to bylo skutečně statisticky lepší. Dostali jsme 13 balónů, myslím, a létali jsme je v Pacifiku po více než měsíc, protože to bylo tolik času, kolik nám to trvalo, abychom dokonce ověřili, že všechno, co jsme přišli, bylo skutečně lepší. Časová osa je mnohem více odlišná, takže nemáte tolik příležitostí k vyzkoušení věcí.

Na rozdíl od her, tam není milion iterací stejné hry, které běží současně.

Ano. Měli jsme to pro trénink, protože jsme využívali simulaci, i když, opět, simulátor je mnohem pomalejší než jakákoli hra, kterou byste měli, ale byli jsme schopni se s tím vyrovnat inženýrsky. Když to děláte v reálném světě, je to odlišné.

Co je váš výzkum, na kterém pracujete dnes?

Teď jsem na University of Alberta, a mám výzkumnou skupinu zde s mnoha studenty. Můj výzkum je mnohem více rozmanitý, v jistém smyslu, protože moji studenti mi umožňují to dělat. Jednou z věcí, které mě opravdu baví, je tento koncept kontinuálního učení. Co se děje, je, že téměř každý čas, kdy mluvíme o strojovém učení obecně, budeme dělat一些 výpočty, ať už pomocí simulátoru, nebo pomocí datové sady a zpracování dat, a budeme učit model strojového učení, a nasadíme ten model a doufáme, že to bude v pořádku, a to je v pořádku. Spousta času je to přesně to, co potřebujete, spousta času je to perfektní, ale někdy to není, protože někdy jsou problémy v reálném světě příliš složité, aby se očekávalo, že model, ať už je jakkoli velký, bude schopen zahrnout všechny složitosti světa, takže musíte přizpůsobit.

Jedním z projektů, na kterém jsem zapojen, například zde na University of Alberta, je čistírna vody. Základní věcí je, jak můžeme vyvinout algoritmy učení s posilováním, které budou schopny podporovat ostatní lidi v procesu rozhodování, nebo jak to udělat autonomně pro čistírnu vody? Máme data, můžeme vidět data, a někdy kvalita vody se mění během hodin, takže i když řeknete, “Každý den budu trénovat můj model strojového učení z předchozího dne, a budu nasazovat ho do hodin svého dne,” ten model již není platný, protože existuje drift dat, není to stacionární. Je opravdu těžké modelovat ty věci, protože možná je to lesní požár, který probíhá nad tokem, nebo možná sníh začíná tát, takže byste museli modelovat celý svět, aby jste to mohli udělat.

Samozřejmě, že nikdo to nedělá, my to neděláme jako lidé, takže co děláme? Přizpůsobujeme se, stále se učíme, jsme jako, “Ó, tohle, co jsem dělal, nefunguje, takže mě možná naučím něco jiného.” Myslím, že existuje spousta publikací, hlavně ty reálné, které vyžadují, abyste se učili neustále a navždy, a tohle není standardní způsob, jakým mluvíme o strojovém učení. Spousta času mluvíme o, “Budu dělat velkou dávku výpočtu, a budu nasazovat model,” a možná budu nasazovat model, zatímco již dělám další výpočty, protože budu nasazovat model za pár dní, týdny později, ale někdy časová osa těch věcí nefunguje.

Otázka je, “Jak můžeme učit se neustále a navždy, aby jsme se stále zlepšovali a přizpůsobovali?” a tohle je opravdu těžké. Máme pár papírů o tom, jako naše současná mašinérie není schopna to udělat, jako spousta řešení, která máme, která jsou zlatým standardem v oboru, pokud prostě necháte něco učit neustále místo toho, abyste zastavili a nasadili, věci se dostanou špatné opravdu rychle. Tohle je jedna z věcí, které mě opravdu baví, kterou myslím, že je jedna z hranic, kterou máme, je tento aspekt kontinuálního učení.

Myslím, že učení s posilováním je zvláště vhodné pro tohle, protože spousta našich algoritmů zpracovává data, jakmile data přicházejí, a spousta algoritmů je prostě v jistém smyslu přímo přizpůsobena k tomu, aby se učily. Není to, že to dělají, nebo že jsou dobré v tom, ale nemůžeme se sami ptát, a myslím, že existuje spousta zajímavých výzkumných otázek o tom, co můžeme udělat.

Co jsou některé budoucí aplikace, které využívají kontinuální učení, které vás nejvíce baví?

Tohle je miliardová otázka, protože v jistém smyslu jsem hledal tyto aplikace. Myslím, že jako výzkumník, jsem byl schopen položit správné otázky, je to více než polovina práce, takže myslím, že v našem učení s posilováním spousta času jsem se nechal vést problémy. Je to jako, “Ó, máme tuto výzvu, tak teď musíme vyřešit tento problém,” a pak po cestě děláte vědecké pokroky. Teď pracuji s jinými, jako Adam White, Martha White na tomto, což je projekt, který je vlastně vedený jimi, na této čistírně vody. Je to něco, co mě opravdu baví, protože je to něco, co je opravdu těžké popsat jazykem, je to jako, “Ó, tohle není něco, co lze snadno aplikovat.”

Tyto aplikace vyžadují tento aspekt kontinuálního učení, jako jsem řekl, máte vodu, která se mění opravdu často, ať už je to zkalení, nebo teplota a tak dále, a funguje na různých časových škálách. Myslím, že je nevyhnutelné, že musíme se učit neustále. Má obrovský sociální dopad, je těžké si představit něco důležitějšího, než poskytovat pitnou vodu obyvatelstvu, a někdy to opravdu záleží. Protože je snadné přehlédnout fakt, že někdy v Kanadě, například, když jdete do těchto řidčeji osídlených oblastí, jako v severní části a tak dále, někdy nemáte ani operátora, aby provozoval čistírnu vody. Není to, že by tohle mělo nutně nahradit operátory, ale aby skutečně posílilo věci, které bychom jinak nemohli udělat, protože prostě nemáme personál nebo sílu, aby se to dělalo.

Myslím, že tohle má obrovský potenciál pro sociální dopad, je to extrémně difícitní výzkumný problém. Nemáme simulátor, nemáme prostředky, aby se jeden pořídil, takže musíme použít nejlepší data, musíme se učit online, takže existuje spousta výzev. Tohle je jedna z věcí, které mě baví. Další je chlazení budov, a opět, přemýšlím o počasí, o změně klimatu a věcech, které můžeme mít dopad. Spousta času je to, jak rozhodneme, jak budeme chladit budovu? Jako tato budova, ve které máme stovky lidí dnes, je to velmi odlišné od toho, co to bylo minulý týden, a budeme používat přesně stejnou politiku? V nejlepším případě máte termostat, takže jste jako, “Ó, je teplo, takže můžeme být chytřejší ohledně toho a přizpůsobit se,” opět, a někdy je tam spousta lidí v jedné místnosti, ne v druhé.

Existuje spousta těchto příležitostí pro řízené systémy, které jsou vysoké dimenze, opravdu těžké pochopit v našich myslích, které můžeme pravděpodobně udělat mnohem lépe než standardní přístupy, které máme nyní v oboru.

V některých místech až 75% spotřeby energie je doslova klimatizace, takže to dává smysl.

Přesně, a myslím, že spousta toho v domě, jsou již některé produkty, které dělají strojové učení, a pak se učí z klientů. V těchto budovách můžete mít mnohem jemnější přístup, jako Florida, Brazílie, je to spousta míst, která mají tuto potřebu. Chlazení datových center, tohle je další věc, existují některé společnosti, které začínají to dělat, a tohle zní skoro jako sci-fi, ale existuje schopnost neustále se učit a přizpůsobovat, jak potřeba přichází. Tohle může mít obrovský dopad na tyto řízené problémy, které jsou vysoké dimenze a tak dále, jako když létáme s balóny. Například, jedna z věcí, které jsme byli schopni ukázat, bylo, jak učení s posilováním, a zejména hluboké učení s posilováním, může naučit rozhodnutí založená na senzorech, které jsou mnohem složitější, než by je mohli navrhnout lidé.

Pouze tím, že definujete, můžete vidět, jak by člověk navrhl odpověď, jako, “No, bude to pravděpodobně lineární, kvadratické,” ale když máte neuronovou síť, může naučit všechny nelinearity, které dělají rozhodnutí mnohem jemnější, které jsou někdy opravdu efektivní.

Děkuji za úžasný rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit následující zdroje:

Antoine Tardif, CEO & Founder of Unite.AI

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.

Unite.AI

Marlos C. Machado, Adjunct Professor at the University of Alberta, Amii Fellow, CIFAR AI Chair – Interview Series

You may like