Entretiens
Marlos C. Machado, professeur adjoint à l’Université de l’Alberta, boursier Amii, titulaire de la chaire CIFAR en IA – Série d’entretiens

Marlos C. Machado est un boursier en résidence à l’Alberta Machine Intelligence Institute (Amii), un professeur adjoint à l’Université de l’Alberta et un boursier Amii, où il détient également une chaire CIFAR en IA du Canada. Les recherches de Marlos portent principalement sur le problème de l’apprentissage par renforcement. Il a obtenu son B.Sc. et son M.Sc. à l’UFMG, au Brésil, et son doctorat à l’Université de l’Alberta, où il a popularisé l’idée d’exploration à long terme par options.
Il a été chercheur à DeepMind de 2021 à 2023 et à Google Brain de 2019 à 2021, période pendant laquelle il a apporté des contributions majeures à l’apprentissage par renforcement, en particulier l’application de l’apprentissage par renforcement profond pour contrôler les ballons stratosphériques de Loon. Les travaux de Marlos ont été publiés dans les principales conférences et revues en IA, notamment Nature, JMLR, JAIR, NeurIPS, ICML, ICLR et AAAI. Ses recherches ont également été présentées dans les médias populaires tels que la BBC, Bloomberg TV, The Verge et Wired.
Nous nous sommes assis pour une interview lors de la conférence annuelle 2023 Upper Bound sur l’IA qui se tient à Edmonton, AB et est organisée par Amii (Alberta Machine Intelligence Institute).
Votre principale focalisation a été sur l’apprentissage par renforcement, qu’est-ce qui vous attire dans ce type d’apprentissage automatique ?
Ce que j’aime dans l’apprentissage par renforcement, c’est ce concept, c’est une façon très naturelle, à mon avis, d’apprendre, qui est d’apprendre par interaction. Cela me semble être la façon dont nous apprenons en tant qu’êtres humains, dans un sens. Je n’aime pas anthropomorphiser l’IA, mais c’est juste comme si c’était une façon intuitive de essayer des choses, certaines choses se sentent bien, d’autres se sentent mal, et vous apprenez à faire les choses qui vous font vous sentir mieux. L’une des choses qui me fascine dans l’apprentissage par renforcement est le fait que, parce que vous interagissez réellement avec le monde, vous êtes cet agent dont nous parlons, qui essaie des choses dans le monde et l’agent peut émettre une hypothèse et la tester.
La raison pour laquelle cela compte est qu’il permet la découverte de nouveaux comportements. Par exemple, l’un des exemples les plus célèbres est AlphaGo, le mouvement 37 dont on parle dans le documentaire, qui est ce mouvement que les gens disent était créatif. C’était quelque chose qui n’avait jamais été vu auparavant, cela nous a laissés tous stupéfaits. Ce n’est nulle part, c’était juste en interagissant avec le monde que vous arrivez à découvrir ces choses. Vous obtenez cette capacité de découvrir, comme l’un des projets sur lesquels j’ai travaillé était de faire voler des ballons visibles dans la stratosphère, et nous avons vu des choses très similaires.
Nous avons vu des comportements émerger qui ont impressionné tout le monde et qui étaient comme nous ne l’avions jamais pensé, mais c’est génial. Je pense que l’apprentissage par renforcement est unique pour permettre de découvrir ce type de comportement parce que vous interagissez, parce que dans un sens, l’une des choses vraiment difficiles est les contre-faits, comme ce qui se serait passé si j’avais fait cela au lieu de ce que j’ai fait ? C’est un problème super difficile en général, mais dans de nombreux cas d’études en apprentissage automatique, il n’y a rien que vous puissiez faire à ce sujet. Dans l’apprentissage par renforcement, vous pouvez, “Qu’est-ce qui se serait passé si j’avais fait cela ?” Je pourrais aussi bien essayer la prochaine fois que j’expérimente cela. Je pense que cet aspect interactif, je l’aime vraiment.
Bien sûr, je ne vais pas être hypocrite, je pense que beaucoup des applications cool qui en sont résultées les ont rendues très intéressantes. Comme remonter des décennies et des décennies, même lorsque nous parlons des premiers exemples de grands succès de l’apprentissage par renforcement, tout cela m’a rendu cela très attractif.
Quelle a été votre application historique préférée ?
Je pense qu’il y en a deux très célèbres, l’un est l’hélicoptère volant qu’ils ont fait à Stanford avec l’apprentissage par renforcement, et l’autre est TD-Gammon, qui est ce joueur de backgammon qui est devenu champion du monde. C’était il y a des années, dans les années 90, et donc c’était pendant mon doctorat, j’ai fait en sorte de faire un stage à IBM avec Gerald Tesauro et Gerald Tesauro était le gars qui dirigeait le projet TD-Gammon, donc c’était comme si c’était vraiment cool. C’est drôle parce que lorsque j’ai commencé à faire de l’apprentissage par renforcement, ce n’est pas que j’étais pleinement conscient de ce que c’était. Lorsque j’ai postulé pour la fac, je me souviens que j’ai visité de nombreux sites Web de professeurs parce que je voulais faire de l’apprentissage automatique, comme très généralement, et que je lisais la description de la recherche de chacun, et que je disais, “Oh, c’est intéressant.” Lorsque je regarde en arrière, sans connaître le domaine, j’ai choisi tous les professeurs célèbres en apprentissage par renforcement, mais pas parce qu’ils étaient célèbres, mais parce que la description de leur recherche était attrayante pour moi. J’étais comme, “Oh, ce site Web est vraiment sympa, je veux travailler avec ce gars et ce gars et cette femme,” donc dans un sens, c’était-
Comme si vous les aviez trouvés de manière organique.
Exactement, donc lorsque je regarde en arrière, je disais, “Oh, ce sont les gens avec qui j’ai postulé pour travailler il y a longtemps,” ou ce sont les papiers que j’ai lus avant même que je sache ce que je faisais, j’étais comme, “Oh, c’est quelque chose que je devrais lire,” cela m’a constamment ramené à l’apprentissage par renforcement.
Pendant votre séjour à Google Brain, vous avez travaillé sur la navigation autonome de ballons stratosphériques. Pourquoi était-ce un bon cas d’utilisation pour fournir un accès à Internet dans des zones difficiles à atteindre ?
C’est que je ne suis pas un expert dans ce domaine, c’est le pitch que Loon, qui était la filiale d’Alphabet, travaillait dessus. Lorsque l’on passe par la façon dont nous fournissons Internet à beaucoup de gens dans le monde, c’est que vous construisez une antenne, comme dire construire une antenne à Edmonton, et cette antenne, elle permet de servir Internet à une région d’environ cinq, six kilomètres de rayon. Si vous mettez une antenne dans le centre-ville de New York, vous servez des millions de personnes, mais maintenant imaginez que vous essayez de servir Internet à une tribu dans la forêt amazonienne. Peut-être que vous avez 50 personnes dans la tribu, le coût économique de mettre une antenne là-bas, cela rend vraiment difficile, sans parler même d’accéder à cette région.
Sur le plan économique, cela ne vaut pas la peine de faire un grand investissement dans une région difficile à atteindre qui est si peu peuplée. L’idée des ballons était juste, “Mais qu’est-ce que nous pourrions faire si nous pouvions construire une antenne qui soit vraiment haute ? Qu’est-ce que nous pourrions faire si nous pouvions construire une antenne qui soit à 20 kilomètres de hauteur ?” Bien sûr, nous ne savons pas comment construire cette antenne, mais nous pourrions mettre un ballon là-bas, et puis le ballon serait en mesure de servir une région qui est un rayon 10 fois plus grand, ou si vous parlez de rayon, alors c’est 100 fois plus grand en termes de superficie d’Internet. Si vous le mettez là, disons au milieu de la forêt ou au milieu de la jungle, alors peut-être que vous pouvez servir plusieurs tribus qui autrement auraient besoin d’une antenne pour chacune d’elles.
Fournir un accès à Internet à ces zones difficiles à atteindre était l’une des motivations. Je me souviens que le mot d’ordre de Loon était de ne pas fournir Internet au prochain milliard de personnes, mais de fournir Internet au dernier milliard de personnes, ce qui était extrêmement ambitieux dans un sens. Ce n’est pas le prochain milliard, mais c’est juste comme les plus difficiles à atteindre.
Quels étaient les problèmes de navigation que vous essayiez de résoudre ?
La façon dont ces ballons fonctionnent est qu’ils ne sont pas propulsés, juste comme la façon dont les gens naviguent les ballons à air chaud, c’est que vous allez soit en haut, soit en bas et vous trouvez le courant de vent qui vous pousse dans une direction spécifique, puis vous chevauchez ce vent, et puis c’est comme, “Oh, je ne veux pas aller là-bas,” peut-être que vous allez en haut ou en bas et vous trouvez un autre courant de vent, et ainsi de suite. C’est ce que fait également ce ballon. Ce n’est pas un ballon à air chaud, c’est un ballon à volume fixe qui vole dans la stratosphère.
Tout ce qu’il peut faire d’un point de vue de navigation est d’aller en haut, en bas ou de rester où il est, et puis il doit trouver des vents qui vont le laisser aller où il veut être. Dans ce sens, c’est ainsi que nous naviguions, et il y a tellement de défis, en fait. Le premier est que, en parlant de formulation d’abord, vous voulez être dans une région, servir Internet, mais vous voulez également vous assurer que ces ballons sont alimentés par l’énergie solaire, que vous conservez l’énergie. Il y a ce problème d’optimisation multi-objectif, pour ne pas seulement vous assurer que vous êtes dans la région que vous voulez être, mais que vous êtes également efficace en termes d’énergie, donc c’est la première chose.
C’était le problème lui-même, mais puis lorsque vous regardez les détails, vous ne savez pas à quoi ressemblent les vents, vous savez à quoi ressemblent les vents où vous êtes, mais vous ne savez pas à quoi ressemblent les vents 500 mètres au-dessus de vous. Vous avez ce que nous appelons en IA une observabilité partielle, donc vous n’avez pas ces données. Vous pouvez avoir des prévisions, et il y a des papiers écrits à ce sujet, mais les prévisions sont souvent à 90 degrés fausses. C’est un problème vraiment difficile dans le sens de la façon dont vous gérez cette observabilité partielle, c’est un problème extrêmement à haute dimensionnalité parce que nous parlons de centaines de couches de vent différentes, et puis vous devez considérer la vitesse du vent, la direction du vent, la façon dont nous l’avons modélisé, à quel point nous sommes confiants dans cette prévision de l’incertitude.
Cela rend le problème très difficile à gérer. L’une des choses qui nous ont le plus posé problème dans ce projet est que, après que tout ait été fait, etc., c’était juste comme, “Comment pouvons-nous transmettre à quel point ce problème est difficile ?” Parce que c’est difficile de se mettre dans cet esprit, parce que ce n’est pas quelque chose que vous voyez sur l’écran, ce sont des centaines de dimensions et des vents, et quand était la dernière fois que j’ai eu une mesure de ce vent ? Dans un sens, vous devez ingérer tout cela pendant que vous pensez à l’énergie, au moment de la journée, à l’endroit où vous voulez être, c’est beaucoup.
Qu’est-ce que l’apprentissage automatique étudie ? Est-ce simplement les modèles de vent et la température ?
La façon dont cela fonctionne est que nous avions un modèle de vent qui était un système d’apprentissage automatique, mais ce n’était pas l’apprentissage par renforcement. Vous avez des données historiques sur toutes sortes d’altitudes différentes, donc ensuite nous avons construit un modèle d’apprentissage automatique sur cela. Lorsque je dis “nous”, je n’étais pas partie de cela, c’était une chose que Loon a fait même avant que Google Brain ne soit impliqué. Ils avaient ce modèle de vent qui était au-delà de seulement les différentes altitudes, donc comment faire pour interpoler entre les différentes altitudes ?
Vous pourriez dire, “Disons, il y a deux ans, c’est ainsi que le vent ressemblait, mais à quoi ressemblait-il peut-être 10 mètres au-dessus, nous ne savons pas”. Puis vous mettez un processus gaussien sur cela, donc ils ont écrit des papiers sur la façon dont ce modèle était bon. La façon dont nous l’avons fait est que nous avons commencé par une perspective d’apprentissage par renforcement, nous avions un simulateur très bon de la dynamique du ballon, et puis nous avions également ce simulateur de vent. Alors ce que nous avons fait, c’est que nous sommes allés dans le passé et avons dit, “Faisons semblant que je suis en 2010.” Nous avons des données sur ce à quoi ressemblait le vent en 2010 dans le monde entier, mais très grossier, mais puis nous pouvons superposer ce modèle d’apprentissage automatique, ce processus gaussien sur cela pour obtenir réellement les mesures des vents, et puis nous pouvons introduire du bruit, nous pouvons également faire toutes sortes de choses.
Alors finalement, parce que nous avons la dynamique du modèle et que nous avons les vents et que nous allons dans le passé en faisant semblant que c’est où nous étions, alors nous avions réellement un simulateur.
C’est comme un jumeau numérique dans le passé.
Exactement, nous avons conçu une fonction de récompense qui était rester sur la cible et un peu efficace en termes d’énergie, mais nous avons conçu cette fonction de récompense que nous avions le ballon apprendre en interagissant avec ce monde, mais il ne peut interagir avec le monde que parce que nous ne savons pas comment modéliser le temps et les vents, mais parce que nous faisions semblant d’être dans le passé, et puis nous avons réussi à apprendre à naviguer. Fondamentalement, c’était faire aller le ballon en haut, en bas ou rester ? Étant donné tout ce qui se passe autour de moi, au final, le but est de servir Internet à cette région. C’est ce qui était le problème, dans un sens.
Quels sont les défis de la mise en œuvre de l’apprentissage par renforcement dans le monde réel par rapport à un jeu ?
Je pense qu’il y a quelques défis. Je ne pense même pas que ce soit nécessairement à propos des jeux et du monde réel, c’est à propos de la recherche fondamentale et de la recherche appliquée. Parce que vous pourriez faire de la recherche appliquée dans les jeux, disons que vous essayez de déployer le prochain modèle dans un jeu qui va être diffusé à des millions de personnes, mais je pense que l’un des principaux défis est l’ingénierie. Si vous travaillez, la plupart du temps, vous utilisez les jeux comme environnement de recherche parce qu’ils capturent beaucoup des propriétés dont nous nous soucions, mais ils les capturent dans un ensemble de contraintes plus défini. À cause de cela, nous pouvons faire la recherche, nous pouvons valider l’apprentissage, mais c’est une sorte d’environnement plus sûr que nous comprenons mieux.
Ce n’est pas que la recherche nécessite nécessairement d’être très différente, mais je pense que le monde réel apporte beaucoup de défis supplémentaires. C’est le déploiement des systèmes comme les contraintes de sécurité, comme nous devions nous assurer que la solution était sûre. Lorsque vous faites simplement des jeux, vous ne vous souciez pas nécessairement de cela. Comment faites-vous pour vous assurer que le ballon ne fera pas quelque chose de stupide, ou que l’agent d’apprentissage par renforcement n’a pas appris quelque chose que nous n’avions pas prévu, et qui aura de mauvaises conséquences ? C’était l’une de nos préoccupations les plus importantes. Bien sûr, si vous jouez simplement, alors nous ne nous soucions pas vraiment de cela, dans le pire des cas, vous perdez le jeu.
C’est le défi, l’autre est comme le cycle de ces expériences qui sont vraiment longues, comme dans un jeu, je peux simplement appuyer sur le bouton de lecture. Dans le pire des cas, après une semaine, j’ai des résultats, mais alors si je dois réellement faire voler des ballons dans la stratosphère, nous avons cette expression que j’aime utiliser dans mon discours, c’est comme si nous faisions des tests A/B sur la stratosphère, parce que finalement, après que nous ayons la solution et que nous soyons confiants avec elle, nous voulons nous assurer qu’elle est réellement meilleure sur le plan statistique. Nous avons obtenu 13 ballons, je pense, et nous les avons fait voler dans l’océan Pacifique pendant plus d’un mois, parce que c’est le temps qu’il nous a fallu pour valider que tout ce que nous avions trouvé était réellement meilleur. L’échelle de temps est très différente également, donc vous n’avez pas autant de chances d’essayer des choses.
Contrairement aux jeux, il n’y a pas un million d’itérations du même jeu s’exécutant simultanément.
Oui. Nous avions cela pour la formation parce que nous utilisions la simulation, même si, encore une fois, le simulateur est beaucoup plus lent que n’importe quel jeu que vous auriez, mais nous avons pu gérer cela sur le plan de l’ingénierie. Lorsque vous le faites dans le monde réel, alors c’est différent.
Quelle est votre recherche que vous travaillez aujourd’hui ?
Maintenant, je suis à l’Université de l’Alberta, et j’ai un groupe de recherche ici avec de nombreux étudiants. Ma recherche est beaucoup plus diverse dans un sens, parce que mes étudiants me permettent de le faire. Une chose qui m’intéresse particulièrement est cette notion d’apprentissage continu. Ce qui se passe, c’est que presque chaque fois que nous parlons d’apprentissage automatique en général, nous allons faire une computation, que ce soit en utilisant un simulateur, que ce soit en utilisant un ensemble de données et en traitant les données, et nous allons apprendre un modèle d’apprentissage automatique, et nous déployons ce modèle et nous espérons qu’il se comporte bien, et c’est bien. Beaucoup de fois, c’est exactement ce dont vous avez besoin, beaucoup de fois, c’est parfait, mais parfois, ce n’est pas le cas, parce que parfois les problèmes du monde réel sont trop complexes pour que vous puissiez vous attendre à ce qu’un modèle, quelle que soit sa taille, ait réellement pu incorporer tout ce que vous vouliez, toutes les complexités du monde, donc vous devez vous adapter.
L’un des projets dans lesquels je suis impliqué, par exemple, ici à l’Université de l’Alberta, est une usine de traitement de l’eau. Fondamentalement, c’est comment nous pouvons créer des algorithmes d’apprentissage par renforcement qui sont capables de soutenir d’autres humains dans le processus de prise de décision, ou comment le faire de manière autonome pour le traitement de l’eau ? Nous avons les données, nous pouvons voir les données, et parfois la qualité de l’eau change en quelques heures, donc même si vous dites que “Chaque jour, je vais former mon modèle d’apprentissage automatique à partir des données de la veille, et je vais le déployer dans les heures qui suivent”, ce modèle n’est plus valide parce qu’il y a un décalage des données, il n’est pas stationnaire. Il est vraiment difficile pour vous de modéliser ces choses, parce que peut-être qu’il y a un incendie de forêt qui se déclare en amont, ou peut-être que la neige commence à fondre, donc vous devriez modéliser le monde entier pour être capable de le faire.
Bien sûr, personne ne le fait, nous ne le faisons pas en tant qu’êtres humains, donc ce que nous faisons, c’est que nous nous adaptons, nous continuons à apprendre, nous sommes comme, “Oh, cette chose que j’étais en train de faire, elle ne fonctionne plus, donc je vais apprendre à faire autre chose.” Je pense qu’il y a beaucoup de publications, principalement celles du monde réel, qui nécessitent que vous appreniez constamment et pour toujours, et ce n’est pas la façon standard dont nous parlons de l’apprentissage automatique. Souvent, nous parlons de “Je vais faire une grande batch de computation, et je vais déployer un modèle”, et peut-être que je déployerai un modèle pendant que je suis déjà en train de faire d’autres computations, parce que je vais déployer un modèle dans quelques jours ou semaines, mais parfois, l’échelle de temps de ces choses ne fonctionne pas.
La question est, “Comment pouvons-nous apprendre continuellement pour toujours, de telle sorte que nous nous améliorions et nous adaptions ?” et c’est vraiment difficile. Nous avons quelques papiers à ce sujet, comme notre machinerie actuelle n’est pas capable de le faire, comme beaucoup des solutions que nous avons qui sont les meilleures dans le domaine, si vous faites simplement que quelque chose continue d’apprendre au lieu de s’arrêter et de déployer, les choses deviennent mauvaises très rapidement. C’est l’une des choses qui m’intéressent vraiment, qui je pense est comme maintenant que nous avons fait tant de choses réussies, déployer des modèles fixes, et nous allons continuer à le faire, en pensant en tant que chercheur, “Qu’est-ce que la frontière de ce domaine ?” Je pense que l’une des frontières que nous avons est cet aspect de l’apprentissage continu.
Je pense que l’une des choses que l’apprentissage par renforcement est particulièrement adapté à faire, c’est que beaucoup de nos algorithmes, ils traitent les données au fur et à mesure qu’elles arrivent, et donc beaucoup d’algorithmes sont naturellement adaptés pour apprendre. Cela ne signifie pas qu’ils le font ou qu’ils sont bons à cela, mais nous n’avons pas à nous questionner, et je pense qu’il y a beaucoup de questions de recherche intéressantes sur ce que nous pouvons faire.
Quelles sont les applications futures utilisant cet apprentissage continu qui vous excitent le plus ?
C’est la question à un milliard de dollars, parce que dans un sens, j’ai été à la recherche de ces applications. Je pense que dans un sens, en tant que chercheur, j’ai été capable de poser les bonnes questions, c’est plus de la moitié du travail, donc je pense que dans notre apprentissage par renforcement, beaucoup de fois, j’aime être conduit par des problèmes. C’est comme, “Oh, regardez, nous avons ce défi, donc maintenant nous devons essayer de résoudre ce problème”, et puis au fur et à mesure, vous faites des progrès scientifiques. Actuellement, je travaille avec d’autres, comme Adam White, Martha White, sur ce projet, qui est mené par eux, sur cette usine de traitement de l’eau. C’est quelque chose qui m’intéresse vraiment, parce que c’est quelque chose qui est vraiment difficile à décrire avec des mots, dans un sens, c’est comme si c’était pas que tous les succès actuels qui nous excitent avec le langage, ils sont facilement applicables là.
Ils nécessitent cet aspect d’apprentissage continu, comme je le disais, vous avez l’eau qui change souvent, qu’il s’agisse de la turbidité, de la température, etc., et qui fonctionne à des échelles de temps différentes. Je pense que c’est inévitable que nous devions apprendre continuellement. Cela a un impact social énorme, il est difficile d’imaginer quelque chose de plus important que de fournir de l’eau potable à la population, et parfois, cela compte énormément. Parce que c’est facile de négliger le fait que parfois, au Canada, par exemple, lorsque nous allons dans ces régions plus reculées, comme dans le nord, etc., parfois, nous n’avons même pas d’opérateur pour exploiter une usine de traitement de l’eau. Ce n’est pas que cela est censé remplacer les opérateurs, mais c’est pour nous permettre de faire les choses que nous ne pouvons pas faire autrement, parce que nous n’avons simplement pas le personnel ou la force de le faire.
Je pense que cela a un énorme potentiel d’impact social, c’est un problème de recherche extrêmement difficile. Nous n’avons pas de simulateur, nous n’avons pas les moyens de le procurer, donc alors nous devons utiliser les meilleures données, nous devons apprendre en ligne, donc il y a beaucoup de défis là. C’est l’une des choses qui m’intéressent, une autre est la climatisation des bâtiments, et encore une fois, en pensant au temps, au changement climatique et aux choses que nous pouvons avoir un impact sur, souvent, c’est comme, “Comment décidons-nous de la façon dont nous allons climatiser un bâtiment ?” Comme ce bâtiment que nous avons avec des centaines de personnes aujourd’hui, c’est très différent de ce que c’était la semaine dernière, et allons-nous utiliser exactement la même politique ? Au maximum, nous avons un thermostat, donc nous sommes comme, “Oh, oui, il fait chaud, donc nous pouvons probablement être plus malins à ce sujet et nous adapter”, encore une fois, et parfois, il y a beaucoup de gens dans une pièce, pas dans l’autre.
Il y a beaucoup de ces opportunités sur les systèmes contrôlés qui sont à haute dimension, très difficiles à gérer dans nos esprits, que nous pouvons probablement faire beaucoup mieux que les approches standard que nous avons actuellement dans le domaine.
À certains endroits, jusqu’à 75 % de la consommation d’énergie est littéralement des unités de climatisation, donc cela a beaucoup de sens.
Exactement, et je pense que beaucoup de cela, dans votre maison, il y a déjà des produits qui font de l’apprentissage automatique et qui apprennent des clients. Dans ces bâtiments, vous pouvez avoir une approche beaucoup plus fine, comme en Floride, au Brésil, c’est beaucoup d’endroits qui ont ce besoin. La climatisation des centres de données, c’est une autre chose également, il y a des entreprises qui commencent à le faire, et cela ressemble presque à de la science-fiction, mais il y a la capacité d’apprendre constamment et de s’adapter à mesure que le besoin se présente. Cela peut avoir un impact énorme sur ces problèmes de contrôle qui sont à haute dimension, etc., comme lorsque nous faisions voler les ballons. Par exemple, l’une des choses que nous avons pu montrer, c’est exactement comment l’apprentissage par renforcement, et spécifiquement l’apprentissage par renforcement profond, peut apprendre des décisions basées sur les capteurs qui sont beaucoup plus complexes que ce que les humains peuvent concevoir.
Juste par définition, vous regardez comment un humain concevrait une courbe de réponse, juste dans un sens, c’est comme, “Eh bien, il sera probablement linéaire, quadratique”, mais lorsque vous avez un réseau de neurones, il peut apprendre toutes les non-linéarités qui le rendent une décision beaucoup plus fine, qui est parfois très efficace.
Je vous remercie pour cette interview incroyable, les lecteurs qui souhaitent en savoir plus devraient visiter les ressources suivantes :












