Entrevistas

Marlos C. Machado, Profesor Adjunto en la Universidad de Alberta, Becario de Amii, Presidente de CIFAR AI – Serie de Entrevistas

mm

Marlos C. Machado es un becario en residencia en el Instituto de Inteligencia Artificial de Alberta (Amii), un profesor adjunto en la Universidad de Alberta y un becario de Amii, donde también ocupa una cátedra de CIFAR AI en Canadá. La investigación de Marlos se centra principalmente en el problema del aprendizaje por refuerzo. Obtuvo su licenciatura y maestría en la UFMG, en Brasil, y su doctorado en la Universidad de Alberta, donde popularizó la idea de exploración temporalmente extendida a través de opciones.

Fue investigador en DeepMind desde 2021 hasta 2023 y en Google Brain desde 2019 hasta 2021, durante el cual hizo contribuciones importantes al aprendizaje por refuerzo, en particular la aplicación del aprendizaje por refuerzo profundo para controlar los globos estratosféricos de Loon. El trabajo de Marlos ha sido publicado en las principales conferencias y revistas de IA, incluyendo Nature, JMLR, JAIR, NeurIPS, ICML, ICLR y AAAI. Su investigación también ha sido destacada en medios de comunicación populares como BBC, Bloomberg TV, The Verge y Wired.

Nos sentamos para una entrevista en la conferencia anual Upper Bound 2023 sobre IA que se lleva a cabo en Edmonton, AB y organizada por Amii (Instituto de Inteligencia Artificial de Alberta).

**¿Cuál es su enfoque principal en el aprendizaje por refuerzo, qué lo atrae a este tipo de aprendizaje automático?**

Me gusta el concepto de aprendizaje por refuerzo, es una forma muy natural de aprender, en mi opinión, que es aprender por interacción. Me parece que es como aprendemos los humanos, en cierto sentido. No me gusta antropomorfizar la IA, pero es como si fuera una forma intuitiva de intentar cosas, algunas cosas te hacen sentir bien, otras te hacen sentir mal, y aprendes a hacer las cosas que te hacen sentir mejor. Una de las cosas que me fascina del aprendizaje por refuerzo es el hecho de que, porque interactúas con el mundo, eres este agente que hablamos, que intenta cosas en el mundo y el agente puede generar una hipótesis y probar esa hipótesis.

La razón por la que esto importa es porque permite el descubrimiento de nuevos comportamientos. Por ejemplo, uno de los ejemplos más famosos es AlphaGo, el movimiento 37 que se habla en el documental, que es este movimiento que la gente dice que fue creatividad. No estaba en ninguna parte, simplemente surgió al interactuar con el mundo, y se obtiene esta capacidad de descubrir, como uno de los proyectos en los que trabajé fue volar globos visibles en la estratosfera, y vimos cosas muy similares.

Vimos comportamientos emergentes que dejaron a todos impresionados y como nunca habíamos pensado, pero es brillante. Creo que el aprendizaje por refuerzo está únicamente situado para permitirnos descubrir este tipo de comportamiento porque estás interactuando, porque en cierto sentido, uno de los problemas realmente difíciles es el de los contrafácticos, como ¿qué habría pasado si hubiera hecho eso en lugar de lo que hice? Este es un problema super difícil en general, pero en muchos entornos de aprendizaje automático, no hay nada que puedas hacer al respecto. En el aprendizaje por refuerzo, puedes, “¿Qué habría pasado si hubiera hecho eso?” Puedo intentarlo la próxima vez que esté experimentando esto. Creo que este aspecto interactivo, me gusta mucho.

Por supuesto, no voy a ser hipócrita, creo que muchas de las aplicaciones interesantes que surgieron con él lo hicieron muy atractivo. Como remontarse décadas y décadas atrás, incluso cuando hablamos de los primeros ejemplos de grandes éxitos del aprendizaje por refuerzo, todo esto me lo hizo muy atractivo.

**¿Cuál fue su aplicación histórica favorita?**

Creo que hay dos muy famosas, una es el helicóptero volador que hicieron en Stanford con aprendizaje por refuerzo, y otra es TD-Gammon, que es este jugador de backgammon que se convirtió en campeón del mundo. Esto fue a principios de los 90, y así que durante mi doctorado, me aseguré de hacer una pasantía en IBM con Gerald Tesauro y Gerald Tesauro era el líder del proyecto TD-Gammon, así que fue como si esto fuera realmente genial. Es divertido porque cuando comencé a hacer aprendizaje por refuerzo, no era que estuviera completamente consciente de lo que era. Cuando me presenté a la escuela de posgrado, recuerdo que fui a muchos sitios web de profesores porque quería hacer aprendizaje automático, como muy en general, y estaba leyendo la descripción de la investigación de todos, y estaba como, “Oh, esto es interesante.” Cuando miro hacia atrás, sin saber del campo, elegí a todos los profesores famosos en nuestro aprendizaje por refuerzo, pero no porque fueran famosos, sino porque la descripción de su investigación era atractiva para mí. Estaba como, “Oh, este sitio web es realmente bueno, quiero trabajar con este tipo y este tipo y esta mujer,” así que en cierto sentido fue-

**Como si los hubiera encontrado de manera orgánica.**

Exactamente, así que cuando miro hacia atrás, estaba diciendo como, “Oh, estas son las personas con las que trabajé hace mucho tiempo,” o estos son los papeles que antes de que realmente supiera lo que estaba haciendo, estaba leyendo la descripción en el papel de alguien más, estaba como, “Oh, esto es algo que debo leer,” consistentemente se remontaba al aprendizaje por refuerzo.

**Mientras estuvo en Google Brain, trabajó en la navegación autónoma de globos estratosféricos. ¿Por qué fue este un buen caso de uso para proporcionar acceso a Internet a áreas de difícil acceso?**

Eso no soy un experto, esta es la presentación que Loon, que era la filial de Alphabet, estaba trabajando en. Cuando se pasa por la forma en que proporcionamos Internet a mucha gente en el mundo, es que construyes una antena, como digamos construyes una antena en Edmonton, y esta antena, te permite servir Internet a una región de unos cinco, seis kilómetros de radio. Si pones una antena en el centro de Nueva York, estás sirviendo Internet a millones de personas, pero ahora imagina que estás tratando de servir Internet a una tribu en la selva amazónica. Tal vez tienes 50 personas en la tribu, el costo económico de poner una antena allí, lo hace realmente difícil, sin mencionar incluso acceder a esa región.

Económicamente hablando, no tiene sentido hacer una gran inversión en infraestructura en una región de difícil acceso que está muy poco poblada. La idea de los globos fue como, “Pero ¿qué pasa si pudiéramos construir una antena que fuera realmente alta? ¿Qué pasa si pudiéramos construir una antena que sea 20 kilómetros alta?” Por supuesto que no sabemos cómo construir esa antena, pero podríamos poner un globo allí, y entonces el globo podría servir a una región que es un radio 10 veces más grande, o si hablamos de radio, entonces es un área 100 veces más grande de Internet. Si lo pones allí, digamos en el medio de la selva o en el medio de la jungla, entonces tal vez puedas servir a varias tribus que de otra manera requerirían una antena individual para cada una de ellas.

Servir acceso a Internet a estas áreas de difícil acceso fue una de las motivaciones. Recuerdo que el lema de Loon era no proporcionar Internet a la próxima mil millones de personas, era proporcionar Internet a las últimas mil millones de personas, lo que era extremadamente ambicioso en cierto sentido. No es la próxima mil millones, sino que es como las mil millones más difíciles de alcanzar.

**¿Cuáles fueron los problemas de navegación que estaban tratando de resolver?**

La forma en que funcionan estos globos es que no están propulsados, al igual que la forma en que la gente navega globos de aire caliente es que o subes o bajas y encuentras la corriente de viento que te lleva en una dirección específica, entonces te montas en esa corriente, y entonces es como, “Oh, no quiero ir allí más,” tal vez entonces subas o bajas y encuentras una diferente y así sucesivamente. Esto es lo que hace también con esos globos. No es un globo de aire caliente, es un globo de volumen fijo que vuela en la estratosfera.

Todo lo que puede hacer desde una perspectiva de navegación es subir, bajar o quedarse donde está, y entonces debe encontrar vientos que lo lleven a donde quiere estar. En este sentido, esta es la forma en que navegaríamos, y hay muchos desafíos, en realidad. El primero es que, hablando de formulación primero, quieres estar en una región, servir Internet, pero también quieres asegurarte de que estos globos sean alimentados por energía solar, que retengas energía. Hay este problema de optimización multiobjetivo, no solo para asegurarte de que estés en la región que quieres estar, sino que también seas eficiente en términos de energía, así que esta es la primera cosa.

Este era el problema en sí, pero cuando miras los detalles, no sabes cómo son los vientos, sabes cómo son los vientos donde estás, pero no sabes cómo son los vientos 500 metros por encima de ti. Tienes lo que llamamos en IA observabilidad parcial, así que no tienes esos datos. Puedes tener previsiones, y hay papeles escritos sobre esto, pero las previsiones a menudo pueden estar hasta 90 grados equivocadas. Es un problema realmente difícil en el sentido de cómo tratar con esta observabilidad parcial, es un problema extremadamente de alta dimensión porque estamos hablando de cientos de diferentes capas de viento, y entonces tienes que considerar la velocidad del viento, la dirección del viento, la forma en que lo modelamos, cuánta confianza tenemos en esa previsión de la incertidumbre.

Esto solo hace que el problema sea muy difícil de tratar. Una de las cosas que más luchamos en ese proyecto es que después de que todo estuvo hecho y así sucesivamente, fue como, “¿Cómo podemos transmitir cuán difícil es este problema?” Porque es difícil envolver nuestras mentes en él, porque no es algo que puedas ver en la pantalla, son cientos de dimensiones y vientos, y cuándo fue la última vez que tuve una medición de ese viento. En cierto sentido, tienes que digerir todo eso mientras estás pensando en la energía, el tiempo del día, dónde quieres estar, es mucho.

**¿Qué está estudiando el aprendizaje automático? ¿Es simplemente patrones de viento y temperatura?**

La forma en que funciona es que teníamos un modelo de los vientos que era un sistema de aprendizaje automático, pero no era aprendizaje por refuerzo. Tenías datos históricos sobre diferentes altitudes, así que entonces construimos un modelo de aprendizaje automático sobre eso. Cuando digo “nosotros”, no era parte de esto, esto fue algo que Loon hizo incluso antes de que Google Brain se involucrara. Tenían este modelo de viento que era más que solo las diferentes altitudes, así que ¿cómo interpolas entre las diferentes altitudes?

Puedes decir, “Digamos, hace dos años, esto es lo que se parecía el viento, pero ¿cómo se parecía tal vez 10 metros por encima de nosotros? No lo sabemos”. Entonces pones un proceso gaussiano sobre eso, así que tenían papeles escritos sobre cuán bueno era ese modelado. La forma en que lo hicimos fue que empezamos desde una perspectiva de aprendizaje por refuerzo, teníamos un simulador muy bueno de la dinámica del globo, y también teníamos este simulador de viento. Entonces lo que hicimos fue que volvimos en el tiempo y dijimos, “Vamos a pretender que estoy en 2010”. Teníamos datos de lo que se parecía el viento en 2010 en todo el mundo, pero muy grueso, pero entonces podríamos superponer este modelo de aprendizaje automático, este proceso gaussiano sobre eso para obtener realmente las mediciones de los vientos, y entonces podríamos introducir ruido, también podríamos hacer todo tipo de cosas.

Entonces eventualmente, porque teníamos la dinámica del modelo y teníamos los vientos y estábamos volviendo en el tiempo pretendiendo que esto es donde estábamos, entonces en realidad teníamos un simulador.

**Es como un gemelo digital en el tiempo.**

Exactamente, diseñamos una función de recompensa que era quedarse en el objetivo y un poco eficiente en términos de energía, pero diseñamos esta función de recompensa que teníamos el globo que aprendía al interactuar con este mundo, pero solo podía interactuar con el mundo porque no sabíamos cómo modelar el clima y los vientos, pero porque estábamos pretendiendo que estábamos en el pasado, y entonces logramos aprender a navegar. Básicamente era, ¿subo, bajo o me quedo? Dado todo lo que está sucediendo a mi alrededor, al final del día, lo que importa es que quiero servir Internet a esa región. Ese era el problema, en cierto sentido.

**¿Cuáles son algunos de los desafíos al implementar el aprendizaje por refuerzo en el mundo real en comparación con un entorno de juego?**

Creo que hay un par de desafíos. No creo que necesariamente sea sobre juegos y mundo real, es sobre investigación fundamental y investigación aplicada. Porque podrías hacer investigación aplicada en juegos, digamos que estás tratando de implementar el próximo modelo en un juego que se va a enviar a millones de personas, pero creo que uno de los principales desafíos es la ingeniería. Si estás trabajando, muchas veces usas juegos como un entorno de investigación porque capturan muchas de las propiedades que nos importan, pero las capturan en un conjunto más definido de restricciones. Debido a eso, podemos hacer la investigación, podemos validar el aprendizaje, pero es como un conjunto más seguro que mejor entendemos.

No es que la investigación necesariamente tenga que ser muy diferente, pero creo que el mundo real trae muchos desafíos extra. Es sobre implementar sistemas como restricciones de seguridad, como tuvimos que asegurarnos de que la solución fuera segura. Cuando solo estás haciendo juegos, no necesariamente piensas en eso. ¿Cómo te aseguras de que el globo no va a hacer algo estúpido, o que el agente de aprendizaje por refuerzo no aprendió algo que no habíamos previsto, y que va a tener malas consecuencias? Esto fue una de las principales preocupaciones que tuvimos, era la seguridad. Por supuesto, si solo estás jugando juegos, entonces no estamos realmente preocupados por eso, peor caso, pierdes el juego.

Este es el desafío, el otro es la pila de ingeniería. Es muy diferente a si eres un investigador por tu cuenta que interactúa con un juego de computadora porque quieres validarla, está bien, pero ahora tienes una pila de ingeniería de un producto completo que tienes que tratar. No es que te van a dejar ir loco y hacer lo que quieras, así que creo que tienes que familiarizarte mucho más con esa pieza adicional. Creo que el tamaño del equipo también puede ser muy diferente, como Loon en ese momento, tenían docenas si no cientos de personas. Estábamos interactuando con un número pequeño de ellos, pero entonces tenían una sala de control que hablaría con personal de aviación.

No teníamos idea de eso, pero entonces tienes muchos más partes interesadas en cierto sentido. Creo que mucha de la diferencia es que, uno, la ingeniería, la seguridad y así sucesivamente, y tal vez el otro es que tus suposiciones no se mantienen. Muchas de las suposiciones que haces que estos algoritmos se basan en, cuando van al mundo real, no se mantienen, y entonces tienes que figurar cómo tratar con eso. El mundo no es tan amigable como cualquier aplicación que estés haciendo en juegos, es principalmente si estás hablando de un juego muy restringido que estás haciendo por tu cuenta.

Un ejemplo que realmente me gusta es que nos dieron todo, estábamos como, “Okay, así que ahora podemos intentar algunas de estas cosas para resolver este problema,” y entonces fuimos a hacerlo, y entonces una semana después, dos semanas después, volvimos con los ingenieros de Loon como, “Resolvimos su problema.” Estábamos realmente inteligentes, nos miraron con una sonrisa en la cara como, “No, no resolvisteis el problema, sabemos que no podéis resolver este problema, es demasiado difícil,” como, “No, lo resolvimos, absolutamente resolvimos su problema, mirad, tenemos una precisión del 100%.” Como, “Esto es literalmente imposible, a veces no tienes los vientos que te permitan…” “No, miremos qué está sucediendo.”

Figuramos qué estaba sucediendo. El globo, el algoritmo de aprendizaje por refuerzo aprendió a ir al centro de la región, y entonces subiría, y subiría, y entonces el globo explotaría, y entonces el globo bajaría y estaría dentro de la región para siempre. Estaban como, “Esto claramente no es lo que queremos,” pero entonces por supuesto esto era simulación, pero entonces decimos, “Oh, sí, así que ¿cómo podemos arreglar eso?” Estaban como, “Oh, sí, por supuesto hay un par de cosas, pero una de las cosas, nos aseguramos de que el globo no pueda subir por encima del nivel en el que va a estallar.”

Estas restricciones en el mundo real, estos aspectos de cómo tu solución realmente interactúa con otras cosas, es fácil pasarlas por alto cuando eres solo un investigador de aprendizaje por refuerzo que trabaja en juegos, y entonces cuando realmente vas al mundo real, estás como, “Oh, espera, estas cosas tienen consecuencias, y tengo que ser consciente de eso.” Creo que esto es una de las principales dificultades.

Creo que el otro es solo como el ciclo de estos experimentos es realmente largo, como en un juego puedo simplemente presionar play. Peor caso, después de una semana tengo resultados, pero entonces si realmente tengo que volar globos en la estratosfera, tenemos esta expresión que me gusta usar en mi charla que es como estábamos haciendo pruebas A/B en la estratosfera, porque eventualmente después de que tenemos la solución y estamos seguros de ella, así que ahora queremos asegurarnos de que realmente es estadísticamente mejor. Teníamos 13 globos, creo, y los volamos en el Océano Pacífico durante más de un mes, porque eso es lo que tardó en que pudiéramos incluso validar que todo lo que habíamos hecho era realmente mejor. La escala de tiempo es mucho más diferente también, así que no tienes tantas oportunidades de intentar cosas.

**A diferencia de los juegos, no hay un millón de iteraciones del mismo juego que se ejecutan simultáneamente.**

Sí. Teníamos eso para el entrenamiento porque estábamos aprovechando la simulación, incluso aunque, de nuevo, el simulador es mucho más lento que cualquier juego que tengas, pero pudimos tratar con eso desde el punto de vista de la ingeniería. Cuando lo haces en el mundo real, entonces es diferente.

**¿Cuál es su investigación que está trabajando hoy en día?**

Ahora estoy en la Universidad de Alberta, y tengo un grupo de investigación aquí con muchos estudiantes. Mi investigación es mucho más diversa en cierto sentido, porque mis estudiantes me permiten hacer esto. Una cosa que estoy particularmente emocionado es esta noción de aprendizaje continuo. ¿Qué sucede es que casi cada vez que hablamos de aprendizaje automático en general, vamos a hacer algún cálculo sea usando un simulador, sea usando un conjunto de datos y procesando los datos, y vamos a aprender un modelo de aprendizaje automático, y lo desplegamos y esperamos que funcione bien, y eso está bien. Muchas veces eso es exactamente lo que necesitas, muchas veces eso es perfecto, pero sometimes no es porque sometimes los problemas del mundo real son demasiado complejos para que esperes que un modelo, no importa cuán grande sea, realmente incorporara todo lo que querías, todas las complejidades del mundo, así que tienes que adaptarte.

Uno de los proyectos en los que estoy involucrado, por ejemplo, aquí en la Universidad de Alberta es una planta de tratamiento de agua. Básicamente es cómo podemos desarrollar algoritmos de aprendizaje por refuerzo que sean capaces de apoyar a los humanos en el proceso de toma de decisiones, o cómo hacerlo de manera autónoma para el tratamiento de agua. Tenemos los datos, podemos ver los datos, y a veces la calidad del agua cambia dentro de horas, así que incluso si dices que, “Cada día voy a entrenar mi modelo de aprendizaje automático del día anterior, y voy a desplegarlo dentro de horas de su día,” ese modelo no es válido más porque hay un desplazamiento de datos, no es estacionario. Es realmente difícil para ti modelar esas cosas porque tal vez es un incendio forestal que está sucediendo aguas arriba, o tal vez la nieve está empezando a derretirse, así que tendrías que modelar todo el mundo para poder hacer esto.

Por supuesto que nadie hace eso, no hacemos eso como humanos, así que ¿qué hacemos? Nos adaptamos, seguimos aprendiendo, estamos como, “Oh, esto que estaba haciendo, no está funcionando más, así que puedo aprender a hacer algo más.” Creo que hay muchas publicaciones, principalmente las del mundo real que requieren que sigas aprendiendo constantemente y para siempre, y esto no es la forma estándar en que hablamos de aprendizaje automático. A menudo hablamos de, “Voy a hacer un gran lote de cálculo, y voy a desplegar un modelo,” y tal vez despliegue un modelo mientras estoy haciendo más cálculos porque voy a desplegar un modelo un par de días, semanas más tarde, pero a veces la escala de tiempo de esas cosas no funciona.

La pregunta es, “¿Cómo podemos aprender continuamente para siempre, de manera que estemos mejorando y adaptándonos?” y esto es realmente difícil. Tenemos un par de papeles sobre esto, como nuestra maquinaria actual no es capaz de hacer esto, como mucha de las soluciones que tenemos que son el estándar de oro en el campo, si simplemente sigues aprendiendo en lugar de detenerte y desplegar, las cosas se ponen mal realmente rápido. Esto es una de las cosas que estoy realmente emocionado, que creo que ahora que hemos hecho tantas cosas exitosas, desplegar modelos fijos, y seguiremos haciéndolo, pensando como investigador, “¿Cuál es la frontera del área?” Creo que una de las fronteras que tenemos es este aspecto de aprender continuamente.

Creo que una de las cosas que el aprendizaje por refuerzo está particularmente bien equipado para hacer es esto, porque muchos de nuestros algoritmos, están procesando datos a medida que los datos están llegando, y así que muchos de los algoritmos simplemente están en cierto sentido directamente capacitados para aprender. No significa que lo hagan o que sean buenos en eso, pero no tenemos que cuestionarnos, y creo que hay muchas preguntas de investigación interesantes sobre qué podemos hacer.

**¿Qué aplicaciones futuras que usan este aprendizaje continuo está más emocionado?**

Esta es la pregunta de mil millones de dólares, porque en cierto sentido he estado buscando esas aplicaciones. Creo que como investigador, he podido hacer las preguntas correctas, es más de la mitad del trabajo, así que creo que en nuestro aprendizaje por refuerzo muchas veces, me gusta ser impulsado por problemas. Es como, “Oh, tenemos este desafío, así que ahora tenemos que figurar cómo resolver este problema,” y entonces a lo largo del camino estás haciendo avances científicos. Ahora estoy trabajando con otros como Adam White, Martha White en esto, que es el proyecto que realmente lideran sobre esta planta de tratamiento de agua. Es algo que estoy realmente emocionado porque es algo que es realmente difícil de describir incluso con lenguaje en cierto sentido, así que es como no es que todos los éxitos actuales de lenguaje sean fáciles de aplicar.

Requieren este aspecto de aprendizaje continuo, como estaba diciendo, tienes el agua que cambia bastante a menudo, sea la turbidez, sea su temperatura y así sucesivamente, y opera a diferentes escalas de tiempo. Creo que es inevitable que necesitamos aprender continuamente. Tiene un gran impacto social, es difícil imaginar algo más importante que realmente proporcionar agua potable a la población, y a veces esto importa mucho. Porque es fácil pasar por alto el hecho de que a veces en Canadá, por ejemplo, cuando vamos a estas regiones más escasamente pobladas como en el norte y así sucesivamente, a veces no tenemos ni siquiera un operador para operar una planta de tratamiento de agua. No es que esto esté destinado a reemplazar a los operadores, sino que es para poder hacer las cosas que de otra manera no podríamos, porque simplemente no tenemos el personal o la fuerza para hacerlo.

Creo que tiene un gran potencial de impacto social, es un problema de investigación extremadamente desafiante. No tenemos un simulador, no tenemos los medios para procurarlo, así que entonces tenemos que usar los mejores datos, tenemos que estar aprendiendo en línea, así que hay muchos desafíos allí, y esto es una de las cosas que estoy emocionado. Otra es la refrigeración de edificios, y de nuevo, pensando en el clima, el cambio climático y las cosas que podemos tener un impacto en, a menudo es como, ¿cómo decidimos cómo vamos a enfriar un edificio? Como este edificio que tenemos cientos de personas hoy aquí, esto es muy diferente a lo que fue la semana pasada, y ¿vamos a usar exactamente la misma política? En el peor de los casos, tenemos un termostato, así que estamos como, “Oh, sí, hace calor, así que probablemente podemos ser más inteligentes al respecto y adaptarnos,” de nuevo, y a veces hay mucha gente en una habitación, no en la otra.

Hay muchas de estas oportunidades sobre sistemas controlados que son de alta dimensión, muy difíciles de tratar en nuestras mentes que probablemente podamos hacer mucho mejor que los enfoques estándar que tenemos en el campo.

**En algunos lugares, hasta el 75% del consumo de energía es literalmente unidades de aire acondicionado, así que esto tiene mucho sentido.**

Exactamente, y creo que mucha de esta en tu casa, ya hay algunos productos que hacen aprendizaje automático y que entonces aprenden de los clientes. En estos edificios, puedes tener un enfoque mucho más fino, como Florida, Brasil, es muchos lugares que tienen esta necesidad. La refrigeración de centros de datos, esta es otra también, hay algunas empresas que están empezando a hacer esto, y esto suena como casi ciencia ficción, pero hay una capacidad de estar aprendiendo y adaptándose constantemente a medida que surge la necesidad. Esto puede tener un gran impacto en estos problemas de control que son de alta dimensión y así sucesivamente, como cuando estábamos volando los globos. Por ejemplo, una de las cosas que pudimos demostrar fue exactamente cómo el aprendizaje por refuerzo, y específicamente el aprendizaje por refuerzo profundo, pueden aprender decisiones basadas en sensores que son mucho más complejos que lo que los humanos pueden diseñar.

Simplemente por definición, miras cómo un humano diseñaría una curva de respuesta, como, “Bueno, probablemente va a ser lineal, cuadrático,” pero cuando tienes una red neuronal, puede aprender todas las no linealidades que lo hacen una decisión mucho más fina, que a veces es bastante efectiva.

**Gracias por la increíble entrevista, los lectores que deseen aprender más deben visitar los siguientes recursos:**

Antoine es un líder visionario y socio fundador de Unite.AI, impulsado por una pasión inquebrantable por dar forma y promover el futuro de la IA y la robótica. Un empresario serial, cree que la IA será tan disruptiva para la sociedad como la electricidad, y a menudo se le escucha hablando con entusiasmo sobre el potencial de las tecnologías disruptivas y la AGI. Como un futurista, está dedicado a explorar cómo estas innovaciones darán forma a nuestro mundo. Además, es el fundador de Securities.io, una plataforma enfocada en invertir en tecnologías de vanguardia que están redefiniendo el futuro y remodelando sectores enteros.