Wawancara
Marlos C. Machado, Profesor Adjunct di Universitas Alberta, Amii Fellow, CIFAR AI Chair – Seri Wawancara

Marlos C. Machado adalah Fellow di Alberta Machine Intelligence Institute (Amii), seorang profesor adjunct di Universitas Alberta, dan seorang Amii fellow, di mana ia juga memegang Canada CIFAR AI Chair. Penelitian Marlos sebagian besar berfokus pada masalah reinforcement learning. Ia menerima gelar B.Sc. dan M.Sc. dari UFMG, di Brasil, dan Ph.D. dari Universitas Alberta, di mana ia mempopulerkan gagasan tentang eksplorasi yang diperpanjang secara waktu melalui pilihan.
Ia pernah menjadi peneliti di DeepMind dari 2021 hingga 2023 dan di Google Brain dari 2019 hingga 2021, selama waktu itu ia membuat kontribusi besar pada reinforcement learning, khususnya penerapan deep reinforcement learning untuk mengontrol balon stratosfer Loon. Karya Marlos telah dipublikasikan di konferensi dan jurnal AI terkemuka, termasuk Nature, JMLR, JAIR, NeurIPS, ICML, ICLR, dan AAAI. Penelitiannya juga telah ditampilkan di media populer seperti BBC, Bloomberg TV, The Verge, dan Wired.
Kami duduk untuk wawancara di konferensi tahunan 2023 Upper Bound tentang AI yang diselenggarakan di Edmonton, AB dan diselenggarakan oleh Amii (Alberta Machine Intelligence Institute).
Fokus utama Anda telah menjadi reinforcement learning, apa yang menarik Anda pada jenis machine learning ini?
Apa yang saya sukai tentang reinforcement learning adalah konsep ini, itu adalah cara yang sangat alami, menurut saya, untuk belajar, yaitu Anda belajar dengan interaksi. Ini terasa seperti itu adalah cara kita belajar sebagai manusia, dalam beberapa hal. Saya tidak suka mengantropomorfisasi AI, tetapi itu hanya seperti itu adalah cara yang intuitif untuk Anda mencoba hal-hal, beberapa hal terasa baik, beberapa hal terasa buruk, dan Anda belajar untuk melakukan hal-hal yang membuat Anda merasa lebih baik. Salah satu hal yang saya tertarik tentang reinforcement learning adalah fakta bahwa karena Anda benar-benar berinteraksi dengan dunia, Anda adalah agen yang kita bicarakan, itu mencoba hal-hal di dunia dan agen dapat menghasilkan hipotesis, dan menguji hipotesis tersebut.
Alasan ini penting adalah karena memungkinkan penemuan perilaku baru. Misalnya, salah satu contoh paling terkenal adalah AlphaGo, langkah 37 yang mereka bicarakan dalam dokumenter, yang merupakan langkah yang orang katakan adalah kreativitas. Itu adalah sesuatu yang tidak pernah terlihat sebelumnya, itu meninggalkan kita semua terkejut. Ini bukan di mana-mana, itu hanya dengan berinteraksi dengan dunia, Anda dapat menemukan hal-hal tersebut. Anda mendapatkan kemampuan untuk menemukan, seperti salah satu proyek yang saya kerjakan adalah mengarahkan balon yang terlihat di stratosfer, dan kita melihat hal-hal yang sangat mirip juga.
Kita melihat perilaku yang muncul yang meninggalkan semua orang terkesan dan seperti kita tidak pernah memikirkan itu, tetapi itu brilian. Saya pikir bahwa reinforcement learning secara unik ditempatkan untuk memungkinkan kita menemukan jenis perilaku ini karena Anda berinteraksi, karena dalam beberapa hal, salah satu hal yang sangat sulit adalah kontrafaktual, seperti apa yang terjadi jika saya melakukan itu bukan apa yang saya lakukan? Ini adalah masalah yang sangat sulit secara umum, tetapi dalam banyak pengaturan studi machine learning, tidak ada yang bisa Anda lakukan tentang itu. Dalam reinforcement learning Anda bisa, “Apa yang terjadi jika saya melakukan itu?” Saya mungkin mencobanya lagi kali saya mengalami ini. Saya pikir bahwa aspek interaktif ini, saya sangat menyukainya.
Tentu saja saya tidak akan menjadi hipokrit, saya pikir bahwa banyak aplikasi yang sangat keren yang datang dengan itu membuatnya sangat menarik. Seperti kembali beberapa dekade yang lalu, bahkan ketika kita berbicara tentang contoh awal keberhasilan besar reinforcement learning, ini semua membuatnya sangat menarik bagi saya.
Aplikasi historis favorit Anda?
Saya pikir bahwa ada dua yang sangat terkenal, satu adalah helikopter terbang yang mereka lakukan di Stanford dengan reinforcement learning, dan yang lain adalah TD-Gammon, yang merupakan pemain backgammon yang menjadi juara dunia. Ini kembali ke tahun 90-an, dan jadi ini adalah selama saya melakukan PhD, saya memastikan bahwa saya melakukan magang di IBM dengan Gerald Tesauro dan Gerald Tesauro adalah orang yang memimpin proyek TD-Gammon, jadi itu seperti ini sangat keren. Ini lucu karena ketika saya memulai reinforcement learning, itu tidak seperti saya sepenuhnya menyadari apa itu. Ketika saya mendaftar ke sekolah pascasarjana, saya ingat saya mengunjungi banyak situs web profesor karena saya ingin melakukan machine learning, seperti sangat umum, dan saya membaca deskripsi penelitian mereka, dan saya seperti, “Oh, ini menarik.” Ketika saya melihat kembali, tanpa menyadari bidangnya, saya memilih semua profesor terkenal di reinforcement learning tetapi tidak karena mereka terkenal, tetapi karena deskripsi penelitian mereka menarik bagi saya. Saya seperti, “Oh, situs web ini sangat bagus, saya ingin bekerja dengan orang ini dan orang itu,” jadi dalam beberapa hal itu adalah-
Seperti Anda menemukannya secara organik.
Tepat, jadi ketika saya melihat kembali saya seperti, “Oh, ini adalah orang-orang yang saya ajukan untuk bekerja dengannya sejak lama,” atau ini adalah kertas yang sebelum saya benar-benar tahu apa yang saya lakukan, saya membaca deskripsi di kertas orang lain, saya seperti, “Oh, ini adalah sesuatu yang harus saya baca,” itu konsisten kembali ke reinforcement learning.
Ketika di Google Brain, Anda bekerja pada navigasi otonom balon stratosfer. Mengapa ini adalah kasus penggunaan yang baik untuk memberikan akses internet ke daerah yang sulit dijangkau?
Itu saya tidak ahli, ini adalah pitch yang Loon, yang merupakan anak perusahaan dari Alphabet, sedang mengerjakan. Ketika melewati cara kita memberikan internet kepada banyak orang di dunia, itu adalah Anda membangun antena, seperti katakanlah membangun antena di Edmonton, dan antena ini, itu memungkinkan Anda untuk melayani internet ke wilayah dengan radius lima, enam kilometer. Jika Anda meletakkan antena di pusat kota New York, Anda melayani jutaan orang, tetapi sekarang bayangkan bahwa Anda mencoba memberikan internet kepada suku di hutan hujan Amazon. Mungkin Anda memiliki 50 orang di suku, biaya ekonomi untuk meletakkan antena di sana, itu membuatnya sangat sulit, tidak hanya mengakses wilayah tersebut.
Secara ekonomi, tidak masuk akal untuk membuat investasi infrastruktur besar di daerah yang sulit dijangkau yang sangat jarang penduduknya. Ide balon adalah seperti, “Tapi apa jika kita bisa membangun antena yang sangat tinggi? Apa jika kita bisa membangun antena yang 20 kilometer tinggi?” Tentu saja kita tidak tahu bagaimana membangun antena itu, tetapi kita bisa meletakkan balon di sana, dan kemudian balon itu bisa melayani wilayah yang radiusnya 10 kali lebih besar, atau jika Anda berbicara tentang radius, maka itu adalah area internet yang 100 kali lebih besar. Jika Anda meletakkan di sana, katakanlah di tengah hutan atau di tengah hutan, maka mungkin Anda bisa melayani beberapa suku yang lainnya tidak memerlukan antena tunggal untuk masing-masing dari mereka.
Melayani akses internet ke daerah-daerah yang sulit dijangkau adalah salah satu motivasi. Saya ingat bahwa motto Loon adalah tidak untuk memberikan internet kepada miliaran orang berikutnya, tetapi untuk memberikan internet kepada miliaran orang terakhir, yang sangat ambisius dalam beberapa hal. Ini bukanlah miliaran orang berikutnya, tetapi itu seperti miliaran orang terakhir yang paling sulit dijangkau.
Apa masalah navigasi yang Anda coba selesaikan?
Cara balon ini bekerja adalah bahwa mereka tidak didorong, seperti cara orang navigasi balon udara panas adalah bahwa Anda bisa naik atau turun dan Anda menemukan aliran angin yang membawa Anda ke arah tertentu, kemudian Anda menunggangi angin itu, dan kemudian itu seperti, “Oh, saya tidak ingin pergi ke sana lagi,” mungkin kemudian Anda naik atau turun dan menemukan angin yang berbeda dan seterusnya. Ini adalah apa yang dilakukan balon juga. Ini bukan balon udara panas, itu adalah balon volume tetap yang terbang di stratosfer.
Semua yang bisa dilakukan dari perspektif navigasi adalah naik, turun, atau tinggal di sana, dan kemudian harus menemukan angin yang akan membiarkan Anda pergi ke mana Anda ingin pergi. Dalam beberapa hal, ini adalah bagaimana kita akan menavigasi, dan ada banyak tantangan, sebenarnya. Yang pertama adalah bahwa, berbicara tentang formulasi pertama, Anda ingin berada di wilayah, melayani internet, tetapi Anda juga ingin memastikan bahwa balon-balon ini adalah solar powered, bahwa Anda mempertahankan daya. Ada masalah optimasi multi-objek, untuk tidak hanya memastikan bahwa saya berada di wilayah yang saya inginkan, tetapi bahwa saya juga efisien dalam hal daya, jadi ini adalah hal pertama.
Ini adalah masalah itu sendiri, tetapi kemudian ketika Anda melihat detailnya, Anda tidak tahu bagaimana angin terlihat, Anda tahu bagaimana angin terlihat di mana Anda berada, tetapi Anda tidak tahu bagaimana angin terlihat 500 meter di atas Anda. Anda memiliki apa yang kita sebut dalam AI sebagai observabilitas parsial, jadi Anda tidak memiliki data tersebut. Anda bisa memiliki prakiraan, dan ada kertas yang ditulis tentang hal ini, tetapi prakiraan seringkali bisa salah hingga 90 derajat. Ini adalah masalah yang sangat sulit dalam beberapa hal, karena kita berbicara tentang ratusan lapisan angin yang berbeda, dan kemudian Anda harus mempertimbangkan kecepatan angin, arah angin, cara kita memodelkannya, seberapa yakin kita tentang prakiraan ketidakpastian.
Ini hanya membuat masalah sangat sulit untuk diatasi. Salah satu hal yang kita paling sulit dalam proyek ini adalah bahwa setelah semua selesai dan seterusnya, itu seperti bagaimana kita bisa menyampaikan betapa sulitnya masalah ini? Karena itu sulit untuk membungkus pikiran kita tentang itu, karena itu bukan sesuatu yang bisa Anda lihat di layar, itu adalah ratusan dimensi dan angin, dan kapan terakhir kali saya memiliki pengukuran angin itu? Dalam beberapa hal, Anda harus menelan semua itu sambil Anda berpikir tentang daya, waktu hari, di mana Anda ingin berada, itu banyak.
Apa yang dipelajari oleh mesin pembelajaran? Apakah itu hanya pola angin dan suhu?
Cara kerjanya adalah bahwa kita memiliki model angin yang merupakan sistem pembelajaran mesin, tetapi itu bukan reinforcement learning. Anda memiliki data historis tentang berbagai ketinggian, jadi kemudian kita membangun model pembelajaran mesin di atas itu. Ketika saya mengatakan “kita”, saya tidak termasuk dalam hal ini, ini adalah hal yang Loon lakukan bahkan sebelum Google Brain terlibat. Mereka memiliki model angin yang tidak hanya tentang ketinggian yang berbeda, jadi bagaimana Anda melakukan interpolasi antara ketinggian yang berbeda?
Anda bisa mengatakan, “Mari kita katakan, dua tahun yang lalu, ini adalah bagaimana angin terlihat, tetapi apa yang terlihat mungkin 10 meter di atas, kita tidak tahu”. Kemudian Anda meletakkan proses Gaussian di atas itu, jadi mereka memiliki kertas yang ditulis tentang seberapa baik model itu. Cara kita melakukannya adalah bahwa kita mulai dari perspektif reinforcement learning, kita memiliki simulator dinamika balon yang sangat baik, dan kemudian kita juga memiliki simulator angin. Kemudian apa yang kita lakukan adalah bahwa kita kembali ke waktu dan mengatakan, “Mari kita pura-pura bahwa saya berada di tahun 2010.” Kita memiliki data untuk apa yang angin seperti di tahun 2010 di seluruh dunia, tetapi sangat kasar, tetapi kemudian kita bisa menumpangkan model pembelajaran mesin ini, proses Gaussian di atas sehingga kita mendapatkan pengukuran angin yang sebenarnya, dan kemudian kita bisa memperkenalkan noise, kita bisa melakukan semua jenis hal.
Kemudian akhirnya, karena kita memiliki dinamika model dan kita memiliki angin dan kita kembali ke waktu dan berpura-pura bahwa ini adalah di mana kita berada, kemudian kita sebenarnya memiliki simulator.
Itu seperti kembaran digital ke masa lalu.
Tepat, kita merancang fungsi reward yang itu adalah tetap pada target dan sedikit efisien dalam hal daya, tetapi kita merancang fungsi reward ini yang kita miliki balon belajar dengan berinteraksi dengan dunia ini, tetapi itu bisa hanya berinteraksi dengan dunia karena kita tidak tahu bagaimana memodelkan cuaca dan angin, tetapi karena kita berpura-pura bahwa kita berada di masa lalu, dan kemudian kita berhasil belajar bagaimana mengarahi. Secara fundamental, itu adalah apakah saya pergi ke atas, ke bawah, atau tinggal? Diberikan semua yang terjadi di sekitar saya, pada akhir hari, garis bawah adalah bahwa saya ingin melayani internet ke wilayah itu. Itu adalah masalahnya, dalam beberapa hal.
Apa beberapa tantangan dalam menerapkan reinforcement learning di dunia nyata versus pengaturan permainan?
Saya pikir bahwa ada beberapa tantangan. Saya tidak pikir itu secara khusus tentang permainan dan dunia nyata, itu tentang penelitian dasar dan penelitian terapan. Karena Anda bisa melakukan penelitian terapan dalam permainan, katakanlah bahwa Anda mencoba menerapkan model berikutnya dalam permainan yang akan dikirim ke jutaan orang, tetapi saya pikir bahwa salah satu tantangan utama adalah teknik. Jika Anda bekerja, banyak kali Anda menggunakan permainan sebagai lingkungan penelitian karena mereka menangkap banyak sifat yang kita pedulikan, tetapi mereka menangkapnya dalam set konstrain yang lebih terdefinisi dengan baik. Karena itu, kita bisa melakukan penelitian, kita bisa memvalidasi pembelajaran, tetapi itu adalah lingkungan yang lebih aman, mungkin “aman” bukan kata yang tepat, tetapi itu adalah lingkungan yang lebih terkonstrain yang kita pahami lebih baik.
Ini bukanlah bahwa penelitian secara keseluruhan perlu sangat berbeda, tetapi saya pikir bahwa dunia nyata membawa banyak tantangan ekstra. Ini adalah tentang menerapkan sistem seperti konstrain keamanan, seperti kita harus memastikan bahwa solusi itu aman. Ketika Anda hanya melakukan permainan, Anda tidak perlu memikirkan tentang itu. Bagaimana Anda memastikan bahwa balon tidak melakukan sesuatu yang bodoh, atau bahwa agen pembelajaran reinforcement tidak belajar sesuatu yang kita tidak telah bayangkan, dan itu akan memiliki konsekuensi buruk? Ini adalah salah satu kekhawatiran utama yang kita miliki, adalah keamanan. Tentu saja, jika Anda hanya bermain permainan, maka kita tidak benar-benar khawatir tentang itu, yang terburuk, Anda kalah dalam permainan.
Ini adalah tantangan, yang lain adalah tumpukan teknik. Ini sangat berbeda dari jika Anda adalah peneliti di komputer Anda sendiri untuk berinteraksi dengan permainan komputer karena Anda ingin memvalidasi itu, itu tidak apa-apa, tetapi sekarang Anda memiliki tumpukan teknik dari produk keseluruhan yang Anda harus berurusan dengan. Ini bukanlah bahwa mereka hanya akan membiarkan Anda pergi gila dan melakukan apa yang Anda inginkan, jadi saya pikir bahwa Anda harus menjadi lebih akrab dengan bagian tambahan itu juga. Saya pikir bahwa ukuran tim juga bisa sangat berbeda, seperti Loon pada saat itu, mereka memiliki puluhan jika tidak ratusan orang. Kita masih berinteraksi dengan sejumlah kecil dari mereka, tetapi kemudian mereka memiliki ruang kontrol yang sebenarnya berbicara dengan staf aviasi.
Kita tidak tahu tentang itu, tetapi kemudian Anda memiliki banyak lebih banyak pemangku kepentingan dalam beberapa hal. Saya pikir bahwa banyak perbedaan adalah bahwa, satu, teknik, keamanan dan seterusnya, dan mungkin yang lain adalah bahwa asumsi Anda tidak berlaku. Banyak asumsi yang Anda buat yang algoritma ini berdasarkan, ketika mereka pergi ke dunia nyata, mereka tidak berlaku, dan kemudian Anda harus mencari tahu bagaimana mengatasi itu. Dunia tidak sebaik aplikasi yang Anda lakukan dalam permainan, itu sebagian besar jika Anda berbicara tentang permainan yang sangat terkonstrain yang Anda lakukan sendiri.
Salah satu contoh yang saya sangat suka adalah bahwa mereka memberi kita semua, kita seperti, “Baik, sekarang kita bisa mencoba beberapa hal ini untuk menyelesaikan masalah ini,” dan kemudian kita pergi melakukannya, dan kemudian seminggu kemudian, dua minggu kemudian, kita kembali ke insinyur Loon seperti, “Kita telah menyelesaikan masalah Anda.” Kita sangat pintar, mereka melihat kita dengan senyum di wajah mereka seperti, “Anda tidak, kita tahu Anda tidak bisa menyelesaikan masalah ini, itu terlalu sulit,” seperti, “Tidak, kita telah menyelesaikan masalah Anda, lihat, kita memiliki akurasi 100%.” Seperti, “Ini secara harfiah tidak mungkin, kadang-kadang Anda tidak memiliki angin yang memungkinkan Anda …” “Tidak, mari kita lihat apa yang terjadi.”
Kita mencari tahu apa yang terjadi. Balon, algoritma pembelajaran reinforcement belajar untuk pergi ke pusat wilayah, dan kemudian itu akan naik, dan naik, dan kemudian balon akan meledak, dan kemudian balon akan turun dan itu berada di dalam wilayah selamanya. Mereka seperti, “Ini jelas tidak apa yang kita inginkan,” tetapi kemudian tentu saja ini adalah simulasi, tetapi kemudian kita katakan, “Oh ya, jadi bagaimana kita bisa memperbaikinya?” Mereka seperti, “Oh ya, tentu saja ada beberapa hal, tetapi salah satu hal, kita membuat pasti balon tidak bisa naik di atas tingkat yang akan meledak.”
Konstrain ini di dunia nyata, aspek-aspek ini tentang bagaimana solusi Anda benar-benar berinteraksi dengan hal-hal lain, itu mudah untuk mengabaikannya ketika Anda hanya seorang peneliti reinforcement learning yang bekerja pada permainan, dan kemudian ketika Anda benar-benar pergi ke dunia nyata, Anda seperti, “Oh tunggu, hal-hal ini memiliki konsekuensi, dan saya harus menyadari itu.” Saya pikir bahwa ini adalah salah satu kesulitan utama.
Saya pikir bahwa yang lain adalah bahwa siklus eksperimen ini sangat lama, seperti dalam permainan saya bisa hanya mengklik main. Yang terburuk, setelah seminggu saya memiliki hasil, tetapi kemudian jika saya benar-benar harus terbang balon di stratosfer, kita memiliki ungkapan yang saya suka gunakan dalam ceramah saya yang seperti kita sedang melakukan pengujian A/B stratosfer, karena akhirnya setelah kita memiliki solusi dan kita yakin dengan itu, sekarang kita ingin memastikan bahwa itu benar-benar lebih baik secara statistik. Kita mendapatkan 13 balon, saya pikir, dan kita terbang di Samudra Pasifik selama lebih dari sebulan, karena itu adalah berapa lama waktu yang dibutuhkan untuk kita bahkan memvalidasi bahwa apa yang kita miliki sebenarnya lebih baik. Waktu skala dari hal-hal ini tidak sama.
Tidak seperti permainan, tidak ada jutaan iterasi dari permainan yang sama yang berjalan secara bersamaan.
Ya. Kita memiliki itu untuk pelatihan karena kita menggunakan simulasi, meskipun, lagi, simulator itu jauh lebih lambat dari permainan apa pun yang Anda miliki, tetapi kita bisa berurusan dengan itu dari sudut pandang teknik. Ketika Anda melakukannya di dunia nyata, maka itu berbeda.
Apa penelitian yang Anda kerjakan saat ini?
Sekarang saya berada di Universitas Alberta, dan saya memiliki kelompok penelitian di sini dengan banyak mahasiswa. Penelitian saya jauh lebih beragam dalam beberapa hal, karena mahasiswa saya memungkinkan saya untuk melakukan itu. Salah satu hal yang saya sangat tertarik adalah konsep pembelajaran berkelanjutan. Apa yang terjadi adalah bahwa hampir setiap kali kita berbicara tentang machine learning secara umum, kita akan melakukan beberapa komputasi baik menggunakan simulator, baik menggunakan dataset dan memproses data, dan kita akan belajar model machine learning, dan kita menerapkan model itu dan kita berharap itu berjalan dengan baik, dan itu tidak apa-apa, banyak kali itu adalah apa yang Anda butuhkan, banyak kali itu sempurna, tetapi terkadang itu tidak karena terkadang masalah di dunia nyata terlalu kompleks untuk Anda harapkan bahwa model, tidak peduli seberapa besar itu, sebenarnya bisa menggabungkan semua kompleksitas di dunia, jadi Anda harus beradaptasi.
Salah satu proyek yang saya kerjakan adalah pabrik pengolahan air. Secara fundamental, itu adalah bagaimana kita bisa mengembangkan algoritma pembelajaran reinforcement yang dapat mendukung manusia lain dalam proses pengambilan keputusan, atau bagaimana melakukannya secara otonom untuk pengolahan air? Kita memiliki data, kita bisa melihat data, dan terkadang kualitas air berubah dalam beberapa jam, jadi bahkan jika Anda mengatakan, “Setiap hari saya akan melatih model machine learning saya dari hari sebelumnya, dan saya akan menerapkan itu dalam beberapa jam hari ini,” model itu tidak valid lagi karena ada pergeseran data, itu tidak stasioner. Ini sangat sulit untuk Anda modelkan karena mungkin itu adalah kebakaran hutan yang terjadi di hulu, atau mungkin salju mulai mencair, jadi Anda harus memodelkan seluruh dunia untuk bisa melakukan itu.
Tentu saja tidak ada yang melakukannya, kita tidak melakukannya sebagai manusia, jadi apa yang kita lakukan? Kita beradaptasi, kita terus belajar, kita seperti, “Oh, hal ini yang saya lakukan, itu tidak berfungsi lagi, jadi saya mungkin belajar melakukan sesuatu yang lain.” Saya pikir bahwa ada banyak publikasi, terutama yang nyata, yang memerlukan Anda untuk terus belajar dan selamanya, dan ini bukan cara standar yang kita bicarakan tentang machine learning. Banyak kali kita berbicara tentang, “Saya akan melakukan komputasi besar, dan saya akan menerapkan model,” dan mungkin saya menerapkan model sementara saya sudah melakukan komputasi lagi karena saya akan menerapkan model beberapa hari, minggu kemudian, tetapi terkadang skala waktu dari hal-hal itu tidak berfungsi.
Pertanyaannya adalah, “Bagaimana kita bisa belajar terus menerus dan selamanya, sehingga kita hanya menjadi lebih baik dan beradaptasi?” dan ini sangat sulit. Kita memiliki beberapa kertas tentang hal ini, seperti mesin kita saat ini tidak bisa melakukan itu, seperti banyak solusi yang kita miliki yang merupakan standar emas di bidang, jika Anda hanya memiliki sesuatu yang terus belajar bukan berhenti dan menerapkan, hal-hal menjadi buruk sangat cepat. Ini adalah salah satu hal yang saya sangat tertarik, yang saya pikir seperti sekarang bahwa kita telah melakukan banyak hal yang sukses, menerapkan model tetap, dan kita akan terus melakukannya, berpikir sebagai peneliti, “Apa yang merupakan batas dari bidang ini?” Saya pikir bahwa salah satu batas yang kita miliki adalah aspek pembelajaran berkelanjutan ini.
Saya pikir bahwa salah satu hal yang reinforcement learning sangat cocok untuk melakukan itu, karena banyak algoritma kita, mereka memproses data saat data itu datang, dan banyak algoritma hanya secara langsung mereka akan belajar. Ini tidak berarti bahwa mereka melakukan itu atau bahwa mereka baik dalam melakukan itu, tetapi kita tidak perlu mempertanyakan diri kita sendiri, dan saya pikir kita memiliki banyak pertanyaan penelitian yang menarik tentang apa yang bisa kita lakukan.
Apa aplikasi masa depan menggunakan pembelajaran berkelanjutan yang paling Anda antisipasi?
Ini adalah pertanyaan senilai miliaran dolar, karena dalam beberapa hal saya telah mencari aplikasi-aplikasi ini. Saya pikir bahwa sebagai peneliti, saya telah dapat bertanya pertanyaan yang tepat, itu adalah setengah dari pekerjaan, jadi saya pikir bahwa dalam reinforcement learning kita banyak kali didorong oleh masalah. Ini seperti, “Oh, lihat, kita memiliki tantangan ini, sekarang kita harus mencari tahu bagaimana menyelesaikannya,” dan kemudian sepanjang jalan Anda membuat kemajuan ilmiah. Sekarang saya bekerja dengan API lain seperti Adam White, Martha White pada ini, yang merupakan proyek yang dipimpin oleh mereka pada pabrik pengolahan air. Ini adalah sesuatu yang saya sangat tertarik karena itu adalah sesuatu yang sangat sulit untuk dijelaskan dengan bahasa dalam beberapa hal, jadi itu seperti itu bukanlah semua keberhasilan yang kita miliki dengan bahasa, mereka mudah diterapkan di sini.
Mereka memerlukan aspek pembelajaran berkelanjutan ini, seperti saya katakan, Anda memiliki perubahan kualitas air yang sangat sering, baik itu kekeruhan, suhu dan seterusnya, dan beroperasi pada skala waktu yang berbeda. Saya pikir bahwa itu tidak dapat dihindari bahwa kita perlu belajar terus menerus. Ini memiliki dampak sosial yang sangat besar, itu sulit untuk membayangkan sesuatu yang lebih penting daripada memberikan air minum kepada populasi, dan terkadang itu sangat penting. Karena itu mudah untuk mengabaikan fakta bahwa terkadang di Kanada, misalnya, ketika kita pergi ke daerah yang lebih jarang penduduknya seperti di bagian utara dan seterusnya, terkadang kita tidak memiliki operator untuk mengoperasikan pabrik pengolahan air. Ini bukanlah bahwa ini harus menggantikan operator, tetapi itu adalah untuk membantu kita melakukan hal-hal yang lainnya tidak bisa kita lakukan, karena kita tidak memiliki personil atau kekuatan untuk melakukan itu.
Saya pikir bahwa itu memiliki potensi dampak sosial yang sangat besar, itu adalah masalah penelitian yang sangat menantang. Kita tidak memiliki simulator, kita tidak memiliki cara untuk memprosesnya, jadi kemudian kita harus menggunakan data terbaik, kita harus belajar secara online, jadi ada banyak tantangan di sana, dan ini adalah salah satu hal yang saya sangat tertarik. Yang lain adalah pendinginan bangunan, dan lagi, berpikir tentang cuaca, tentang perubahan iklim dan hal-hal yang kita bisa memiliki dampak pada, seringkali itu seperti bagaimana kita memutuskan bagaimana kita akan mendinginkan bangunan? Seperti bangunan ini yang kita miliki ratusan orang hari ini, ini sangat berbeda dari apa yang kita miliki minggu lalu, dan apakah kita akan menggunakan kebijakan yang sama? Paling banyak kita memiliki thermostat, jadi kita seperti, “Oh ya, itu panas, jadi kita mungkin bisa lebih cerdas tentang itu dan beradaptasi,” lagi, dan terkadang ada banyak orang di satu ruangan, tidak di ruangan lain.
Ada banyak kesempatan ini tentang sistem kontrol yang sangat tinggi dimensi, sangat sulit untuk diatasi dalam pikiran kita, yang kita bisa melakukan lebih baik daripada pendekatan standar yang kita miliki saat ini di bidang.
Di beberapa tempat hingga 75% konsumsi daya adalah secara harfiah unit AC, jadi itu membuat banyak sense.
Tepat, dan saya pikir bahwa banyak hal ini di rumah Anda, mereka sudah melakukan pembelajaran mesin dan kemudian mereka belajar dari klien. Di bangunan-bangunan ini, Anda bisa memiliki pendekatan yang lebih halus, seperti Florida, Brasil, itu adalah banyak tempat yang memiliki kebutuhan ini. Pendinginan pusat data, ini adalah lainnya juga, ada beberapa perusahaan yang mulai melakukan ini, dan ini terdengar seperti fiksi ilmiah, tetapi ada kemampuan untuk terus belajar dan beradaptasi seiring kebutuhan. Ini bisa memiliki dampak besar dalam masalah kontrol yang sangat tinggi dimensi dan seterusnya, seperti ketika kita menerbangkan balon. Misalnya, salah satu hal yang kita bisa tunjukkan adalah bagaimana reinforcement learning, dan khususnya deep reinforcement learning, bisa belajar keputusan berdasarkan sensor yang jauh lebih kompleks daripada yang bisa dirancang oleh manusia.
Hanya dengan definisi, Anda melihat bagaimana manusia merancang kurva respons, hanya beberapa hal yang seperti, “Ya, itu mungkin akan menjadi linier, kuadratik,” tetapi ketika Anda memiliki jaringan saraf, itu bisa belajar semua non-linearitas yang membuatnya menjadi keputusan yang jauh lebih halus, yang terkadang sangat efektif.
Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi sumber daya berikut:












