Röportajlar
Marlos C. Machado, Alberta Üniversitesi’nden Yardımcı Profesör, Amii Fellow, CIFAR AI Başkanlığı – Röportaj Serisi

Marlos C. Machado, Alberta Makine Zekâ Enstitüsü’nde (Amii) misafir araştırmacı, Alberta Üniversitesi’nden yardımcı profesör ve Amii fellow’dur ve ayrıca Kanada’da CIFAR AI Başkanlığı görevini yürütmektedir. Marlos’un araştırmaları büyük ölçüde pekiştirme öğrenmesi problemine odaklanmaktadır. Brezilya’daki UFMG’den lisans ve yüksek lisans derecelerini almış ve Alberta Üniversitesi’nden doktorasını tamamlamıştır. Burada zamanla genişletilmiş keşif kavramını popülerleştirmiştir.
DeepMind’de 2021-2023 yılları arasında ve Google Brain’de 2019-2021 yılları arasında araştırmacı olarak görev yaptı ve bu süre zarfında özellikle Loon’un stratosferik balonlarının kontrolü için derin pekiştirme öğrenmesinin uygulanması da dahil olmak üzere pekiştirme öğrenmesine önemli katkılarda bulundu. Marlos’un çalışmaları, AI alanında önde gelen konferans ve dergilerde yayınlandı, bunlar arasında Nature, JMLR, JAIR, NeurIPS, ICML, ICLR ve AAAI yer almaktadır. Araştırmaları ayrıca BBC, Bloomberg TV, The Verge ve Wired gibi popüler medya organlarında yer almıştır.
2023 Upper Bound konferansında Amii (Alberta Makine Zekâ Enstitüsü) tarafından Edmonton, AB’de düzenlenen ve AI üzerine yıllık bir konferans olan Upper Bound’da bir röportaj gerçekleştirdik.
Temel odak noktanız pekiştirme öğrenmesi üzerinde olmuştur, sizi bu tür makine öğrenmesine çeken nedir?
Pekiştirme öğrenmesiyle ilgili olarak bana çekici gelen şey, öğrenmenin çok doğal bir yolu olmasıdır. Öğrenme, etkileşim yoluyla gerçekleşir. İnsanların öğrenme şekli gibi geliyor. AI’yi insanlaştırma konusunda isteksiz olsam da, bu, şeyleri deneme, bazılarının iyi hissettirdiği, bazılarının kötü hissettirdiği ve iyi hissettiren şeyleri yapmayı öğrenme şekli gibi geliyor. Pekiştirme öğrenmesiyle ilgili olarak beni etkileyen şeylerden biri, ajanın gerçekten dünyayla etkileşime girmesi ve hipotezler oluşturup bunları test edebilmesi gerçeğidir.
Bunun nedeni, yeni davranışların keşfedilmesine olanak sağlamasıdır. Örneğin, en ünlü örneklerden biri AlphaGo’dur ve belgeselde bahsedilen 37. hamle, insanların yaratıcılık olarak adlandırdığı şeydir. Daha önce hiç görülmemiş bir şeydi ve hepimizi şaşırttı. Sadece dünyayla etkileşime girerek, bu tür şeyleri keşfedebilirsiniz. Bir projemde stratosferde görünen balonları uçurma üzerine çalıştım ve benzer şeyler gördük.
Herkesi etkileyen ve hiç düşünmediğimiz, ancak mükemmel olan davranışlar ortaya çıktı. Sanırım pekiştirme öğrenmesi, bu tür davranışların keşfedilmesine olanak tanıması açısından benzersiz bir şekilde konumlandırılmıştır, çünkü etkileşim halinde oluyorsunuz, bir anlamda, gerçekten zor olan şeylerden biri karşı olasılıklardır, yani “Şunu yaptıysam ne olacaktı?” gibi şeyler. Genel olarak makine öğrenimi çalışmalarında bunlarla ilgili olarak yapabileceğiniz bir şey yoktur, ancak pekiştirme öğrenmesinde yapabilirsiniz, “Şunu yaptıysam ne olacaktı?” diyorsunuz, bir sonraki deneyimde bunu deneyebilirim. Bu etkileşimli yönü gerçekten beğendim.
Tabii ki, iki yüzlü olmayacağım, bu konuda ortaya çıkan birçok harika uygulamanın da ilgisini çekici kıldığını düşünüyorum. Örneğin, décenniumlar öncesine giderek, pekiştirme öğrenmesinin büyük başarısının erken örneklerine bakıldığında, tüm bunlar bana çok çekici geldi.
En sevdiğiniz tarihi uygulama nedir?
Sanırım iki çok ünlü örnek vardır, biri Stanford’da pekiştirme öğrenmesiyle yapılan uçan helikopter ve diğeri TD-Gammon, yani dünya şampiyonu bir backgammon oyuncusudur. Bu, 90’lı yıllarda gerçekleşti ve bu, benim doktora dönemimdeydi, o yüzden IBM’de Gerald Tesauro ile staj yaptım ve Gerald Tesauro, TD-Gammon projesini yönetiyordu, bu gerçekten çok cool bir şeydi. İlginçtir, pekiştirme öğrenmesiyle çalışmaya başladığımda, tam olarak ne olduğunu bilmiyordum. Yüksek lisans başvuruları yaparken, makine öğrenimi yapmak istiyordum, genel olarak, ve birçok profesörün web sitelerini okuyordum, çünkü onların araştırmasıyla ilgileniyordum, ve “Oh, bu ilginç” diyordum. Geriye baktığımda, without knowing the field, ünlü pekiştirme öğrenmesi profesörleriyle çalışmak için başvurmuştum, ama onlar ünlü olduğu için değil, araştırma tanımlarının bana çekici geldiği için.
Onları organik olarak buldun.
Evet, genau. Geriye baktığımda, “Oh, bunlar uzun zaman önce çalışmak için başvurduğum insanlardı” diyordum, veya “Bunlar, daha önce ne yaptığımı bilmeden okuduğum makalelerdi” diyordum, ve bunlar hep pekiştirme öğrenmesine geri geliyordu.
Google Brain’deyken, stratosferik balonların otonom navigasyonuyla çalıştınız. Zor ulaşılabilir bölgelere internet erişimi sağlamak için bu, neden iyi bir kullanım örneğiydi?
Bu konuda uzman değilim, bu Alphabet’in bir iştiraki olan Loon’un çalışmasıydı. Dünyadaki birçok insana internet erişimi sağlamak için, genellikle bir anten kurarsınız, diyelim ki Edmonton’da bir anten kurarsınız, ve bu anten, yaklaşık beş veya altı kilometre yarıçapında bir bölgeye internet erişimi sağlar. Bir anten New York’un merkezinde kurarsanız, milyonlarca insanı internete bağlayabilirsiniz, ancak şimdi Amazon yağmur ormanındaki bir kabileye internet erişimi sağlamak istediğinizi düşünün. Belki kabileden 50 kişi var, o bölgeye altyapı yatırımı yapmak ekonomik olarak çok zordur, ayrıca o bölgeye ulaşmak da çok zordur.
Balonların fikirleri buydu, “Ya 20 kilometre yüksekliğinde bir anten inşa edebilsek?” Tabii ki böyle bir anten inşa etmesini bilmiyoruz, ancak bir balon koyabiliriz, ve sonra bu balon, 10 kat daha büyük bir bölgeye internet erişimi sağlayabilir. Diyelim ki ormanı veya cangılı orta yerine koyarsanız, belki de tek başına bir anten gerektirecek birçok kabiley internet erişimi sağlayabilirsiniz.
Zor ulaşılabilir bölgelere internet erişimi sağlamak, motivasyonlardan biriydi. Loon’un sloganı, “Sırada olan bir milyar insana değil, son bir milyar insana internet erişimi sağlamak”tı, bu çok iddialı bir hedefti.
Çözümünüzün navigasyonla ilgili sorunları nelerdi?
Bu balonlar, itiş gücü olmayan balonlardır, insanlar sıcak hava balonlarını nasıl navige ederse, aynı şekilde, yukarı veya aşağı gidebilir ve size belirli bir yönde giden bir rüzgar akımını bulursunuz, sonra bu akıma binersiniz, ve sonra “Oh, artık oraya gitmek istemiyorum” derseniz, belki yukarı veya aşağı gidersiniz ve farklı bir akım bulursunuz. Bu, balonların yaptığı şeydir. Sıcak hava balonu değildir, stratosferde uçan sabit bir balondur.
Navigasyon açısından, sadece yukarı, aşağı veya orada kalabilirsiniz, ve sonra size gitmek istediğiniz yere götürecek rüzgarları bulmanız gerekir. Bu, çok zor bir problem, aslında. İlk olarak, formülasyon olarak, bir bölgeye hizmet etmek istiyorsunuz, ancak aynı zamanda bu balonların güneş enerjisiyle çalıştığını da unutmamalısınız, bu nedenle güç verimliliği konusunda da bir çoklu objetivo optimizasyon problemi vardır.
Bu, problem kendisiydi, ancak detaylara baktığınızda, rüzgarların nasıl olduğunu bilmiyorsunuz, sadece nerede olduğunuzda rüzgarların nasıl olduğunu bilirsiniz, ancak 500 metre üstünüzdeki rüzgarların nasıl olduğunu bilmiyorsunuz. AI’de kısmi gözlemlenebilirlik olarak adlandırdığımız şey var, yani bu verileri sahip değilsiniz. Tahminler olabilir, ve bu konuda yazılmış makaleler vardır, ancak tahminler genellikle %90 yanlış olabilir. Bu, gerçekten zor bir problem, çünkü yüksek boyutlu bir problem, yüzlerce farklı rüzgar katmanından bahsediyoruz, ve sonra rüzgarın hızını, rüzgarın yönünü, nasıl modellediğimizi, bu tahmine olan güvenimizi düşünmelisiniz.
Bu problemi kavramak için gerçekten zor, bir projede karşılaştığımız en büyük zorluklardan biri buydu. Bir şekilde, bu problemi nasıl anlatabiliriz? Çünkü bunu zihnimizle kavramak zor, çünkü ekranınızda gördüğünüz bir şey değil, yüzlerce boyut ve rüzgar, ve son ölçümünüz ne zaman oldu? Bir anlamda, tüm bunları sindirmelisiniz, ayrıca güç, günün saati, nerede olmak istiyorsunuz, çok şey var.
Makine öğrenimi neyi inceliyor? Sadece rüzgar modelleri ve sıcaklık mı?
İşleyiş şekli, bizim bir rüzgar modelimiz vardı, bu bir makine öğrenimi sistemiydi, ancak pekiştirme öğrenmesi değildi. Tarihi verileriniz vardı, farklı irtifalarda, ve sonra bu verilerin üzerine bir makine öğrenimi modeli inşa ettiniz. “Biz” derken, ben bunun bir parçası değildim, bu Loon’un daha önce Google Brain’in dahil olmasına başlamadan önce yaptığı bir şeydi. Rüzgar modeli vardı, sadece farklı irtifalara değil, nasıl bu irtifalar arasında interpolasyon yapılacağına dair bir modeldi.
Söylersem, “İki yıl önce, rüzgar böyleydi, ancak 10 metre üstte nasıl olduğunu bilmiyorum” derseniz, sonra buna bir Gaussian process uygulayabilirsiniz, onlar bu modellemenin ne kadar iyi olduğu hakkında makaleler yazdılar. Bizim yaptığımız şey, pekiştirme öğrenmesinden yola çıkarak, balonların dinamiği üzerine çok iyi bir simülatörümüz vardı, ve ayrıca bir rüzgar simülatörümüz vardı. Sonra geçmişe gittik ve “Haydi 2010’a gidelim” dedik. 2010’daki dünya çapındaki rüzgarlar için verilere sahiptik, ancak çok kaba, ancak sonra bu makine öğrenimi modelini, bu Gaussian process’i üzerine ekleyerek aslında rüzgar ölçümlerini alabildik, ve sonra gürültü ekleyebildik, birçok şey yapabildik.
Sonuçta, simülatörün dinamiğine ve rüzgarlara sahiptik, ve geçmişe giderek, aslında bir simülatör inşa ettik.
Geçmişe dönük bir dijital ikiz gibi.
Evet, genau. Bir ödül fonksiyonu tasarladık, hedefte kalma ve biraz da güç verimliliği konusunda, ancak bir ödül fonksiyonu tasarladık, ve bu balonun, bu dünyayla etkileşime girerek öğrenmesini sağladık, ancak sadece dünyayla etkileşime girebildiği için, rüzgarları ve havayı modellemeyi bilmediğimiz için, ancak geçmişe gittiğimiz için, aslında navigasyonu öğrenmeyi başardık. Temelde, yukarı, aşağı veya kalma kararı veriyorduk, her şey etrafımızda döndüğü için, temelde internet erişimi sağlamak istediğimiz bölgeye hizmet etmek istiyorduk.
Pekiştirme öğrenmesini gerçek dünyada uygulamadaki zorluklar nelerdir?
Sanırım birkaç zorluk vardır. Bunu oyunlar ve gerçek dünya olarak düşünmektense, temel araştırma ve uygulamalı araştırma olarak düşünüyorum. Uygulamalı araştırma, oyunlarda da yapılabilir, diyelim ki milyonlarca insana ulaşan bir oyunda nächsten modeli uygulamaya çalışıyorsunuz, ancak sanırım birincil zorluk, mühendisliktir. Çoğu zaman oyunları, araştırmamızın bir ortamı olarak kullanıyoruz, çünkü birçok özelliğimizi yakalar, ancak bunları daha iyi tanımlanmış kısıtlar içinde yakalar. Bu nedenle araştırmayı yapabilir, öğrenmeyi doğrulayabiliriz, ancak bu daha güvenli bir ortam, daha iyi anladığımız bir ortam.
Araştırmamızın kendisiecessarily farklı olmak zorunda değil, ancak sanırım gerçek dünya, birçok ek zorluk getiriyor. Güvenlikle ilgili kısıtlamalar var, bizim çözümümüzün güvenli olduğundan emin olmak zorundayız. Oyunlarla çalışırken, bunu düşünmek zorunda değiliz. Nasıl balonun aptalca bir şey yapmasını önleyebiliriz, veya pekiştirme öğrenmesi ajanının bizim öngöremediğimiz bir şey öğrenmesini önleyebiliriz? Bu, bizim için en önemli endişeydi. Tabii ki, sadece oyun oynuyorsanız, en kötü durumda oyunu kaybedersiniz.
Bu, zorluklardan biri, diğeri ise mühendislik yığını. Bir oyunla etkileşime girmek çok farklı, çünkü bir ürünün mühendislik yığınıyla ilgilenmek zorundasınız. Sadece deli gibi her şeyi yapmak isteyemezsiniz, çünkü size izin vermezler. Sanırım, bir diğer zorluk, takım büyüklüğü çok farklı olabilir, Loon’un o zamanlar dozens, belki hundreds of people vardı, ve biz onlarla etkileşime giriyorduk, ancak onlar bir kontrol odasına sahipti, ve oradaki personele konuşuyorlardı.
Bunlar, bizim bilincinde olmadığımız şeylerdi, ancak sonra anladık ki, gerçek dünyada, birçok paydaş var, ve birçok varsayımımız geçerliliğini yitiriyor. Çoğu zaman, algoritmalarımızın dayandığı varsayımlar, gerçek dünyada geçerli değil, ve sonra bunlarla nasıl başa çıkacağınızı bulmanız gerekiyor. Dünya, oyunlardan çok daha zorlu.
Bir örnek, gerçekten sevdiğim bir örnek, Loon mühendislerine gittik, “Tamam, şimdi bu şeyleri deneme zamanı” dedik, ve sonra iki hafta sonra geri geldik, “Sizin probleminizi çözdük” dedik, ve onlar bize güldüler, “Hayır, bunu çözemezsiniz, çok zor” dediler, “Evet, çözdük, %100 doğruluk payına sahibiz” dedik, ve onlar “Bu imkansız, bazen rüzgarlar size gitmek istediğiniz yere götürmez” dediler.
Sonra ne olduğunu anladık. Balon, pekiştirme öğrenmesi algoritması, bölgenin merkezine gitmeyi öğrenmişti, ve sonra yukarı, yukarı gidiyordu, ve sonra balon patlıyordu, ve sonra aşağı iniyordu, ve bölge içinde kalıyordu. Onlar “Bu clearly ne istediğimiz” dediler, ancak tabii ki bu bir simülasyondu, ve sonra “Oh yeah, bunu nasıl düzeltebiliriz?” dedik, ve onlar “Oh yeah, birkaç şey var, ancak biri, balonun patlayacağı seviyeye çıkmamasını sağlamaktır” dediler.
Gerçek dünyada, bu tür kısıtlamalar ve çözümünüzün diğer şeylerle nasıl etkileşime gireceği konusunda, sadece pekiştirme öğrenmesi araştırmacısı olarak oyunlarla çalışırken bunları göz ardı edebilirsiniz, ancak gerçek dünyada, “Oh wait, bunlar sonuçları vardır, ve bunlardan haberdar olmam necessário” dersiniz.
Sanırım bu, birincil zorluklardan biri. Sanırım bir diğer zorluk, deneylerin döngüsü çok uzundur, bir oyun oynarken, en kötü durumda bir hafta sonra sonuçlarınız vardır, ancak gerçek dünyada, stratosferde balonlar uçuruyorsanız, sonra bunları doğrulamak için aylarınızı harcamak zorundasınız. Zaman ölçeği çok farklı.
Oyunlarda olduğu gibi, aynı oyunun milyonlarca iterasyonu aynı anda çalışmıyor.
Evet. Eğitim için bunu yaptık, çünkü simülasyonu kullanıyorduk, ancak gerçek dünyada, farklı.
Şu anda üzerinde çalıştığınız araştırma nedir?
Şimdi Alberta Üniversitesi’ndeyim, ve burada birçok öğrenciyle bir araştırma grubum var. Araştırmam çok daha çeşitli, çünkü öğrencilerim bana bunu yapma fırsatı veriyor. Bir şey, continual learning olarak adlandırdığımız şey, özellikle heyecan verici buluyorum. Ne oluyor, genellikle makine öğrenimi konuştuğumuzda, bir hesaplama yapıyoruz, ya bir simülatör kullanıyoruz, ya da bir veri kümesini işliyoruz, ve bir makine öğrenimi modeli öğreniyoruz, ve bu modeli uyguluyoruz, ve umuyoruz ki iyi çalışır, ve bu bazen tam olarak ihtiyacımız olan şeydir, bazen mükemmeldir, ancak bazen değildir, çünkü bazen gerçek dünya problemleri, bir modelin, ne kadar büyük olursa olsun, tüm world’un kompleksliklerini gerçekten kapsayabileceğini beklemekten çok fazla.
Bununla ilgili olarak, Alberta Üniversitesi’ndeki bir projede, su arıtma tesisinde çalışıyorum. Temel olarak, su arıtma için diğer insanlarla karar alma sürecini destekleyen veya otonom olarak nasıl pekiştirme öğrenmesi algoritmaları geliştirebileceğimizi araştırıyoruz. Verilere sahibiz, verilere bakabiliriz, ve bazen su kalitesi saatler içinde değişebilir, bu nedenle “Her gün, önceki günün verisinden bir makine öğrenimi modeli eğiteceğim, ve gün içinde uygulayacağım” derseniz, bu model artık geçerli değildir, çünkü veri akışı yoktur, istasyonel değildir. Bu, gerçekten zor bir problem, çünkü tüm dünyayı modellemeye çalışamazsınız, bu nedenle ne yaparsınız? Uyarlanırsınız, sürekli öğrenirsiniz, “Oh, bu şey artık çalışmıyor, belki başka bir şey öğrenmeliyim” dersiniz.
Sanırım, birçok yayın, özellikle gerçek dünya uygulamaları, sürekli ve sonsuza kadar öğrenmeyi gerektirir, ve bu, makine öğreniminin standardının dışında bir şey. Çoğu zaman, “Büyük bir hesaplama yapacağım, ve bir modeli uygulayacağım” diyoruz, ve belki de birkaç gün veya hafta sonra başka bir modeli uygulayacağım, ancak bazen bu şeyler zaman ölçeği olarak çalışmıyor.
Sorusu, “Nasıl sürekli ve sonsuza kadar öğrenebiliriz, öyle ki sadece daha iyiye gidiyoruz ve adapte oluyoruz?” ve bu gerçekten zor. Mevcut makinemiz, continual learning’i yapamaz, birçok çözümümüz, alanın altın standardı, ancak sadece öğrenmeyi durdurup uygulamaya koyduğunuzda, şeyler hızla kötüleşir. Bu, beni gerçekten heyecanlandıran şeylerden biri, ve sanırım pekiştirme öğrenmesi, bunu yapmak için özellikle uygun, çünkü birçok algoritmamız, veri gelirken işliyor, ve birçok algoritmamız, doğal olarak öğrenmeye uygun.
Continual learning kullanarak gelecekteki uygulamalardan en çok hangilerini heyecanlandırıyor?
Bu, milyarlık bir soru, çünkü bir anlamda, ben de bu uygulamaları arıyorum. Sanırım, bir araştırmacı olarak, doğru soruları sormak, işin yarısı. Bu, milyar dolarlık bir soru, çünkü su arıtma tesisinde çalıştığım gibi, bu continual learning’i gerektiren bir projede, gerçekten heyecan verici bir şey, çünkü çok zor bir araştırma problemi, ve aynı zamanda büyük bir sosyal etkiye sahip, çünkü suyu işleyen bir tesisin, su kalitesinin değişmesi çok zor, ve sometimes bu, insanların sağlığını etkileyen bir şey.
Sanırım, bu continual learning’i gerektiren birçok uygulama var, ve ben de, continual learning’i araştırmaya devam ediyorum, ve bu, gerçekten heyecan verici, çünkü birçok araştırma sorusu var, ve ben de, bu soruları cevaplamaya çalışıyorum. Bir diğer örnek, binaları soğutma, ve iklim değişikliği hakkında düşünün, ve sometimes, nasıl bir binayı soğutacağınızı quyếtmek çok zor, ve belki de termostat kullanıyorsunuz, ancak daha akıllı olabilirsiniz, ve continual learning’i kullanarak, daha iyi bir çözüm bulabilirsiniz.
Sanırım, bu continual learning, birçok kontrol sistemi için, özellikle yüksek boyutlu ve zor problemler için, gerçekten büyük bir potansiyele sahip, ve ben de, bu alanda çalışmaya devam ediyorum.












