Robotik

“Spatial-AI”deki İlerlemeler Robotların Fiziksel Ortamları İnsanlar Gibi Algılamasını Sağlıyor

Published July 17, 2020

Updated April 28, 2026

Alex McFarland

MIT’deki mühendisler, robotların yüksek düzeyde komutları takip edebilmesini sağlamak için çalışıyorlar, örneğin bir odada bir şeyi almak için başka bir odaya gitmek gibi. Bunun mümkün olması için, robotların fiziksel ortamlarını bizim gibi algılayabilmeleri gerekir.

Luca Carlone, MIT’de havacılık ve uzay mühendisliği yardımcı profesörüdür.

“Dünya hakkında herhangi bir karar verebilmek için, etrafınızdaki ortamın zihinsel bir modeline sahip olmanız gerekir” diyor Carlone. “Bu, insanlar için çok kolay bir şey. Ancak robotlar için bu, kamera aracılığıyla gördükleri piksel değerlerini dünya hakkında bir anlayışa dönüştürme konusunda çok zor bir problem.”

Bu zorluğu aşmak için araştırmacılar, robotlar için insanların fiziksel ortamlarını nasıl algıladıklarına ve nasıl navigasyon yaptıklarına dayanan bir uzaysal algı modeli oluşturdular.

3D Dinamik Sahne Grafikleri

Yeni model, 3D Dinamik Sahne Grafikleri olarak adlandırılmaktadır ve bir robota fiziksel çevresini, nesneleri ve bunların anlamsal etiketlerini içeren 3D bir harita oluşturma olanağı sağlar. Robot, aynı zamanda insanların, odaların, duvarların ve diğer yapıların hareketlerini de haritalayabilir.

Model, daha sonra robota 3D haritadan bilgi çıkarmasını sağlar, bu bilgiler nesneleri, odaları ve insanların hareketlerini bulmak için kullanılabilir.

“Bu, ortamın sıkıştırılmış bir temsili olup, robotlarımızın hızlı bir şekilde karar almasına ve rotasını planlamasına olanak tanır” diyor Carlone. “Bu, bizim yaptığımız şeyden çok da farklı değil. Evimizden MIT’ye gitmek için bir rota planlamanız gerekirse, her bir konumunuzu planlamazsınız, sadece sokaklar ve kilometre taşları seviyesinde düşünürsünüz, bu da rotanızı daha hızlı planlamanızı sağlar.”

Carlone’a göre, bu modele dayanan robotlar sadece ev işleri yapmakla kalmaz, aynı zamanda fabrikalarda insanların yanında çalışmak veya felaket bölgelerinde hayatta kalanları bulmak gibi yüksek düzeyde becerilerde de kullanılabilir.

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

Mevcut Yöntemler vs Yeni Model

Robotik görme ve navigasyon için mevcut yöntemler, principalmente 3D haritalama üzerine odaklanmaktadır, bu da robotların ortamını gerçek zamanlı olarak üç boyutlu olarak yeniden oluşturmasına olanak tanır veya anlamsal segmentasyon, bu da robotların ortamın özelliklerini anlamsal nesneler olarak sınıflandırmasıdır, örneğin bir araba veya bisiklet. Anlamsal segmentasyon genellikle 2D görseller üzerinde yapılır.

Geliştirilen yeni uzaysal algı modeli, ilk kez 3D haritalama ve aynı anda 3D haritanın içindeki nesneleri, insanları ve yapıları etiketleme yeteneğine sahiptir.

Bu yeni modeli elde etmek için araştırmacılar, Kimera adlı açık kaynaklı bir kütüphaneye başvurdu. Kimera, daha önce aynı ekip tarafından bir ortamın 3D geometrik modelini oluşturmak ve aynı zamanda bir nesnenin ne olabileceğini kodlamak için geliştirilmiştir, örneğin bir sandalye veya bir masa.

“Efsanevi bir yaratık gibi, Kimera’nın hem haritalama hem de 3D’de anlamsal anlayışın bir karışımı olmasını istedik” diyor Carlone.

Kimera, bir robotun kamerasından alınan görüntüleri ve sensörlerden alınan atalet ölçümlerini kullanarak sahneyi gerçek zamanlı olarak 3D bir ağ olarak yeniden oluşturdu. Bunu yapmak için, milyonlarca gerçek dünya görüntüsüne eğitim verilmiş bir sinir ağı kullandı ve daha sonra her bir pikselin etiketini tahmin etti ve 3D’de projeksiyon için ışın atma yöntemini kullandı.

Bu tekniğin kullanımı sayesinde, robotun ortamı, her bir yüzeyi renklendirerek nesneleri, yapıları veya insanların bir parçası olarak tanımlayan bir 3D ağ olarak haritalanabilir.

3D Ağdan 3D Dinamik “Sahne Grafiklerine”

3D anlamsal ağ modeli çok fazla hesaplama gücü gerektirir ve zaman alıcıdır, bu nedenle araştırmacılar 3D dinamik “sahne grafikleri” oluşturmak için Kimera’yı kullanarak algoritmalar geliştirdiler.

3D anlamsal ağ, ayrı anlamsal katmanlara bölünür ve robot bir sahneyi bir katman üzerinden görüntüleyebilir. Katmanlar, nesnelerden ve insanlardan, açık alanlara ve yapılara, odalara, koridorlara, salonlara ve tüm binalara kadar uzanır.

Bu katmanlama yöntemi, robotun odak noktasını daraltmasına ve milyarlarca noktayı ve yüzeyi analiz etmek yerine, insanların ve hareketlerinin ortam içindeki hareketini gerçek zamanlı olarak takip etmesine olanak tanır.

Yeni model, hareket halinde olan insanların bulunduğu ofis ortamını simüle eden foto-gerçekçi bir simülatörde test edildi.

“Esasen, robotların insanlarda olduğu gibi zihinsel modellere sahip olmasını sağlıyoruz” diyor Carlone. “Bu, otonom arabalar, arama ve kurtarma, işbirliği yapan üretim ve ev robotları dahil olmak üzere birçok uygulamayı etkileyebilir.”

Carlone, lider yazar ve MIT yüksek lisans öğrencisi Antoni Rosinol ile birlikte çalıştı.

“Yakın zamanda derin öğrenmedeki ilerlemeler ve aynı anda yer belirleme ve haritalama üzerine yapılan on yıllarca süren araştırmalar sayesinde bu yaklaşım mümkün hale geldi” diyor Rosinol. “Bu çalışma ile, robotik algıya yeni bir dönem olan uzaysal-AI’ye doğru bir adım atıyoruz, bu henüz bebeklik döneminde olsa da büyük bir potansiyele sahip.”

Araştırma, Robotics: Science and Systems sanal konferansında sunuldu.

Alex McFarland

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.