Yapay Zeka
Yeni Teknik, Yapay Zekanın 3B Nesneleri Tanımlamasına Yardımcı Olur

North Carolina Eyalet Üniversitesi'ndeki araştırmacılar tarafından geliştirilen yeni bir teknik, yapay zeka (AI) programlarının 3B nesneleri tanımlama yeteneğini geliştiriyor. MonoCon olarak adlandırılan teknik, AI'nın 3B görüntüler kullanarak 2B nesnelerin uzayda birbirleriyle nasıl ilişkili olduğunu öğrenmesine de yardımcı olur.
MonoCon, yerleşik bir kameradan alınan 2D görüntüleri kullanarak otonom araçların diğer araçların etrafında gezinmesine yardımcı olmak da dahil olmak üzere geniş bir uygulama yelpazesine sahip olabilir. Üretim ve robotikte de rol oynayabilir.
Tianfu Wu, kitabın ilgili yazarıdır. Araştırma kağıdı ve North Carolina Eyalet Üniversitesi'nde elektrik ve bilgisayar mühendisliği yardımcı doçenti.
Wu, "3 boyutlu bir dünyada yaşıyoruz, ancak bir fotoğraf çektiğinizde, o dünyayı 2 boyutlu bir görüntü olarak kaydediyor" diyor Wu.
“AI programları kameralardan görsel girdi alıyor. Bu nedenle, yapay zekanın dünyayla etkileşime girmesini istiyorsak, 2B görüntülerin ona 3B alan hakkında neler söyleyebileceğini yorumlayabilmesini sağlamalıyız. Bu araştırmada, bu zorluğun bir kısmına odaklandık: AI'nın 3B nesneleri (insanlar veya arabalar gibi) 2B görüntülerde doğru bir şekilde tanımasını ve bu nesneleri uzaya yerleştirmesini nasıl sağlayabiliriz," diye devam ediyor Wu.
Özerk Araçlar
Otonom araçlar, 3B uzayda gezinmek için genellikle lidara güvenir. Mesafeyi ölçmek için lazer kullanan Lidar pahalıdır, yani otonom sistemler çok fazla fazlalık içermez. Seri üretilen sürücüsüz bir araca düzinelerce lidar sensörü yerleştirmek inanılmaz derecede pahalı olurdu.
Wu, "Ancak otonom bir araç uzayda gezinmek için görsel girdiler kullanabiliyorsa, fazlalık oluşturabilirsiniz" diyor. "Kameralar lidar'dan önemli ölçüde daha ucuz olduğu için, ek kameralar dahil etmek ekonomik olarak mümkün olabilir - sistemde yedeklilik oluşturur ve sistemi hem daha güvenli hem de daha sağlam hale getirir.
"Bu pratik bir uygulama. Ancak, bu çalışmanın temel ilerlemesinden de heyecan duyuyoruz: 3 boyutlu nesnelerden 2 boyutlu veri elde etmek mümkün."
AI'yı eğitmek
MonoCon, 3B görüntülerdeki 2B nesneleri, yapay zekaya nesnenin dış kenarlarını bildiren bir "sınırlayıcı kutuya" yerleştirmeden önce tanımlayabilir.
Wu, "Çalışmamızı farklı kılan şey, yapay zekayı eğitme şeklimiz; bu da önceki eğitim tekniklerine dayanıyor," diyor. "Önceki çalışmalarda olduğu gibi, yapay zekayı eğitirken nesneleri 3B sınırlayıcı kutulara yerleştiriyoruz. Ancak, yapay zekadan kamera-nesne mesafesini ve sınırlayıcı kutuların boyutlarını tahmin etmesini istemenin yanı sıra, kutunun sekiz noktasının her birinin konumunu ve sınırlayıcı kutunun merkezinden iki boyutlu uzaklığını da tahmin etmesini istiyoruz. Buna 'yardımcı bağlam' diyoruz ve bunun yapay zekanın 3B görüntülere dayanarak 2B nesneleri daha doğru bir şekilde tanımlamasına ve tahmin etmesine yardımcı olduğunu gördük.
"Önerilen yöntem, ölçü teorisinde iyi bilinen bir teorem olan Cramér-Wold teoremi tarafından motive edilmektedir. Aynı zamanda bilgisayarlı görmedeki diğer yapısal çıktı tahmin görevlerine de potansiyel olarak uygulanabilir."
MonoCon, KITTI adlı yaygın olarak kullanılan bir kıyaslama veri seti ile test edilmiştir.
Wu, "Bu makaleyi sunduğumuz sırada MonoCon, 3B görüntülerden otomobiller hakkında 2B veri çıkarmayı amaçlayan diğer düzinelerce yapay zeka programından daha iyi performans gösterdi" diyor.
Ekip şimdi süreci daha büyük veri kümeleriyle ölçeklendirmeye çalışacak.
Wu, "İleriye doğru, bunu büyütüyoruz ve MonoCon'u otonom sürüşte kullanmak üzere değerlendirmek ve ince ayar yapmak için daha büyük veri kümeleriyle çalışıyoruz" diyor. "Robot kollarının kullanımı gibi görevlerin performansını iyileştirip iyileştiremeyeceğimizi görmek için üretimdeki uygulamaları da keşfetmek istiyoruz."










