Ogłoszenia
Laboratoria Intel rozwijają rozwój systemów rozpoznawania obrazu komputerowego dzięki dwóm nowym modelom sztucznej inteligencji

Modele AI typu open source VI-Depth 1.0 i MiDaS 3.1 poprawiają szacowanie głębi dla obrazu komputerowego.
Szacowanie głębokości to trudne zadanie z zakresu wizji komputerowej wymagane do tworzenia szerokiej gamy zastosowań w robotyce, rzeczywistości rozszerzonej (AR) i rzeczywistości wirtualnej (VR). Istniejące rozwiązania często mają trudności z prawidłowym oszacowaniem odległości, co jest kluczowym aspektem pomagającym w planowaniu ruchu i omijaniu przeszkód, jeśli chodzi o nawigację wizualną. Naukowcy z Intel Labs zajmują się tym problemem, udostępniając dwa modele sztucznej inteligencji do jednoocznego szacowania głębokości: jeden do wizualno-inercyjnej szacowania głębokości i jeden do solidnego szacowania głębokości względnej (RDE).
Najnowszy model RDE, MiDaS w wersji 3.1, przewiduje solidną głębokość względną przy użyciu tylko jednego obrazu jako danych wejściowych. Dzięki szkoleniu na dużym i zróżnicowanym zbiorze danych może efektywnie działać w szerszym zakresie zadań i środowisk. Najnowsza wersja MiDaS poprawia dokładność modelu dla RDE o około 30% dzięki większemu zestawowi szkoleniowemu i zaktualizowanym szkieletom koderów.
MiDaS został zastosowany w wielu projektach, w szczególności w Stable Diffusion 2.0, gdzie udostępnia funkcję głębi do obrazu, która wnioskuje głębię obrazu wejściowego, a następnie generuje nowe obrazy na podstawie zarówno tekstu, jak i informacji o głębokości. Na przykład twórca cyfrowy Scottiego Foxa wykorzystał kombinację Stable Diffusion i MiDaS, aby stworzyć środowisko VR 360 stopni. Technologia ta może zaowocować nowymi zastosowaniami wirtualnymi, w tym rekonstrukcją miejsc zbrodni na potrzeby spraw sądowych, środowiskami terapeutycznymi dla opieki zdrowotnej i wciągającymi grami.
Chociaż RDE ma dobrą możliwość uogólnienia i jest użyteczny, brak skali zmniejsza jego użyteczność w dalszych zadaniach wymagających głębi metrycznej, takich jak mapowanie, planowanie, nawigacja, rozpoznawanie obiektów, rekonstrukcja 3D i edycja obrazów. Naukowcy z Intel Labs zajmują się tym problemem, wypuszczając VI-Depth, kolejny model sztucznej inteligencji, który zapewnia dokładne szacowanie głębokości.
VI-Depth to wizualno-inercyjny potok szacowania głębokości, który integruje jednooczne szacowanie głębokości i wizualno-inercyjną odometrię (VIO) w celu uzyskania gęstych szacunków głębokości w skali metrycznej. Takie podejście zapewnia dokładne oszacowanie głębokości, co może pomóc w rekonstrukcji sceny, mapowaniu i manipulacji obiektami.
Uwzględnienie danych inercyjnych może pomóc w rozwiązaniu niejednoznaczności skali. Większość urządzeń mobilnych zawiera już inercyjne jednostki pomiarowe (IMU). Wyrównanie globalne określa odpowiednią skalę globalną, podczas gdy wyrównanie w skali gęstej (SML) działa lokalnie i popycha lub przyciąga regiony w kierunku właściwej głębokości metrycznej. Sieć SML wykorzystuje MiDaS jako szkielet kodera. W ramach projektu modułowego VI-Depth łączy szacowanie głębokości w oparciu o dane z modelem przewidywania głębokości względnej MiDaS wraz z jednostką pomiarową czujnika IMU. Połączenie źródeł danych umożliwia VI-Depth generowanie bardziej niezawodnej, gęstej głębi metrycznej dla każdego piksela obrazu.
MiDaS 3.1 oraz VI-Głębokość 1.0 są dostępne na licencji open source MIT w serwisie GitHub.
Więcej informacji można znaleźć w „Transformatory wizyjne do gęstego przewidywania"I"W kierunku niezawodnego szacowania głębokości jednoocznego: mieszanie zestawów danych w celu przesyłania między zestawami danych zerowego strzału".