Kontakt z nami

Laboratoria Intel rozwijają rozwój systemów rozpoznawania obrazu komputerowego dzięki dwóm nowym modelom sztucznej inteligencji

Ogłoszenia

Laboratoria Intel rozwijają rozwój systemów rozpoznawania obrazu komputerowego dzięki dwóm nowym modelom sztucznej inteligencji

mm

Modele AI typu open source VI-Depth 1.0 i MiDaS 3.1 poprawiają szacowanie głębi dla obrazu komputerowego.

Szacowanie głębokości to trudne zadanie z zakresu wizji komputerowej wymagane do tworzenia szerokiej gamy zastosowań w robotyce, rzeczywistości rozszerzonej (AR) i rzeczywistości wirtualnej (VR). Istniejące rozwiązania często mają trudności z prawidłowym oszacowaniem odległości, co jest kluczowym aspektem pomagającym w planowaniu ruchu i omijaniu przeszkód, jeśli chodzi o nawigację wizualną. Naukowcy z Intel Labs zajmują się tym problemem, udostępniając dwa modele sztucznej inteligencji do jednoocznego szacowania głębokości: jeden do wizualno-inercyjnej szacowania głębokości i jeden do solidnego szacowania głębokości względnej (RDE).

Najnowszy model RDE, MiDaS w wersji 3.1, przewiduje solidną głębokość względną przy użyciu tylko jednego obrazu jako danych wejściowych. Dzięki szkoleniu na dużym i zróżnicowanym zbiorze danych może efektywnie działać w szerszym zakresie zadań i środowisk. Najnowsza wersja MiDaS poprawia dokładność modelu dla RDE o około 30% dzięki większemu zestawowi szkoleniowemu i zaktualizowanym szkieletom koderów.

MiDaS został zastosowany w wielu projektach, w szczególności w Stable Diffusion 2.0, gdzie udostępnia funkcję głębi do obrazu, która wnioskuje głębię obrazu wejściowego, a następnie generuje nowe obrazy na podstawie zarówno tekstu, jak i informacji o głębokości. Na przykład twórca cyfrowy Scottiego Foxa wykorzystał kombinację Stable Diffusion i MiDaS, aby stworzyć środowisko VR 360 stopni. Technologia ta może zaowocować nowymi zastosowaniami wirtualnymi, w tym rekonstrukcją miejsc zbrodni na potrzeby spraw sądowych, środowiskami terapeutycznymi dla opieki zdrowotnej i wciągającymi grami.

Chociaż RDE ma dobrą możliwość uogólnienia i jest użyteczny, brak skali zmniejsza jego użyteczność w dalszych zadaniach wymagających głębi metrycznej, takich jak mapowanie, planowanie, nawigacja, rozpoznawanie obiektów, rekonstrukcja 3D i edycja obrazów. Naukowcy z Intel Labs zajmują się tym problemem, wypuszczając VI-Depth, kolejny model sztucznej inteligencji, który zapewnia dokładne szacowanie głębokości.

VI-Depth to wizualno-inercyjny potok szacowania głębokości, który integruje jednooczne szacowanie głębokości i wizualno-inercyjną odometrię (VIO) w celu uzyskania gęstych szacunków głębokości w skali metrycznej. Takie podejście zapewnia dokładne oszacowanie głębokości, co może pomóc w rekonstrukcji sceny, mapowaniu i manipulacji obiektami.

Uwzględnienie danych inercyjnych może pomóc w rozwiązaniu niejednoznaczności skali. Większość urządzeń mobilnych zawiera już inercyjne jednostki pomiarowe (IMU). Wyrównanie globalne określa odpowiednią skalę globalną, podczas gdy wyrównanie w skali gęstej (SML) działa lokalnie i popycha lub przyciąga regiony w kierunku właściwej głębokości metrycznej. Sieć SML wykorzystuje MiDaS jako szkielet kodera. W ramach projektu modułowego VI-Depth łączy szacowanie głębokości w oparciu o dane z modelem przewidywania głębokości względnej MiDaS wraz z jednostką pomiarową czujnika IMU. Połączenie źródeł danych umożliwia VI-Depth generowanie bardziej niezawodnej, gęstej głębi metrycznej dla każdego piksela obrazu.

MiDaS 3.1 oraz VI-Głębokość 1.0 są dostępne na licencji open source MIT w serwisie GitHub.

Więcej informacji można znaleźć w „Transformatory wizyjne do gęstego przewidywania"I"W kierunku niezawodnego szacowania głębokości jednoocznego: mieszanie zestawów danych w celu przesyłania między zestawami danych zerowego strzału".

 

Daniel jest wielkim zwolennikiem tego, że sztuczna inteligencja ostatecznie wszystko zakłóci. Oddycha technologią i żyje, aby wypróbowywać nowe gadżety.