Anúncios
Intel Labs avança no desenvolvimento de visão computacional com dois novos modelos de IA

Os modelos de IA de código aberto VI-Depth 1.0 e MiDaS 3.1 melhoram a estimativa de profundidade para visão computacional.
A estimativa de profundidade é uma tarefa desafiadora de visão computacional necessária para criar uma ampla gama de aplicações em robótica, realidade aumentada (AR) e realidade virtual (VR). As soluções existentes muitas vezes lutam para estimar corretamente as distâncias, o que é um aspecto crucial para ajudar a planejar o movimento e evitar obstáculos quando se trata de navegação visual. Os pesquisadores do Intel Labs estão abordando esse problema lançando dois modelos de IA para estimativa de profundidade monocular: um para estimativa de profundidade visual inercial e outro para estimativa robusta de profundidade relativa (RDE).
O modelo RDE mais recente, MiDaS versão 3.1, prevê uma profundidade relativa robusta usando apenas uma única imagem como entrada. Devido ao seu treinamento em um conjunto de dados grande e diversificado, ele pode executar com eficiência uma ampla gama de tarefas e ambientes. A versão mais recente do MiDaS melhora a precisão do modelo para RDE em cerca de 30% com seu conjunto de treinamento maior e backbones de codificador atualizados.
O MiDaS foi incorporado a muitos projetos, principalmente o Stable Diffusion 2.0, onde permite o recurso de profundidade para imagem que infere a profundidade de uma imagem de entrada e, em seguida, gera novas imagens usando o texto e as informações de profundidade. Por exemplo, criador digital Scotty Fox usou uma combinação de Stable Diffusion e MiDaS para criar um ambiente VR de 360 graus. Essa tecnologia pode levar a novos aplicativos virtuais, incluindo a reconstrução da cena do crime para processos judiciais, ambientes terapêuticos para cuidados com a saúde e experiências de jogos imersivos.
Embora o RDE tenha boa capacidade de generalização e seja útil, a falta de escala diminui sua utilidade para tarefas posteriores que exigem profundidade métrica, como mapeamento, planejamento, navegação, reconhecimento de objetos, reconstrução 3D e edição de imagens. Pesquisadores do Intel Labs estão abordando esse problema lançando o VI-Depth, outro modelo de IA que fornece estimativa de profundidade precisa.
VI-Depth é um pipeline de estimativa de profundidade visual inercial que integra estimativa de profundidade monocular e odometria visual inercial (VIO) para produzir estimativas de profundidade densa com uma escala métrica. Essa abordagem fornece estimativa de profundidade precisa, o que pode ajudar na reconstrução da cena, mapeamento e manipulação de objetos.
A incorporação de dados inerciais pode ajudar a resolver a ambiguidade da escala. A maioria dos dispositivos móveis já contém unidades de medida inercial (IMUs). O alinhamento global determina a escala global apropriada, enquanto o alinhamento de escala densa (SML) opera localmente e empurra ou puxa regiões para a profundidade métrica correta. A rede SML aproveita o MiDaS como um backbone de codificador. No pipeline modular, o VI-Depth combina a estimativa de profundidade baseada em dados com o modelo de previsão de profundidade relativa MiDaS, juntamente com a unidade de medição do sensor IMU. A combinação de fontes de dados permite que o VI-Depth gere profundidade métrica densa mais confiável para cada pixel em uma imagem.
MiDaS 3.1 VI-Profundidade 1.0 estão disponíveis sob uma licença MIT de código aberto no GitHub.
Para obter mais informações, consulte “Transformadores de visão para previsão densa"E"Rumo a uma estimativa de profundidade monocular robusta: misturando conjuntos de dados para transferência cruzada de conjuntos de dados zero-shot. "