Anúncios

Intel Labs avança no desenvolvimento de visão computacional com dois novos modelos de IA

Publicado 23 de março de 2023

Daniel Martin

Os modelos de IA de código aberto VI-Depth 1.0 e MiDaS 3.1 melhoram a estimativa de profundidade para visão computacional.

A estimativa de profundidade é uma tarefa desafiadora de visão computacional necessária para criar uma ampla gama de aplicações em robótica, realidade aumentada (AR) e realidade virtual (VR). As soluções existentes muitas vezes lutam para estimar corretamente as distâncias, o que é um aspecto crucial para ajudar a planejar o movimento e evitar obstáculos quando se trata de navegação visual. Os pesquisadores do Intel Labs estão abordando esse problema lançando dois modelos de IA para estimativa de profundidade monocular: um para estimativa de profundidade visual inercial e outro para estimativa robusta de profundidade relativa (RDE).

O modelo RDE mais recente, MiDaS versão 3.1, prevê uma profundidade relativa robusta usando apenas uma única imagem como entrada. Devido ao seu treinamento em um conjunto de dados grande e diversificado, ele pode executar com eficiência uma ampla gama de tarefas e ambientes. A versão mais recente do MiDaS melhora a precisão do modelo para RDE em cerca de 30% com seu conjunto de treinamento maior e backbones de codificador atualizados.

O MiDaS foi incorporado a muitos projetos, principalmente o Stable Diffusion 2.0, onde permite o recurso de profundidade para imagem que infere a profundidade de uma imagem de entrada e, em seguida, gera novas imagens usando o texto e as informações de profundidade. Por exemplo, criador digital Scotty Fox usou uma combinação de Stable Diffusion e MiDaS para criar um ambiente VR de 360 graus. Essa tecnologia pode levar a novos aplicativos virtuais, incluindo a reconstrução da cena do crime para processos judiciais, ambientes terapêuticos para cuidados com a saúde e experiências de jogos imersivos.

Embora o RDE tenha boa capacidade de generalização e seja útil, a falta de escala diminui sua utilidade para tarefas posteriores que exigem profundidade métrica, como mapeamento, planejamento, navegação, reconhecimento de objetos, reconstrução 3D e edição de imagens. Pesquisadores do Intel Labs estão abordando esse problema lançando o VI-Depth, outro modelo de IA que fornece estimativa de profundidade precisa.

VI-Depth é um pipeline de estimativa de profundidade visual inercial que integra estimativa de profundidade monocular e odometria visual inercial (VIO) para produzir estimativas de profundidade densa com uma escala métrica. Essa abordagem fornece estimativa de profundidade precisa, o que pode ajudar na reconstrução da cena, mapeamento e manipulação de objetos.

A incorporação de dados inerciais pode ajudar a resolver a ambiguidade da escala. A maioria dos dispositivos móveis já contém unidades de medida inercial (IMUs). O alinhamento global determina a escala global apropriada, enquanto o alinhamento de escala densa (SML) opera localmente e empurra ou puxa regiões para a profundidade métrica correta. A rede SML aproveita o MiDaS como um backbone de codificador. No pipeline modular, o VI-Depth combina a estimativa de profundidade baseada em dados com o modelo de previsão de profundidade relativa MiDaS, juntamente com a unidade de medição do sensor IMU. A combinação de fontes de dados permite que o VI-Depth gere profundidade métrica densa mais confiável para cada pixel em uma imagem.

MiDaS 3.1 VI-Profundidade 1.0 estão disponíveis sob uma licença MIT de código aberto no GitHub.

Para obter mais informações, consulte “Transformadores de visão para previsão densa"E"Rumo a uma estimativa de profundidade monocular robusta: misturando conjuntos de dados para transferência cruzada de conjuntos de dados zero-shot. "

Tópicos relacionados:intel laboratórios de inteligência

A seguir

O que você deve saber sobre o Bard Chatbot atualizado do Google

Daniel Martin

Daniel é um grande defensor de como a IA acabará por atrapalhar tudo. Ele respira tecnologia e vive para experimentar novos gadgets.

Unir-se.AI

Intel Labs avança no desenvolvimento de visão computacional com dois novos modelos de IA

Você pode gostar