Ângulo de Anderson

Inteligência Artificial Descobre o Segredo da Atividade Revelada por Paredes em Branco

mm

Uma colaboração de pesquisa, incluindo contribuintes da NVIDIA e do MIT, desenvolveu um método de aprendizado de máquina que pode identificar pessoas escondidas simplesmente observando a iluminação indireta em uma parede próxima, mesmo quando as pessoas estão longe das fontes de luz. O método tem uma precisão próxima a 94% ao tentar identificar o número de pessoas escondidas e também pode identificar a atividade específica de uma pessoa escondida amplificando massivamente os reflexos de luz que são invisíveis para os olhos humanos e para os métodos padrão de amplificação de imagem.

Perturbações imperceptíveis de luz, amplificadas pelo novo método, que usa redes neurais convolucionais para identificar áreas de mudança. Fonte: https://www.youtube.com/watch?v=K4PapXyX-bI

Perturbações imperceptíveis de luz, amplificadas pelo novo método, que usa redes neurais convolucionais para identificar áreas de mudança. Fonte: https://www.youtube.com/watch?v=K4PapXyX-bI

O novo artigo é intitulado O que Você Pode Aprender Olhando para uma Parede em Branco, com contribuições da NVIDIA e do MIT, bem como do Instituto de Tecnologia de Israel.

Abordagens anteriores para “ver ao redor das paredes” dependiam de fontes de luz controláveis ou de conhecimento prévio de fontes de oclusão conhecidas, enquanto a nova técnica pode ser generalizada para qualquer novo ambiente, sem necessidade de recalibração. As duas redes neurais convolucionais que identificam pessoas escondidas usaram dados obtidos de apenas 20 cenas.

O projeto é direcionado a situações de alto risco, críticas para a segurança, para operações de busca e resgate, tarefas de vigilância policial em geral, cenários de resposta a emergências, para detecção de quedas entre idosos e como meio de detectar pedestres escondidos para veículos autônomos.

Avaliação Passiva

Como é frequentemente o caso em projetos de visão computacional, a tarefa central foi identificar, classificar e operacionalizar mudanças de estado percebidas em um fluxo de imagem. Concatenar as mudanças leva a padrões de assinatura que podem ser usados para identificar um número de indivíduos ou detectar a atividade de um ou mais indivíduos.

O trabalho abre a possibilidade de avaliação de cena completamente passiva, sem a necessidade de utilizar superfícies refletoras, sinais de Wi-Fi, radar, som ou qualquer outra “circunstância especial” necessária em outros esforços de pesquisa nos últimos anos que buscaram estabelecer a presença humana escondida em um ambiente perigoso ou crítico.

Um cenário de coleta de dados do tipo usado para a nova pesquisa. Os sujeitos são posicionados com cuidado para não lançar sombras ou ocultar diretamente as luzes, e não são permitidas superfícies refletoras ou outros vetores de

Um cenário de coleta de dados do tipo usado para a nova pesquisa. Os sujeitos são posicionados com cuidado para não lançar sombras ou ocultar diretamente as luzes, e não são permitidas superfícies refletoras ou outros vetores de “trapaça”. Fonte: https://arxiv.org/pdf/2108.13027.pdf

Efetivamente, a luz ambiente para o cenário típico imaginado para a aplicação iria sobrecarregar qualquer perturbação menor causada pela luz refletida por pessoas escondidas em outra parte da cena. Os pesquisadores calculam que a contribuição da perturbação de luz dos indivíduos seria normalmente menos de 1% da luz total visível.

Remoção de Iluminação Estática

Para extrair o movimento de uma imagem de parede aparentemente estática, é necessário calcular a média temporal do vídeo e removê-la de cada quadro. Os padrões de movimento resultantes estão geralmente abaixo do limiar de ruído de equipamentos de vídeo de boa qualidade, e, na verdade, grande parte do movimento ocorre dentro de um espaço de pixel negativo.

Para remediar isso, os pesquisadores reduzem a resolução do vídeo por um fator de 16 e ampliam a filmagem resultante por um fator de 50, adicionando um nível de cinza médio para discernir a presença de pixels negativos (que não poderiam ser contabilizados pelo ruído do sensor de vídeo de base).

A diferença entre a parede percebida pelo ser humano e a perturbação extraída de indivíduos escondidos. Como a qualidade da imagem é uma questão central nesta pesquisa, por favor, consulte o vídeo oficial no final do artigo para uma imagem de maior qualidade.

A diferença entre a parede percebida pelo ser humano e a perturbação extraída de indivíduos escondidos. Como a qualidade da imagem é uma questão central nesta pesquisa, por favor, consulte o vídeo oficial no final do artigo para uma imagem de maior qualidade.

A janela de oportunidade para perceber o movimento é muito frágil e pode ser afetada até pelo piscar das luzes em uma frequência de 60 Hz AC. Portanto, essa perturbação natural também precisa ser avaliada e removida do footagem antes que o movimento induzido pela pessoa possa emergir.

Finalmente, o sistema produz gráficos espaço-temporais que sinalizam um número específico de habitantes de uma sala escondida – assinaturas visuais discretas:

Gráficos espaço-temporais de assinatura representando diferentes números de pessoas escondidas em uma sala.

Gráficos espaço-temporais de assinatura representando diferentes números de pessoas escondidas em uma sala.

Diferentes atividades humanas também resultarão em perturbações de assinatura que podem ser classificadas e reconhecidas:

As assinaturas do gráfico espaço-temporal para inatividade, caminhada, agachamento, acenar com as mãos e pulando.

As assinaturas do gráfico espaço-temporal para inatividade, caminhada, agachamento, acenar com as mãos e pulando.

Para produzir um fluxo de trabalho automatizado baseado em aprendizado de máquina para reconhecimento de pessoas escondidas, foram usados footagens variados de 20 cenários apropriados para treinar duas redes neurais operando em configurações amplamente semelhantes – uma para contar o número de pessoas em uma cena e a outra para identificar qualquer movimento ocorrendo.

Testes

Os pesquisadores testaram o sistema treinado em dez ambientes do mundo real não vistos, projetados para recriar as limitações antecipadas para o uso final. O sistema foi capaz de alcançar até 94,4% de precisão (em 256 quadros – tipicamente apenas mais de 8 segundos de vídeo) ao classificar o número de pessoas escondidas e até 93,7% de precisão (nas mesmas condições) ao classificar atividades. Embora a precisão caia com menos quadros de origem, não é uma queda linear, e mesmo 64 quadros alcançarão uma taxa de precisão de 79,4% para a avaliação do “número de pessoas” (em comparação com quase 95% para quatro vezes o número de quadros).

Embora o método seja robusto às mudanças climáticas na iluminação, ele tem dificuldade em uma cena iluminada por uma televisão, ou em circunstâncias em que as pessoas estão vestindo roupas monótonas da mesma cor que a parede refletora.

Mais detalhes da pesquisa, incluindo footagens de maior qualidade das extrações, podem ser vistos no vídeo oficial abaixo.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.