Inteligência artificial
Um ‘Detetive’ IA Pode Identificar Pessoas Obscuras a Partir de Múltiplas Fontes

Pesquisadores da Universidade de Oxford desenvolveram um sistema habilitado por IA que pode identificar de forma abrangente pessoas em vídeos por meio de investigações multi-domínio, semelhantes às de um detetive, sobre quem elas podem ser, a partir do contexto e de uma variedade de fontes secundárias publicamente disponíveis, incluindo a combinação de fontes de áudio com material visual da internet.
Embora a pesquisa se concentre na identificação de figuras públicas, como pessoas que aparecem em programas de televisão e filmes, o princípio de inferir a identidade a partir do contexto é teoricamente aplicável a qualquer pessoa cujo rosto, voz ou nome apareça em fontes online.
De fato, a própria definição de fama do artigo não se limita a trabalhadores do show business, com os pesquisadores declarando ‘Denominamos pessoas com muitas imagens de si mesmas online como famosas‘.
Direto para o Vídeo
Os pesquisadores, do Grupo de Geometria Visual de Oxford, do Departamento de Ciência de Engenharia, descrevem a abordagem de investigação de estilo humano que inspirou o trabalho:
‘Imagine que você está assistindo a um vídeo e encontra uma nova pessoa. Para identificá-la com confiança, você primeiro procuraria pistas sobre o nome dela, seja no vídeo, como texto na tela, o nome sendo mencionado em uma fala, ou em uma lista de membros do elenco de um arquivo da internet. Você poderia então encontrar alguma evidência para verificar que esse nome é correto, procurando a pessoa online.’
A metodologia proposta pelo artigo é completamente automatizada e elimina todas as marcações manuais adicionais (descontando qualquer uma que tenha sido realizada pelos fornecedores das fontes online). O sistema também se provou eficaz em três conjuntos de dados não relacionados sem a necessidade de adaptação de domínio.
Discutindo a aplicação do trabalho, os pesquisadores notam o crescimento exponencial de dados de vídeo não rotulados e opacos, e a necessidade de novos sistemas que possam derivar informações de identidade a partir deles sem caras anotações lideradas por humanos:
‘[A] escala dos dados, combinada com a falta de metadados relevantes, torna a indexação, análise e navegação desse conteúdo uma tarefa cada vez mais difícil. Confiar em anotações manuais adicionais não é mais viável, e sem uma forma eficaz de navegar por esses vídeos, esse banco de conhecimento é em grande parte inacessível.’
Um mecanismo de indexação desta natureza abre a possibilidade para hiperlinks de resultados de busca que chegam diretamente a um ponto no vídeo onde o assunto da busca aparece, como demonstrado no conceito de busca na web fornecido pelo projeto.

O sistema de Oxford permite uma busca por instâncias de uma pessoa identificada. O resultado da busca leva o espectador diretamente ao ponto no vídeo onde a pessoa identificada aparece, e o vídeo pode então ser reproduzido a partir desse ponto. Source: https://www.robots.ox.ac.uk/~vgg/research/person_id_in_video/
Uma das maneiras pelas quais o sistema identifica ‘pessoas obscuras’ é pelo contexto de sua associação com outras pessoas. Consequentemente, o mecanismo de busca é bem equipado para buscar múltiplas identidades que aparecem no mesmo vídeo:
Peixes Grandes e Pequenos
O sistema inicialmente aborda os ‘frutos fáceis’ – pessoas cujos rostos são tão bem indexados em recursos de rede pública que identificá-las é relativamente trivial, combinando metadados ou texto OCR’d em vídeos contra recursos de dados públicos, como listas do IMDB. O texto interpretado por IA em legendas de vídeo, créditos e outras formas de texto rasterizado em vídeo também é utilizado para fazer a identificação.

Nomes de candidatos para busca podem ser auto-descobertos pelo sistema, com base em reconhecimento óptico de caracteres de texto rasterizado, ou de texto real em outras fontes, como listas de elenco. Assim, as pessoas podem ser indexadas automaticamente sem que os usuários finais realizem consultas anteriores contra seus nomes, e sem participação prévia em redes sociais habilitadas por IA. Source: https://www.robots.ox.ac.uk/~vgg/publications/2021/Brown21/brown21.pdf
Onde imagens e vídeos na internet confirmam a identidade da pessoa, a investigação afirma uma identidade. Mas onde a pessoa é mais obscura, outros métodos são utilizados, incluindo áudio tirado de faixas de vídeo, que pode ser usado como confirmação corroboração de uma identidade. Embora não seja abordado no trabalho, logicamente não há nada que impeça um quadro desta natureza de também utilizar fontes de áudio puro, bem como componentes de áudio em vídeo.
Um Panóptico de Identidade Auto-Propagante
Além de gerar nomes de candidatos a partir de texto rasterizado ou puro, tecnologias de reconhecimento de fala são usadas no projeto de Oxford para reconhecer nomes que são meramente pronunciados em conteúdo de áudio. Assim, uma identidade pode ser inicializada por uma ou duas pessoas que mencionam uma terceira pessoa que não está presente.
A salvaguarda que o projeto de Oxford introduz é que o candidato deve aparecer no banco de dados do IMDB, mas remover essa estipulação arbitrária amplia consideravelmente o escopo das capacidades do sistema, uma vez que ele depende inteiramente de recursos raspáveis da web.

Portanto, com uma combinação de fontes, incluindo nomes derivados de texto rasterizado, texto real, menções baseadas em fala e material visual muito limitado, torna-se possível identificar indivíduos com uma presença de rede visual baixa.
Tecnicamente, também se torna possível construir um perfil de um indivíduo ao qual nenhuma imagem ou vídeo foi associado, mas ao qual uma imagem ou vídeo pode ser eventualmente anexado quando outros fatores se correlacionam com uma nova fonte de vídeo.
Conjuntos de Dados de Teste
Os pesquisadores usaram três conjuntos de dados para avaliar a eficácia do sistema: MediaEval, que apresenta recursos de mídia social derivados da Creative Commons e da comunidade (incluindo Wikipedia e Flickr) capturados entre 2010-2015; o próprio conjunto de dados Sherlock do grupo de Oxford, de 2017, que apresenta dados de vídeo anotados do popular programa de TV da BBC; e um novo conjunto de dados de vídeos da BBC criado especificamente para o projeto, que usa várias filmagens de notícias anotadas da BBC.

O sistema tem sucesso em uma ampla gama de ambientes de conjunto de dados, incluindo ocasiões em que o rosto é ocultado por reflexos ou escuridão.
O processo também utiliza classificações de busca de imagem ao vivo.
Os resultados do sistema produziram alta precisão nos três modelos. No caso do conjunto de dados Sherlock, os pesquisadores ficaram surpresos ao descobrir que o novo sistema melhorou 3-6% sobre um método anterior que usava máquinas de vetores de suporte (SVMs) em um classificador multi-caminho, embora o classificador de vizinho mais próximo usado no novo trabalho seja uma ferramenta menos poderosa.
Implicações
A maioria das restrições éticas ou práticas no projeto de Oxford são auto-impostas pelos pesquisadores, como definir ‘fama’ pelo requisito de que as identidades descobertas tenham uma presença no IMDB, e testar o sistema apenas contra conjuntos de dados acadêmicos estabelecidos que respeitam a licença Creative Commons.
No entanto, a arquitetura essencial do projeto descreve um método genérico para não apenas identificar ‘pessoas obscuras’ que têm presença visual baixa ou zero na internet (já que a menção de um nome pode gerar um token de identidade que pode ser desenvolvido com o tempo, conforme necessário), mas para criar uma matriz de indivíduos que é impulsionada por nada mais do que curiosidade recursiva e mecanicista, em vez de por demanda, ou pela presença explícita de dados rotulados (como uploads de fotos de mídia social que contenham metadados PII).
O projeto não usa dados de geolocalização, ou outras formas de metadados amplamente disponíveis que possam ser encontrados em documentos contribuintes, como informações de localização geográfica incorporadas por padrão em uploads para mídia social (onde esses não são removidos como uma preferência do usuário). No entanto, não há obstáculo aparente para usar essas dimensões adicionais de dados para fortalecer o processo corroboração.
Enquanto o projeto de Oxford poda valores atípicos (identidades que têm presença quase zero, além de não estarem listadas no IMDB) de uma maneira que é comum em projetos de aprendizado de máquina, essa informação mínima pode argumentar-se que identifica uma pessoa desconhecida mais eficazmente do que aconteceria se uma quantidade maior de informações representativas sobre ela estivesse disponível. Se os valores atípicos são exatamente o que você está procurando (ou seja, indivíduos com uma pegada de rede pequena), dados esparsos podem ser altamente indicativos.
Disponibilidade
Os pesquisadores de Oxford encapsularam a funcionalidade do projeto em um mecanismo de busca semelhante ao do Google que pode ser baixado e instalado em uma máquina local via Docker (embora as instruções de instalação para o artigo de maio de 2021 contenham informações desatualizadas para um requisito de Ferramentas Docker, o que pode dificultar o processo).
Aparentemente, não há uma versão online ao vivo que abranja a implementação do projeto em todos os três conjuntos de dados, embora os resultados para o conjunto de dados de notícias da BBC possam ser livremente interrogados em http://zeus.robots.ox.ac.uk/bbc_search/.














