Ângulo de Anderson

A Inteligência Artificial Pode Adivinhar o Ano de uma Foto Com base na Idade das Pessoas

Published November 10, 2025

Updated April 25, 2026

Martin Anderson

An image from the source paper 'Photo Dating by Facial Age Aggregation', overlaid against an image of a desk surface with a 1974 calendar on it. Source: eBay and Source paper + Firefly V3.

Pesquisas recentes mostram que a inteligência artificial pode usar os rostos das pessoas para estimar o ano em que uma foto foi tirada, combinando palpites de idade com anos de nascimento conhecidos para superar os métodos baseados em cenas atuais.

Adivinhar a data de uma foto costumava ser um pouco mais fácil do que é agora, porque os estilos de cabelo e moda evoluíam a uma velocidade vertiginosa. Por razões muito debatidas, essa evolução do estilo visual terminou há cerca de trinta anos, o que significa que não é mais tão fácil olhar para um penteado ou itens de roupa e adivinhar o ano com base nesse tipo de pista visual.

Por algum tempo, foi possível datar imagens e filmes com base na resolução de cor e características de grão do filme. Não era necessário ser um especialista forense; se você assistisse a enough filmes antigos, as pistas culturais (como música, carros, moda, tópicos, etc.) eventualmente se tornariam associadas, pelo espectador, a estilos de estoque de filme:

Uma ilustração de como as melhorias no estoque de filme expandiram gradualmente a gama de tons de pele e estilos de iluminação ao longo do tempo, passando de configurações planas e frontais para looks mais naturalistas e variados. Fonte (meu próprio artigo)

Um anchor adicional para datar uma fotografia era se ela estava em preto e branco – uma economia que se tornou redundante após a popularização da fotografia digital no início deste século

Vários sistemas comerciais e experimentais, como o PhotoDater da MyHeritage, que vem com uma assinatura, tentam datar fotos usando esses e outros critérios diversos.

Um exemplo de estimativa de idade de foto, do serviço PhotoDater da MyHeritage, disponível apenas para assinantes. Fonte

Ausentes outras pistas óbvias, como smartphones ou outras tecnologias específicas de uma era, a melhor maneira de determinar a idade de uma foto tirada nos últimos 15-25 anos é se você estiver familiarizado com a pessoa (ou seja, um celebridade, ou talvez um conhecido), e pode estimar sua idade, o que rende um ano aproximado.

Idade Facial como Referência

No campo da visão computacional, e em vários outros campos (ou seja, forenses, processamento de arquivos, jornalismo, arquitetura de conjunto de dados, etc.), a capacidade de determinar a idade de uma foto é um objetivo valioso, desde que muitas das coleções digitais e analógicas mais interessantes carecem de anotações e metadados adequados, ou até mesmo têm metadados incorretos de palpites anteriores (errados).

Portanto, seria útil se um sistema de inteligência artificial pudesse revisar fotos da mesma maneira que fazemos quando olhamos para nossas coleções históricas, e comentar ‘Oh sim, foi quando…’. A questão é, o que poderia ser o gancho, ausentes as pistas habituais?

Um novo artigo de pesquisa da República Tcheca está oferecendo um ponto de partida inicial para essa abordagem, explorando sistemas de reconhecimento de idade baseados em inteligência artificial, em conjunto com sistemas de reconhecimento facial vinculados a um banco de dados comum de identidades (neste caso, uma coleção de estilo IMDB, com performers e cineastas tchecos):

Um quadro de ‘Joachim, Coloque-o na Máquina’ (1974), usado para ilustrar o processo de datação. O modelo detecta indivíduos conhecidos na foto, estima sua idade usando um estimador de idade facial (coluna da direita), e subtrai esse valor do ano de nascimento de cada pessoa para gerar uma distribuição de probabilidade sobre datas de foto possíveis. Os gráficos mostram a probabilidade de cada estimativa de idade, com linhas tracejadas marcando a idade real da pessoa no momento da foto. Fonte

O sistema funciona detectando indivíduos conhecidos em uma foto, estimando sua idade facial usando um modelo pré-treinado, e subtraindo essa estimativa do seu ano de nascimento documentado para gerar datas prováveis para a foto. Quando múltiplas faces estão presentes, as estimativas de data são agregadas para produzir uma previsão final.

O método foi testado em imagens curadas do Banco de Dados de Filmes Tcheco-Eslovaco (CSFD), com a abordagem resultante, os autores afirmam, oferecendo consistentemente melhor precisão do que os modelos baseados em cenas (modelos estáticos que confiam em elementos de fundo ou contexto visual, em vez de faces) treinados nos mesmos dados.

O esquema para esse método exige um banco de dados central que contenha conhecimento de um amplo grupo de indivíduos; mas qualquer coleção semelhante que apresente datas de nascimento confirmadas e eventos centrais confirmados poderia produzir um resultado semelhante.

O artigo afirma:

‘Unicamente, nosso conjunto de dados fornece anotações para vários indivíduos dentro de uma única imagem, permitindo o estudo da agregação de informações de múltiplas faces. Propomos um quadro probabilístico que combina formalmente evidências visuais de modelos de reconhecimento facial e estimativa de idade modernos, e priores temporais baseados em carreira para inferir o ano de captura da foto.

‘Nossos experimentos demonstram que agregar evidências de múltiplas faces melhora consistentemente o desempenho e a abordagem supera significativamente as linhas de base baseadas em cenas, particularmente para imagens que contêm vários indivíduos identificáveis.’

O novo artigo é intitulado Datação de Fotos por Agregação de Idade Facial, e vem de dois pesquisadores da Universidade Técnica da República Tcheca, em Praga, com a promessa de um lançamento posterior de código e dados.

Método

Para estimar quando uma foto foi tirada, o novo sistema do autor olha para cada rosto detectado e tenta adivinhar quem pode ser, usando o banco de dados mencionado de pessoas conhecidas. Desde que uma pessoa só pode aparecer uma vez em uma foto, o sistema verifica todas as combinações possíveis de identidades e usa seus anos de nascimento conhecidos para adivinhar quantos anos cada pessoa parece ter.

Depois disso, ele trabalha de trás para frente para estimar o ano mais provável que faria essas idades se alinharem:

Esquerda: o sistema constrói uma linha do tempo mostrando quando os indivíduos reconhecidos estavam mais ativos, com base em suas carreiras conhecidas. Direita: isso é combinado com estimativas de idade facial para produzir uma suposição final de quando a imagem foi tirada.

Para gerenciar as muitas combinações possíveis de identidade, o sistema assume que as faces são independentes, e que a aparência de cada uma depende apenas de sua identidade e da data da foto.

Para estimar quando uma foto foi tirada, o sistema primeiro adivinha a idade de cada rosto detectado usando o modelo cvut-002 do NIST, que é baseado em uma arquitetura ViT-B/16, e treinado em um conjunto de dados privado (que, os autores afirmam, é classificado altamente no banco de dados de Avaliação de Tecnologia de Análise de Rostos (FATE) do NIST).

Uma vez que o ano de nascimento da pessoa é conhecido, o modelo converte a estimativa de idade em um ano de foto provável, adicionando a idade ao ano de nascimento, resultando em uma distribuição de probabilidade sobre anos de captura possíveis. Para avaliar como bem um rosto detectado corresponde a uma identidade conhecida, o sistema compara seus embeddings no espaço ArcFace:

ArcFace, a arquitetura central contribuinte para o modelo InsightFace agora popular, foi lançada em 2015, destinada a se tornar um projeto influente em avaliação e avaliação facial. Fonte

Cada identidade é representada por um embedding médio construído a partir de seus retratos de referência. A semelhança entre um rosto de teste e uma identidade é então medida usando uma Distribuição de Von Mises Fisher, que modela como os retratos de uma identidade se agrupam em torno desse embedding médio. Um parâmetro de nitidez compartilhado controla quão confiante o sistema está nesses clusters, e é estimado usando uma estratégia de deixar um fora nos retratos de identidade.

O modelo define cinco tipos de priores para estimar quando uma pessoa reconhecida pode aparecer em uma foto: uniforme; década; filme; imagem; e um prior de combinação convexa que mistura as opções mais fortes e mais fracas, para testar a sensibilidade à força do prior (ou seja, a resiliência dos priores sob estresse).

Para lidar com faces que não podem ser identificadas com confiança, o modelo inclui um fallback de identidade ‘desconhecida’ com distribuições não informativas, apresentando uma probabilidade de face que é plana no espaço de embedding, e um prior temporal plano em todos os anos. Isso permite que faces incertas sejam ignoradas sem viés na estimativa final de data:

Desempenho do modelo completo em condições de conjunto aberto, onde faces conhecidas e desconhecidas aparecem na mesma imagem. O Erro Médio Absoluto (EMA) aumenta com o número de identidades desconhecidas, mas melhora consistentemente à medida que mais identidades conhecidas estão disponíveis para ancorar a linha do tempo. O tamanho de cada quadrado indica a contagem de amostras, revelando que as configurações de baixo erro também dominam a distribuição do conjunto de dados.

Como o desempenho é afetado quando algumas faces em uma imagem não podem ser identificadas. Cada quadrado mostra o erro médio de datação para diferentes números de identidades conhecidas e desconhecidas, com o tamanho do quadrado refletindo quão comum é essa combinação no conjunto de dados. O erro aumenta com mais desconhecidos, mas cai consistentemente à medida que mais identidades conhecidas são adicionadas.

Dados e Testes

Os autores usaram o conjunto de dados CSFD mencionado para fornecer dados para uma nova coleção que eles intitularam CSFD-1.6M. O conjunto de dados foi construído a partir de cenas que apresentam várias pessoas, com cada face rotulada por identidade e ano. Essa estrutura foi necessária para ensinar o modelo como as faces se relacionam entre si no contexto; conjuntos de dados de uma única face, como IMDB-WIKI, não suportam isso, pois rotulam apenas uma pessoa por imagem.

Os anos de lançamento de filmes do Banco de Dados de Filmes Tcheco-Eslovaco foram usados para estimar quando cada foto foi tirada, com cada pessoa na imagem correspondendo a um perfil público que apresenta seu ano de nascimento e um retrato.

Posteriormente, cada face na imagem foi correspondida a uma das identidades conhecidas, inicialmente usando ArcFace para criar embeddings faciais, e computando um embedding médio para cada identidade.

Depois disso, o algoritmo húngaro foi usado para atribuir faces a identidades, comparando a semelhança do embedding, com ajustes feitos quando o número de faces detectadas via o framework SCRFD-10GE não correspondia ao número de indivíduos conhecidos.

Estatísticas do conjunto de dados CSFD-1.6M, detalhando imagens raspadas, faces detectadas, combinações de identidade, amostras anotadas finais e o pool de identidade disponível.

As correspondências foram rejeitadas se a semelhança fosse muito baixa ou se a idade estimada diferisse muito do ano de nascimento conhecido, com maior tolerância permitida para sujeitos mais velhos, e as faces não foram filtradas por qualidade ou tamanho.

Os autores observam a superioridade de seu conjunto curado sobre o do conjunto de dados mais comparável, IMDB-WIKI:

‘Nosso conjunto de dados não é apenas substancialmente maior, mas, criticamente, consiste em cenas de múltiplas pessoas necessárias para nosso modelo. Embora nenhum conjunto de dados raspado da web esteja livre de ruído de rótulo, nossa pipeline de anotação aproveita os links explícitos entre imagens e perfis de identidade fornecidos pelo banco de dados, visando atribuições de identidade de maior qualidade.’

Sua avaliação comparou várias versões do sistema de datação, para entender de onde vinham os ganhos. Um modelo supôs um conhecimento perfeito de quem estava na imagem, fornecendo um limite superior para o desempenho, removendo qualquer incerteza no reconhecimento de identidade, com o modelo completo, então, estimando identidades e datas conjuntamente, pesando diferentes atribuições de identidade possíveis antes de chegar a uma estimativa final de ano.

Uma variante mais simples selecionou a configuração de identidade mais provável sem marginalizar as alternativas, o que provou ser quase tão eficaz na prática.

Em contraste, a linha de base mais básica atribuiu cada face independentemente e combinou as estimativas de ano resultantes com base na idade, sem considerar se as identidades coletivas faziam sentido.

Para testar o quanto o método se beneficiava do uso de faces, um modelo separado foi treinado para estimar a data diretamente da cena inteira. Esse modelo baseado em cena constitui a abordagem alternativa mais forte atualmente usada na estimativa de data de imagem, pois pode aprender padrões visuais específicos de era em toda a imagem, em vez de confiar na identidade ou idade.

Métricas e Dados

O Erro Médio Absoluto (EMA) entre o ano previsto e o valor de referência conhecido foi a métrica central para os experimentos.

Os dados foram divididos em cinco partes, com cuidado para garantir que todas as imagens do mesmo filme fossem mantidas dentro de uma única partição. Três dessas partes foram usadas para treinamento, uma para validação e uma para teste. Essa rotação de cinco partes foi aplicada para evitar sobreajuste.

Como os modelos baseados em faces não foram treinados nesse conjunto de dados, nenhuma divisão foi necessária, e em vez disso, eles foram avaliados diretamente no conjunto completo CSFD-1.6M.

O Cena modelo foi treinado por 200 épocas sob o otimizador Adam, com imagens redimensionadas para uma cortada de 384×384.

Resultados

A seção de resultados do artigo é dividida de forma incomum em vários indicadores de desempenho, sem um único teste central. No entanto, apresentaremos uma seleção dos resultados mais pertinentes aqui.

O resultado mais importante não é um número único, mas um padrão: modelos de agregação facial (especialmente as variantes Completo e Top-1) consistentemente superam a linha de base Cena sempre que duas ou mais identidades conhecidas estão presentes – mesmo que o modelo Cena seja treinado diretamente no conjunto de dados, apoiando a afirmação central de que a datação de identidade vinculada a faces fornece um sinal mais robusto do que a interpretação holística da cena.

Para avaliar o efeito dos priores temporais, os autores compararam várias configurações de seu modelo Completo. O desempenho mais forte foi obtido usando o Prior de Década, que superou significativamente tanto o modelo Ingênuo (que não usa prior temporal) quanto o Prior Uniforme (que supõe nenhuma preferência sobre anos):

Desempenho cai abruptamente para todos os métodos à medida que o número de faces aumenta, mas os modelos que usam priores temporais realistas, como o Prior de Década, são afetados muito menos. As linhas de base Naive e Scene permanecem planas ou se deterioram com grupos maiores, enquanto o modelo Completo guiado por priores informativos mantém um erro baixo. Os priores baseados em oráculo, que dependem de estatísticas do conjunto de teste, definem o limite inferior de desempenho alcançável.

Para demonstrar o valor do CSFD-1.6M além da datação de fotos, o conjunto de dados também foi testado como um recurso de pré-treinamento para a tarefa mais ampla de estimativa de idade facial. Seguindo um protocolo de avaliação padrão, modelos ResNet101 foram pré-treinados no CSFD-1.6M e comparados a contrapartes pré-treinadas no IMDB-WIKI e ImageNet. Esses modelos foram então ajustados e avaliados em cinco benchmarks populares: AgeDB; AFAD, MORPH; UTKFace; e CLAP2016:

Erro médio absoluto (mais ou menos desvio padrão) em cinco benchmarks de estimativa de idade, comparando modelos pré-treinados no ImageNet, IMDB-WIKI e CSFD-1.6M. Valores mais baixos indicam melhor desempenho. O CSFD-1.6M produz os resultados mais fortes em todos os benchmarks.

Em todos os cinco conjuntos de dados, o pré-treinamento no CSFD-1.6M levou a taxas de erro mais baixas, superando as outras duas fontes de pré-treinamento por uma margem clara – uma lacuna de desempenho que provou ser mais forte no AFAD e CLAP2016, mas permaneceu consistente em toda a parte.

Referimos o leitor ao restante da seção de resultados um pouco fragmentada no artigo de origem, que também lida extensivamente com estudos de ablação.

Conclusão

Embora o novo artigo se torne rapidamente denso e inacessível para o leitor casual, o tópico abordado é um dos mais interessantes e relevantes na literatura de visão computacional – não menos porque cruza de forma bastante ágil com antropologia e estudos culturais, onde as constantes são difíceis de determinar.

* Assim como a evolução musical também desacelerou sua taxa de mudança.

Publicado pela primeira vez na segunda-feira, 10 de novembro de 2025