Inteligência artificial

Usando IA para resumir longos vídeos de "como fazer"

Atualização do on 9 de dezembro de 2022

Imagem principal: DALL-E 2

Se você é do tipo que aumenta a velocidade de um vídeo de instruções do YouTube para obter as informações que realmente deseja; consulte a transcrição do vídeo para obter as informações essenciais ocultas nos longos tempos de execução, muitas vezes carregados de patrocinadores; ou então espero que o WikiHow tenha conseguido criar uma versão menos demorada das informações no vídeo instrucional; então um novo projeto da UC Berkeley, Google Research e Brown University pode ser do seu interesse.

Intitulado TL;DW? Resumindo Vídeos Instrucionais com Relevância de Tarefas e Saliência Modal Cruzada, novo papel detalha a criação de um sistema de resumo de vídeo auxiliado por IA que pode identificar as etapas pertinentes do vídeo e descartar todo o resto, resultando em breves resumos que vão direto ao ponto.

A exploração do WikiHow de longos videoclipes existentes para informações de texto e vídeo é usada pelo projeto IV-Sum para gerar resumos falsos que fornecem a verdade básica para treinar o sistema. Fonte: https://arxiv.org/pdf/2208.06773.pdf

Os resumos resultantes têm uma fração do tempo de execução do vídeo original, enquanto informações multimodais (ou seja, baseadas em texto) também são registradas durante o processo para que sistemas futuros possam potencialmente automatizar a criação de postagens de blog no estilo WikiHow que são capazes de analisar automaticamente um prolixo vídeo de instruções em um artigo curto sucinto e pesquisável, completo com ilustrações, potencialmente economizando tempo e frustração.

O novo sistema chama-se IV-Soma ('Instructional Video Summarizer'), e usa o código aberto ResNet-50 algoritmo de reconhecimento de visão computacional, entre várias outras técnicas, para individualizar quadros e segmentos pertinentes de um vídeo de origem extenso.

O fluxo de trabalho conceitual para IV-Sum.

O sistema é treinado em pseudo-resumos gerados a partir da estrutura de conteúdo do site WikiHow, onde pessoas reais muitas vezes aproveitam vídeos instrutivos populares em um formato multimídia baseado em texto mais simples, frequentemente usando clipes curtos e GIFs animados retirados de vídeos instrutivos de origem.

Discutindo o uso do projeto de resumos do WikiHow como fonte de dados de verdade para o sistema, os autores afirmam:

'Cada artigo no Vídeos do WikiHow O site consiste em um vídeo instrucional principal demonstrando uma tarefa que geralmente inclui conteúdo promocional, clipes do instrutor falando para a câmera sem nenhuma informação visual da tarefa e etapas que não são cruciais para a execução da tarefa.

'Os espectadores que desejam uma visão geral da tarefa preferem um vídeo mais curto sem todas as informações irrelevantes mencionadas acima. Os artigos do WikiHow (por exemplo, veja Como fazer arroz de sushi) contêm exatamente isso: texto correspondente que contém todas as etapas importantes no vídeo listado com imagens/clipes que ilustram as várias etapas da tarefa.'

O banco de dados resultante desse web-scraping é chamado Resumos do WikiHow. O banco de dados consiste em 2,106 vídeos de entrada e seus resumos relacionados. Este é um tamanho de conjunto de dados notavelmente maior do que o normalmente disponível para projetos de resumo de vídeo, que normalmente exigem rotulagem e anotação manuais caras e trabalhosas - um processo que foi amplamente automatizado no novo trabalho, graças ao âmbito mais restrito de resumo vídeos instrutivos (em vez de gerais).

IV-Sum aproveita representações temporais de redes neurais convolucionais 3D, em vez das representações baseadas em quadros que caracterizam trabalhos semelhantes anteriores, e um estudo de ablação detalhado no artigo confirma que todos os componentes desta abordagem são essenciais para a funcionalidade do sistema.

O IV-Sum foi testado favoravelmente contra várias estruturas comparáveis, incluindo CLIP-It (no qual vários dos autores do artigo também trabalharam).

IV-Sum pontua bem contra métodos comparáveis, possivelmente devido ao seu escopo de aplicação mais restrito, em comparação com a execução geral de iniciativas de resumo de vídeo. Detalhes de métricas e métodos de pontuação mais abaixo neste artigo.

Forma

A primeira etapa do processo de resumo envolve o uso de um algoritmo de esforço relativamente baixo e pouco supervisionado para criar pseudo-resumos e pontuações de importância por quadro para um grande número de vídeos instrutivos copiados da web, com apenas um único rótulo de tarefa em cada vídeo.

Em seguida, uma rede de sumarização instrucional é treinada nesses dados. O sistema usa a fala transcrita automaticamente (por exemplo, as próprias legendas geradas por IA do YouTube para o vídeo) e o vídeo de origem como entrada.

A rede compreende um codificador de vídeo e um transformador de pontuação de segmento (SST), e o treinamento é guiado pelas pontuações de importância atribuídas nos pseudo-resumos. O resumo final é criado pela concatenação dos segmentos que alcançaram uma alta pontuação de importância.

Do papel:

'A principal intuição por trás do nosso pipeline de geração de pseudo resumo é que, dados muitos vídeos de uma tarefa, as etapas que são cruciais para a tarefa provavelmente aparecerão em vários vídeos (relevância da tarefa).

'Além disso, se uma etapa é importante, é normal que o demonstrador fale sobre essa etapa antes, durante ou depois de realizá-la. Portanto, as legendas para o vídeo obtidas usando o Reconhecimento Automático de Fala (ASR) provavelmente farão referência a essas etapas principais (saliência modal cruzada).'

Para gerar o pseudo-resumo, o vídeo é primeiro particionado uniformemente em segmentos e os segmentos agrupados com base em sua semelhança visual em 'etapas' (cores diferentes na imagem acima). Essas etapas recebem pontuações de importância com base na 'relevância da tarefa' e na 'saliência modal cruzada' (ou seja, a correlação entre o texto ASR e as imagens). Passos de alta pontuação são então escolhidos para representar estágios no pseudo-resumo.

O sistema usa Saliência entre modais para ajudar a estabelecer a relevância de cada etapa, comparando a fala interpretada com as imagens e ações do vídeo. Isso é feito pelo uso de um modelo de vídeo-texto pré-treinado, onde cada elemento é treinado conjuntamente sob perda MIL-NCE, usando um Codificador de vídeo 3D CNN desenvolvido por, entre outros, DeepMind.

Uma pontuação de importância geral é então obtida a partir de uma média calculada desses estágios de relevância da tarefa e análise intermodal.

Data

Um conjunto de dados de pseudo-resumo inicial foi gerado para o processo, compreendendo a maior parte do conteúdo de dois conjuntos de dados anteriores – MOEDA, um conjunto de 2019 contendo 11,000 vídeos relacionados a 180 tarefas; e Tarefa cruzada, que contém 4,700 vídeos instrutivos, dos quais 3,675 foram utilizados na pesquisa. Cross-Task apresenta 83 tarefas diferentes.

Acima, exemplos de COIN; abaixo, de Cross-Task. Fontes, respectivamente: https://arxiv.org/pdf/1903.02874.pdf e https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

Usando vídeos que aparecem em ambos os conjuntos de dados apenas uma vez, os pesquisadores conseguiram obter 12,160 vídeos abrangendo 263 tarefas diferentes e 628.53 horas de conteúdo para seu conjunto de dados.

Para preencher o conjunto de dados baseado no WikiHow e fornecer a verdade básica para o sistema, os autores coletaram vídeos do WikiHow para todos os vídeos instrutivos longos, juntamente com suas imagens e videoclipes (ou seja, GIFs) associados a cada etapa. Assim, a estrutura do conteúdo derivado do WikiHow serviria como modelo para a individualização das etapas do novo sistema.

Os recursos extraídos via ResNet50 foram usados para comparar as seções de vídeo escolhidas a dedo nas imagens do WikiHow e executar a localização das etapas. A imagem obtida mais semelhante em uma janela de vídeo de 5 segundos foi usada como ponto de ancoragem.

Esses clipes mais curtos foram então agrupados em vídeos que comporiam a verdade básica para o treinamento do modelo.

Rótulos foram atribuídos a cada quadro no vídeo de entrada, para declarar se eles pertenciam ao resumo de entrada ou não, com cada vídeo recebendo dos pesquisadores um rótulo binário em nível de quadro e uma pontuação média de resumo obtida por meio das pontuações de importância para todos os quadros no segmento.

Nesta fase, os 'passos' em cada vídeo instrucional foram agora associados a dados baseados em texto e rotulados.

Treinamento, testes e métricas

O conjunto de dados final do WikiHow foi dividido em 1,339 vídeos de teste e 768 vídeos de validação – um aumento notável no tamanho médio dos conjuntos de dados não brutos dedicados à análise de vídeo.

Os codificadores de vídeo e texto na nova rede foram treinados em conjunto em um S3D rede com pesos carregados de um pré-treinado Como fazer 100 milhões modelo sob perda MIL-NCE.

O modelo foi treinado com o otimizador Adam a uma taxa de aprendizado de 0.01 em um tamanho de lote de 24, com o link Distributed Data Parallel distribuindo o treinamento em oito GPUs NVIDIA RTX 2080, para um total de 24 GB de VRAM distribuído.

O IV-Sum foi então comparado com vários cenários para o CLIP-It de acordo com semelhante prévio obras, incluindo um estudo sobre o CLIP-It. As métricas usadas foram valores de Precisão, Recall e F-Score, em três linhas de base não supervisionadas (consulte o artigo para obter detalhes).

Os resultados estão listados na imagem anterior, mas os pesquisadores observam adicionalmente que o CLIP-It perde uma série de etapas possíveis em vários estágios dos testes, o que o IV-Sum não faz. Eles atribuem isso ao CLIP-It ter sido treinado e desenvolvido usando conjuntos de dados notavelmente menores do que o novo corpus do WikiHow.

Implicações

O valor discutível a longo prazo dessa linha de pesquisa (que o IV-Sum compartilha com o desafio mais amplo da análise de vídeo) pode ser tornar os videoclipes instrutivos mais acessíveis à indexação convencional do mecanismo de pesquisa e permitir o tipo de redução 'snippet' nos resultados para vídeos que o Google frequentemente extrai de um artigo convencional mais longo.

Obviamente, o desenvolvimento de qualquer O processo auxiliado por IA que reduz nossa obrigação de aplicar atenção linear e exclusiva ao conteúdo de vídeo pode ter ramificações para o apelo do meio a uma geração de profissionais de marketing para quem a opacidade do vídeo talvez seja a única maneira de nos envolver exclusivamente.

Com a localização do conteúdo 'valioso' difícil de definir, o vídeo de contribuição do usuário tem desfrutado de uma ampla (embora relutante) indulgência dos consumidores de mídia em relação à colocação de produtos, slots de patrocinadores e o auto-engrandecimento geral em que a proposta de valor de um vídeo é tantas vezes formulado. Projetos como o IV-Sum prometem que eventualmente as subfacetas do conteúdo de vídeo se tornarão granulares e separáveis do que muitos consideram ser o 'lastro' da publicidade no conteúdo e da improvisação sem conteúdo.

Publicado pela primeira vez em 16 de agosto de 2022. Atualizado às 2.52h16 de XNUMX de agosto, frase duplicada removida.

Tópicos relacionados:Visão de Computador pesquisa vídeo

A seguir

Big Data x Small Data: principais diferenças

Não Perca

Como contratar um cientista de dados (maio de 2024)

Martin Anderson

Escritor sobre aprendizado de máquina, inteligência artificial e big data.
Site pessoal: martinanderson.ai
Contato: [email protegido]
Twitter: @manders_ai