Inteligência artificial
Revelando o SAM 2: O Novo Modelo de Fundação Aberto da Meta para Segmentação de Objetos em Tempo Real em Vídeos e Imagens
Nos últimos anos, o mundo da IA viu avanços notáveis na IA de fundação para processamento de texto, com avanços que transformaram indústrias desde o atendimento ao cliente até a análise jurídica. No entanto, quando se trata de processamento de imagens, estamos apenas arranhando a superfície. A complexidade dos dados visuais e os desafios de treinar modelos para interpretar e analisar imagens com precisão apresentaram obstáculos significativos. À medida que os pesquisadores continuam a explorar a IA de fundação para imagens e vídeos, o futuro do processamento de imagens na IA holds potencial para inovações em saúde, veículos autônomos e além.
A segmentação de objetos, que envolve identificar os pixels exatos em uma imagem que correspondem a um objeto de interesse, é uma tarefa crítica na visão computacional. Tradicionalmente, isso envolvia a criação de modelos de IA especializados, o que exigia infraestrutura extensa e grandes quantidades de dados anotados. No ano passado, a Meta introduziu o Segment Anything Model (SAM), um modelo de IA de fundação que simplifica esse processo, permitindo que os usuários segmentem imagens com um prompt simples. Essa inovação reduziu a necessidade de especialização e recursos computacionais extensos, tornando a segmentação de imagens mais acessível.
Agora, a Meta está levando isso um passo adiante com o SAM 2. Essa nova iteração não apenas melhora as capacidades de segmentação de imagens existentes do SAM, mas também as estende para o processamento de vídeo. O SAM 2 pode segmentar qualquer objeto em imagens e vídeos, mesmo aqueles que não foram encontrados anteriormente. Esse avanço é um salto à frente no reino da visão computacional e do processamento de imagens, fornecendo uma ferramenta mais versátil e poderosa para analisar conteúdo visual. Abaixo, exploramos os avanços emocionais do SAM 2 e seu potencial para redefinir o campo da visão computacional.
Apresentando o Segment Anything Model (SAM)
Os métodos de segmentação tradicionais exigem refinamento manual, conhecido como segmentação interativa, ou dados anotados extensivos para segmentação automática em categorias pré-definidas. O SAM é um modelo de IA de fundação que suporta segmentação interativa usando prompts versáteis como cliques, caixas ou entradas de texto. Ele também pode ser ajustado com dados e recursos computacionais mínimos para segmentação automática. Treinado em mais de 1 bilhão de anotações de imagens diversificadas, o SAM pode lidar com novos objetos e imagens sem precisar de coleta de dados personalizados ou ajuste.
O SAM funciona com dois componentes principais: um codificador de imagem que processa a imagem e um codificador de prompt que lida com entradas como cliques ou texto. Esses componentes se juntam com um decodificador leve para prever máscaras de segmentação. Uma vez que a imagem é processada, o SAM pode criar um segmento em apenas 50 milissegundos em um navegador da web, tornando-o uma ferramenta poderosa para tarefas interativas em tempo real. Para construir o SAM, os pesquisadores desenvolveram um processo de coleta de dados em três etapas: anotação assistida por modelo, uma combinação de anotação automática e assistida, e criação de máscara totalmente automática. Esse processo resultou no conjunto de dados SA-1B, que inclui mais de 1,1 bilhão de máscaras em 11 milhões de imagens licenciadas e de preservação de privacidade — tornando-o 400 vezes maior do que qualquer conjunto de dados existente. O desempenho impressionante do SAM decorre desse conjunto de dados extenso e diversificado, garantindo melhor representação em várias regiões geográficas em comparação com conjuntos de dados anteriores.
Revelando o SAM 2: Um Salto da Segmentação de Imagens para Vídeos
Com base na fundação do SAM, o SAM 2 é projetado para segmentação de objetos em tempo real e promptável em imagens e vídeos. Ao contrário do SAM, que se concentra apenas em imagens estáticas, o SAM 2 processa vídeos tratando cada quadro como parte de uma sequência contínua. Isso permite que o SAM 2 lidere com cenas dinâmicas e conteúdo em mudança de forma mais eficaz. Para a segmentação de imagens, o SAM 2 não apenas melhora as capacidades do SAM, mas também opera três vezes mais rápido em tarefas interativas.
O SAM 2 retém a mesma arquitetura do SAM, mas introduz um mecanismo de memória para processamento de vídeo. Essa característica permite que o SAM 2 mantenha informações de quadros anteriores, garantindo segmentação de objetos consistente apesar de mudanças de movimento, iluminação ou oclusão. Referenciando quadros anteriores, o SAM 2 pode refinar suas previsões de máscara ao longo do vídeo.
O modelo é treinado em um novo conjunto de dados desenvolvido, conjunto de dados SA-V, que inclui mais de 600.000 anotações de máscaras em 51.000 vídeos de 47 países. Esse conjunto de dados diversificado cobre tanto objetos inteiros quanto suas partes, melhorando a precisão do SAM 2 na segmentação de vídeos do mundo real.
O SAM 2 está disponível como um modelo de código aberto sob a licença Apache 2.0, tornando-o acessível para vários usos. A Meta também compartilhou o conjunto de dados usado para o SAM 2 sob uma licença CC BY 4.0. Além disso, há uma demonstração baseada na web que permite que os usuários explorem o modelo e vejam como ele se sai.
Casos de Uso Potenciais
As capacidades do SAM 2 em segmentação de objetos em tempo real e promptável para imagens e vídeos desbloquearam numerousas aplicações inovadoras em diferentes campos. Por exemplo, algumas dessas aplicações são as seguintes:
- Diagnósticos de Saúde: O SAM 2 pode melhorar significativamente a assistência cirúrgica em tempo real, segmentando estruturas anatômicas e identificando anomalias durante feeds de vídeo ao vivo na sala de operação. Ele também pode melhorar a análise de imagens médicas, fornecendo segmentação precisa de órgãos ou tumores em exames médicos.
- Veículos Autônomos: O SAM 2 pode melhorar os sistemas de veículos autônomos, aumentando a precisão da detecção de objetos por meio da segmentação contínua e do rastreamento de pedestres, veículos e sinais de trânsito em quadros de vídeo. Sua capacidade de lidar com cenas dinâmicas também suporta sistemas de navegação adaptativa e prevenção de colisões, reconhecendo e respondendo a mudanças ambientais em tempo real.
- Mídia Interativa e Entretenimento: O SAM 2 pode melhorar as aplicações de realidade aumentada (AR), segmentando objetos em tempo real e facilitando a mesclagem de elementos virtuais com o mundo real. Ele também beneficia a edição de vídeo, automatizando a segmentação de objetos em footagens, o que simplifica processos como remoção de fundo e substituição de objetos.
- Monitoramento Ambiental: O SAM 2 pode ajudar no rastreamento de vida selvagem, segmentando e monitorando animais em footagens de vídeo, apoiando pesquisas de espécies e estudos de habitats. Em respostas a desastres, ele pode avaliar danos e orientar esforços de resposta, segmentando áreas e objetos afetados em feeds de vídeo.
- Varejo e Comércio Eletrônico: O SAM 2 pode melhorar a visualização de produtos no comércio eletrônico, permitindo a segmentação interativa de produtos em imagens e vídeos. Isso pode dar aos clientes a capacidade de visualizar itens de vários ângulos e contextos. Para gerenciamento de estoque, ele ajuda os varejistas a rastrear e segmentar produtos em prateleiras em tempo real, simplificando o inventário e melhorando o controle de estoque geral.
Superando as Limitações do SAM 2: Soluções Práticas e Melhorias Futuras
Embora o SAM 2 se saia bem com imagens e vídeos curtos, ele tem algumas limitações a considerar para uso prático. Ele pode ter dificuldade em rastrear objetos por meio de mudanças significativas de ponto de vista, oclusões longas ou em cenas movimentadas, especialmente em vídeos estendidos. A correção manual com cliques interativos pode ajudar a resolver essas questões.
Em ambientes movimentados com objetos semelhantes, o SAM 2 pode ocasionalmente identificar incorretamente os alvos, mas prompts adicionais em quadros posteriores podem resolver isso. Embora o SAM 2 possa segmentar vários objetos, sua eficiência diminui porque ele processa cada objeto separadamente. Atualizações futuras poderiam se beneficiar da integração de informações contextuais compartilhadas para melhorar o desempenho.
O SAM 2 também pode perder detalhes finos com objetos em movimento rápido, e as previsões podem ser instáveis entre quadros. No entanto, um treinamento adicional pode abordar essa limitação. Embora a geração automática de anotações tenha melhorado, anotadores humanos ainda são necessários para verificação de qualidade e seleção de quadros, e uma maior automação poderia melhorar a eficiência.
A Linha de Fundo
O SAM 2 representa um salto significativo à frente na segmentação de objetos em tempo real para imagens e vídeos, construindo sobre a fundação estabelecida por seu antecessor. Ao melhorar as capacidades e estender a funcionalidade para conteúdo de vídeo dinâmico, o SAM 2 promete transformar uma variedade de campos, desde saúde e veículos autônomos até mídia interativa e varejo. Embora desafios permaneçam, particularmente no tratamento de cenas complexas e movimentadas, a natureza de código aberto do SAM 2 encoraja a melhoria contínua e a adaptação. Com seu desempenho poderoso e acessibilidade, o SAM 2 está pronto para impulsionar inovações e expandir as possibilidades na visão computacional e além.








