toco O que é a pesquisa de similaridade de vetores e como ela é útil? - Unite.AI
Entre em contato
Masterclass de IA:

AI 101

O que é a pesquisa de similaridade de vetores e como ela é útil?

mm
Atualização do on
pesquisa de similaridade de vetores

A pesquisa de dados moderna é um domínio complexo. A pesquisa de similaridade vetorial, ou VSS, representa dados com profundidade contextual e retorna informações mais relevantes para os consumidores em resposta a uma consulta de pesquisa. Vamos dar um exemplo simples. 

Consultas de pesquisa como “ciência de dados” e “ficção científica” referem-se a diferentes tipos de conteúdo, apesar de ambos terem uma palavra em comum (“ciência”). Uma técnica de pesquisa tradicional combinaria frases comuns para retornar resultados relevantes, o que seria impreciso nesse caso. A pesquisa de similaridade de vetor consideraria a intenção de pesquisa real e o significado dessas consultas de pesquisa para retornar uma resposta mais precisa.

Este artigo discutirá vários aspectos da pesquisa de similaridade vetorial, como seus componentes, desafios, benefícios e casos de uso. Vamos começar.

O que é Pesquisa de Similaridade de Vetores (VSS)?

A pesquisa por similaridade vetorial encontra e recupera informações contextualmente semelhantes de grandes coleções de dados estruturados ou não estruturados, transformando-os em representações numéricas conhecidas como vetores ou embeddings.

VSS pode gerenciar uma variedade de formatos de dados, incluindo numérico, categórico, textual, imagem e vídeo. Ele converte cada objeto em um corpus de dados em uma representação vetorial de alta dimensão correspondente ao seu formato relevante (discutido na próxima seção). 

Mais comumente, o VSS localiza objetos comparáveis, como frases ou parágrafos semelhantes, ou localiza imagens relacionadas em vastos sistemas de recuperação de imagens. Grandes empresas de consumo como Amazon, eBay e Spotify usam essa tecnologia para melhorar os resultados de pesquisa para milhões de usuários, ou seja, fornecer conteúdo relevante que os usuários provavelmente gostariam de comprar, assistir ou ouvir.

Três componentes principais da pesquisa de similaridade de vetores

Antes de entendermos como a busca por similaridade de vetores funciona, vamos ver seus principais componentes. Basicamente, existem três componentes essenciais para a implementação de uma metodologia VSS eficaz:

  1. Embeddings vetoriais: Embeddings representam diferentes tipos de dados em um formato matemático, ou seja, uma matriz ordenada ou um conjunto de números. Eles identificam padrões nos dados usando cálculos matemáticos.
  2. Métricas de distância ou similaridade: são funções matemáticas que calculam o quão semelhantes ou intimamente relacionados são dois vetores.
  3. Algoritmos de pesquisa: os algoritmos ajudam a encontrar vetores semelhantes a uma determinada consulta de pesquisa. Por exemplo, Vizinhos mais próximos ou o algoritmo KNN é freqüentemente usado em sistemas de pesquisa habilitados para VSS para determinar K vetores em um conjunto de dados que são mais semelhantes a uma determinada consulta de entrada.

Agora, vamos discutir como esses componentes funcionam em um sistema de busca.

Como funciona a pesquisa por similaridade de vetores?

A primeira etapa na implementação da pesquisa de similaridade vetorial é representar ou descrever objetos no corpus de dados como incorporações de vetores. Ele usa diferentes métodos de incorporação de vetores, como Luva, Word2vec e BERT, para mapear objetos para o espaço vetorial. 

Para cada formato de dados, como texto, áudio e vídeo, o VSS cria diferentes modelos de incorporação, mas o resultado final desse processo é uma representação de matriz numérica. 

A próxima etapa é criar um índice que possa organizar objetos semelhantes usando essas representações numéricas. Um algoritmo como o KNN serve como base para implementar a similaridade de pesquisa. No entanto, para indexar termos semelhantes, os sistemas de busca usam abordagens modernas, como Hashing sensível à localidade (LSH) e Vizinho mais próximo aproximado (ANNOY)

Além disso, os algoritmos VSS calculam uma medida de similaridade ou distância, como distância euclidiana, similaridade de cosseno ou similaridade de Jaccard, para comparar todas as representações vetoriais na coleta de dados e retornar conteúdo semelhante em resposta a uma consulta do usuário.

Principais desafios e benefícios da pesquisa por similaridade de vetores

No geral, o objetivo é encontrar características comuns entre os objetos de dados. No entanto, este processo apresenta vários desafios potenciais.

Principais Desafios da Implementação do VSS

  • Diferentes técnicas de incorporação de vetores e medidas de similaridade apresentam resultados diferentes. Escolher as configurações apropriadas para sistemas de busca por similaridade é o principal desafio.
  • Para grandes conjuntos de dados, o VSS é computacionalmente caro e precisa de GPUs de alto desempenho para criar índices de grande escala.
  • Vetores com muitas dimensões podem não representar com precisão a estrutura e as conexões autênticas dos dados. Portanto, o processo de incorporação de vetores deve ser sem perdas, o que é um desafio.

Atualmente, a tecnologia VSS está em contínuo desenvolvimento e melhoria. No entanto, ainda pode fornecer muitos benefícios para a experiência de pesquisa de uma empresa ou produto.

Benefícios do VSS

  • O VSS permite que os sistemas de pesquisa localizem objetos semelhantes de forma incrivelmente rápida em vários tipos de dados.
  • O VSS garante um gerenciamento de memória eficiente, pois converte todos os objetos de dados em incorporações numéricas que as máquinas podem processar facilmente.
  • O VSS pode classificar objetos em novas consultas de pesquisa que o sistema pode não ter encontrado dos consumidores.
  • O VSS é um excelente método para lidar com dados fracos e incompletos porque pode encontrar objetos contextualmente semelhantes, mesmo que não sejam uma combinação perfeita.
  • Mais importante, ele pode detectar e agrupar objetos relacionados em escala (volumes de dados variáveis).

Principais casos de uso comercial da pesquisa de similaridade de vetores

Nos negócios comerciais, a tecnologia VSS pode revolucionar uma ampla gama de indústrias e aplicações. Alguns desses casos de uso incluem:

  • Resposta a perguntas: a pesquisa de similaridade de vetores pode localizar perguntas relacionadas em fóruns de perguntas e respostas que são quase idênticas, permitindo respostas mais precisas e pertinentes para os usuários finais.
  • Pesquisa semântica na Web: a pesquisa por similaridade de vetores pode localizar documentos ou páginas da Web relacionados, dependendo da “proximidade” de suas representações vetoriais. O objetivo é aumentar a relevância dos resultados de pesquisa na web.
  • Recomendações de produtos: a pesquisa por similaridade de vetores pode fazer recomendações personalizadas de produtos com base na navegação do consumidor ou no histórico de pesquisas.
  • Melhor prestação de cuidados de saúde: pesquisadores e profissionais de saúde utilizam a pesquisa de similaridade vetorial para otimizar os ensaios clínicos, analisando representações vetoriais de pesquisas médicas relevantes.

Hoje, não é mais viável gerenciar, analisar e pesquisar dados usando técnicas convencionais baseadas em SQL. Os consumidores da Internet fazem consultas complexas na web – aparentemente simples para os humanos, mas incrivelmente complexas para as máquinas (mecanismos de busca) interpretarem. É um desafio de longa data para as máquinas decifrar diferentes formas de dados em formato compreensível por máquina. 

A busca por similaridade vetorial permite que os sistemas de busca compreendam melhor o contexto da informação comercial.

Quer ler conteúdo mais perspicaz relacionado à IA? Visita uni-vos.ai.