talón ¿Qué es la búsqueda de similitud de vectores y cómo es útil? - Unite.AI
Contáctanos
Clase magistral de IA:

AI 101

¿Qué es la búsqueda de similitud de vectores y cómo es útil?

mm
Actualizado on
vector-similitud-búsqueda

La búsqueda de datos moderna es un dominio complejo. La búsqueda de similitud vectorial, o VSS, representa datos con profundidad contextual y devuelve información más relevante a los consumidores en respuesta a una consulta de búsqueda. Tomemos un ejemplo simple. 

Las consultas de búsqueda como "ciencia de datos" y "ciencia ficción" se refieren a diferentes tipos de contenido a pesar de que ambos tienen una palabra común ("ciencia"). Una técnica de búsqueda tradicional coincidiría con frases comunes para devolver resultados relevantes, lo que sería inexacto en este caso. La búsqueda de similitud de vectores consideraría la intención de búsqueda real y el significado de estas consultas de búsqueda para devolver una respuesta más precisa.

Este artículo discutirá varios aspectos de la búsqueda de similitud de vectores, como sus componentes, desafíos, beneficios y casos de uso. Vamos a empezar.

¿Qué es la búsqueda de similitud de vectores (VSS)?

La búsqueda por similitud de vectores encuentra y recupera información contextualmente similar de grandes colecciones de datos estructurados o no estructurados transformándola en representaciones numéricas conocidas como vectores o incrustaciones.

VSS puede administrar una variedad de formatos de datos, incluidos numéricos, categóricos, textuales, de imagen y de video. Convierte cada objeto en un corpus de datos en una representación vectorial de alta dimensión correspondiente a su formato relevante (discutido en la siguiente sección). 

Más comúnmente, VSS localiza objetos comparables, como frases o párrafos similares, o encuentra imágenes relacionadas en vastos sistemas de recuperación de imágenes. Las grandes empresas de consumo como Amazon, eBay y Spotify utilizan esta tecnología para mejorar los resultados de búsqueda de millones de usuarios, es decir, ofrecer contenido relevante que los usuarios probablemente querrán comprar, ver o escuchar.

Tres componentes principales de la búsqueda de similitud de vectores

Antes de que entendamos cómo funciona la búsqueda de similitud de vectores, veamos sus componentes principales. Principalmente, hay tres componentes esenciales para implementar una metodología VSS efectiva:

  1. Incrustaciones de vectores: las incrustaciones representan diferentes tipos de datos en un formato matemático, es decir, una matriz ordenada o un conjunto de números. Identifican patrones en los datos usando cálculos matemáticos.
  2. Métricas de distancia o similitud: estas son funciones matemáticas que calculan cuán similares o estrechamente relacionados son dos vectores.
  3. Algoritmos de búsqueda: los algoritmos ayudan a encontrar vectores similares a una consulta de búsqueda determinada. Por ejemplo, K-Vecinos más cercanos o El algoritmo KNN se usa con frecuencia en los sistemas de búsqueda habilitados para VSS para determinar los vectores K en un conjunto de datos que son más similares a una consulta de entrada determinada.

Ahora, analicemos cómo funcionan estos componentes en un sistema de búsqueda.

¿Cómo funciona la búsqueda de similitud de vectores?

El primer paso para implementar la búsqueda de similitud de vectores es representar o describir objetos en el corpus de datos como incrustaciones de vectores. Utiliza diferentes métodos de incrustación de vectores, como Guante, palabra2vecy BERTI, para asignar objetos al espacio vectorial. 

Para cada formato de datos, como texto, audio y video, VSS crea diferentes modelos de incrustación, pero el resultado final de este proceso es una representación de matriz numérica. 

El siguiente paso es crear un índice que pueda organizar objetos similares usando estas representaciones numéricas. Un algoritmo como KNN sirve como base para implementar la similitud de búsqueda. Sin embargo, para indexar términos similares, los sistemas de búsqueda utilizan enfoques modernos, como Hashing sensible a la localidad (LSH) y Vecino más cercano aproximado (ANNOY)

Además, los algoritmos de VSS calculan una medida de similitud o distancia, como la distancia euclidiana, la similitud del coseno o la similitud de Jaccard, para comparar todas las representaciones vectoriales en la recopilación de datos y devolver contenido similar en respuesta a una consulta del usuario.

Principales desafíos y beneficios de la búsqueda de similitud de vectores

En general, el objetivo es encontrar características comunes entre los objetos de datos. Sin embargo, este proceso presenta varios desafíos potenciales.

Principales desafíos de implementar VSS

  • Diferentes técnicas de incrustación de vectores y medidas de similitud presentan diferentes resultados. Elegir las configuraciones adecuadas para los sistemas de búsqueda por similitud es el principal desafío.
  • Para grandes conjuntos de datos, VSS es computacionalmente costoso y necesita GPU de alto rendimiento para crear índices a gran escala.
  • Es posible que los vectores con demasiadas dimensiones no representen con precisión la estructura y las conexiones auténticas de los datos. Por lo tanto, el proceso de incrustación de vectores debe ser sin pérdidas, lo cual es un desafío.

Actualmente, la tecnología VSS está en continuo desarrollo y mejora. Sin embargo, todavía puede proporcionar muchos beneficios para la experiencia de búsqueda de una empresa o producto.

Beneficios de VSS

  • VSS permite que los sistemas de búsqueda localicen objetos similares increíblemente rápido en diversos tipos de datos.
  • VSS garantiza una gestión de memoria eficiente, ya que convierte todos los objetos de datos en incrustaciones numéricas que las máquinas pueden procesar fácilmente.
  • VSS puede clasificar objetos en nuevas consultas de búsqueda que el sistema puede no haber encontrado de los consumidores.
  • VSS es un método excelente para manejar datos deficientes e incompletos porque puede encontrar objetos contextualmente similares incluso si no son una combinación perfecta.
  • Lo que es más importante, puede detectar y agrupar objetos relacionados a escala (volúmenes de datos variables).

Principales casos de uso comercial de la búsqueda de similitud de vectores

En los negocios comerciales, la tecnología VSS puede revolucionar una amplia gama de industrias y aplicaciones. Algunos de estos casos de uso incluyen:

  • Respuesta a preguntas: la búsqueda de similitud vectorial puede ubicar preguntas relacionadas en foros de preguntas y respuestas que son casi idénticas, lo que permite respuestas más precisas y pertinentes para los usuarios finales.
  • Búsqueda web semántica: la búsqueda de similitud de vectores puede localizar documentos o páginas web relacionados dependiendo de la "cercanía" de sus representaciones vectoriales. Su objetivo es aumentar la relevancia de los resultados de búsqueda web.
  • Recomendaciones de productos: la búsqueda de similitud de vectores puede hacer recomendaciones de productos personalizadas basadas en el historial de navegación o búsqueda del consumidor.
  • Mejor prestación de atención médica: los investigadores y profesionales de la salud utilizan la búsqueda de similitud de vectores para optimizar los ensayos clínicos mediante el análisis de representaciones vectoriales de investigaciones médicas relevantes.

Hoy en día, ya no es viable administrar, analizar y buscar datos utilizando técnicas convencionales basadas en SQL. Los consumidores de Internet hacen consultas complejas en la web, aparentemente simples para los humanos pero increíblemente complejas de interpretar para las máquinas (motores de búsqueda). Es un desafío de larga data para las máquinas descifrar diferentes formas de datos en un formato comprensible para las máquinas. 

La búsqueda de similitud de vectores hace posible que los sistemas de búsqueda comprendan mejor el contexto de la información comercial.

¿Quiere leer más contenido revelador relacionado con la IA? Visita unir.ai.