ciot Ce este căutarea de similaritate vectorială și cum este utilă? - Unite.AI
Conectează-te cu noi
Masterclass AI:

AI 101

Ce este căutarea de similaritate vectorială și cum este utilă?

mm
Actualizat on
vector-similaritate-căutare

Căutarea modernă a datelor este un domeniu complex. Căutarea de similaritate vectorială sau VSS, reprezintă date cu profunzime contextuală și returnează informații mai relevante consumatorilor ca răspuns la o interogare de căutare. Să luăm un exemplu simplu. 

Interogările de căutare precum „știința datelor” și „știința științifică” se referă la diferite tipuri de conținut, deși ambele au un cuvânt comun („știință”). O tehnică tradițională de căutare ar potrivi expresii comune pentru a returna rezultate relevante, care ar fi inexacte în acest caz. Căutarea prin similaritate vectorială ar lua în considerare intenția reală de căutare și semnificația acestor interogări de căutare pentru a returna un răspuns mai precis.

Acest articol va discuta diferite aspecte ale căutării de similaritate vectorială, cum ar fi componentele sale, provocările, beneficiile și cazurile de utilizare. Sa incepem.

Ce este Vector Similarity Search (VSS)?

Căutarea de similaritate vectorială găsește și preia informații similare din punct de vedere contextual din colecții mari de date structurate sau nestructurate, transformându-le în reprezentări numerice cunoscute sub numele de vectori sau înglobări.

VSS poate gestiona o varietate de formate de date, inclusiv numerice, categoriale, textuale, imagine și video. Acesta convertește fiecare obiect dintr-un corp de date într-o reprezentare vectorială de dimensiuni mari corespunzătoare formatului său relevant (discutat în secțiunea următoare). 

Cel mai frecvent, VSS localizează obiecte comparabile, cum ar fi fraze sau paragrafe similare, sau găsește imagini înrudite în sisteme vaste de recuperare a imaginilor. Companiile mari de consumatori precum Amazon, eBay și Spotify folosesc această tehnologie pentru a îmbunătăți rezultatele căutării pentru milioane de utilizatori, adică pentru a oferi conținut relevant pe care utilizatorii ar dori, cel mai probabil, să îl cumpere, să vizioneze sau să îl asculte.

Trei componente principale ale căutării de similaritate vectorială

Înainte de a înțelege cum funcționează căutarea de similaritate vectorială, să ne uităm la componentele sale principale. În primul rând, există trei componente esențiale pentru implementarea unei metodologii eficiente VSS:

  1. Înglobări vectoriale: înglobările reprezintă diferite tipuri de date într-un format matematic, adică o matrice ordonată sau un set de numere. Ei identifică modele în date folosind calcule matematice.
  2. Măsuri de distanță sau similaritate: acestea sunt funcții matematice care calculează cât de similari sau strâns legați sunt doi vectori.
  3. Algoritmi de căutare: algoritmii ajută la găsirea de vectori similari unei anumite interogări de căutare. De exemplu, K-Cei mai apropiati vecini sau algoritmul KNN este folosit frecvent în sistemele de căutare activate cu VSS pentru a determina K vectori dintr-un set de date care sunt cel mai asemănătoare cu o interogare de intrare dată.

Acum, să discutăm cum funcționează aceste componente într-un sistem de căutare.

Cum funcționează căutarea de similaritate vectorială?

Primul pas în implementarea căutării de similaritate vectorială este reprezentarea sau descrierea obiectelor din corpus de date ca înglobări vectoriale. Utilizează diferite metode de încorporare vectorială, cum ar fi Mănușă, Word2vec, și OARET, pentru a mapa obiecte în spațiul vectorial. 

Pentru fiecare format de date, cum ar fi text, audio și video, VSS construiește diferite modele de încorporare, dar rezultatul final al acestui proces este o reprezentare numerică. 

Următorul pas este crearea unui index care poate aranja obiecte similare împreună folosind aceste reprezentări numerice. Un algoritm precum KNN servește drept bază pentru implementarea similarității căutării. Cu toate acestea, pentru a indexa termeni similari, sistemele de căutare folosesc abordări moderne, cum ar fi Hashing sensibil la localitate (LSH) și Aproximativ cel mai apropiat vecin (ANNOY)

De asemenea, algoritmii VSS calculează o similitudine sau o măsură de distanță, cum ar fi distanța euclidiană, asemănarea cosinusului sau asemănarea Jaccard, pentru a compara toate reprezentările vectoriale din colectarea de date și pentru a returna conținut similar ca răspuns la o interogare a utilizatorului.

Provocări majore și beneficii ale căutării de similaritate vectorială

În general, scopul este de a găsi caracteristici comune între obiectele de date. Cu toate acestea, acest proces prezintă mai multe provocări potențiale.

Principalele provocări ale implementării VSS

  • Diferite tehnici de încorporare a vectorilor și măsuri de similitudine prezintă rezultate diferite. Alegerea configurațiilor adecvate pentru sistemele de căutare a similarității este principala provocare.
  • Pentru seturi de date mari, VSS este costisitor din punct de vedere computațional și are nevoie de GPU-uri de înaltă performanță pentru a crea indici la scară largă.
  • Este posibil ca vectorii cu prea multe dimensiuni să nu reprezinte cu exactitate structura și conexiunile autentice ale datelor. Prin urmare, procesul de încorporare a vectorului trebuie să fie fără pierderi, ceea ce este o provocare.

În prezent, tehnologia VSS este în continuă dezvoltare și îmbunătățire. Cu toate acestea, poate oferi în continuare multe beneficii pentru experiența de căutare a unei companii sau a unui produs.

Beneficiile VSS

  • VSS permite sistemelor de căutare să localizeze obiecte similare incredibil de rapid pe diferite tipuri de date.
  • VSS asigură o gestionare eficientă a memoriei, deoarece convertește toate obiectele de date în înglobări numerice pe care mașinile le pot procesa cu ușurință.
  • VSS poate clasifica obiecte pe noi interogări de căutare pe care sistemul poate să nu le fi întâlnit de la consumatori.
  • VSS este o metodă excelentă pentru a trata date slabe și incomplete, deoarece poate găsi obiecte similare din punct de vedere contextual, chiar dacă nu se potrivesc perfect.
  • Cel mai important, poate detecta și grupa obiecte asociate la scară (volume de date variabile).

Cazuri majore de utilizare în afaceri de căutare a similarității vectorilor

În afacerile comerciale, tehnologia VSS poate revoluționa o gamă largă de industrii și aplicații. Unele dintre aceste cazuri de utilizare includ:

  • Răspunsuri la întrebări: căutarea de similaritate vectorială poate localiza întrebări înrudite în forumurile de întrebări și răspunsuri care sunt aproape identice, permițând răspunsuri mai precise și mai pertinente pentru utilizatorii finali.
  • Căutare semantică pe web: căutarea prin similaritate vectorială poate localiza documente sau pagini web conexe, în funcție de „apropierea” reprezentărilor vectoriale ale acestora. Acesta își propune să crească relevanța rezultatelor căutării pe web.
  • Recomandări de produse: căutarea de similaritate vectorială poate face recomandări de produse personalizate pe baza istoricului de navigare sau de căutare a consumatorului.
  • O mai bună livrare a asistenței medicale: cercetătorii și practicienii din domeniul sănătății utilizează căutarea de similaritate vectorială pentru a optimiza studiile clinice prin analizarea reprezentărilor vectoriale ale cercetării medicale relevante.

Astăzi, nu mai este viabil să gestionezi, să analizezi și să cauți date folosind tehnici convenționale bazate pe SQL. Consumatorii de internet solicită interogări complexe pe web – aparent simple pentru oameni, dar incredibil de complexe pentru mașini (motoarele de căutare) de interpretat. Este o provocare de lungă durată pentru mașini să descifreze diferite forme de date în format ușor de înțeles de către mașină. 

Căutarea prin similaritate vectorială face posibil ca sistemele de căutare să înțeleagă mai bine contextul informațiilor comerciale.

Doriți să citiți conținut mai perspicace legat de inteligența artificială? Vizita uniţi.ai.