- Terminológia (A až D)
- Kontrola schopností AI
- AIOps
- albumov
- Výkonnosť aktív
- Autokóder
- Spätná propagácia
- Bayesova veta
- Big dát
- Chatbot: Sprievodca pre začiatočníkov
- Výpočtové myslenie
- Počítačové videnie
- Matica zmätku
- Konvolučné neurónové siete
- Kyber ochrana
- Data Fabric
- Rozprávanie dát
- dáta Science
- Skladovanie údajov
- Rozhodovací strom
- Deepfakes
- Deep Learning
- Hlboké posilnenie učenia
- DevOps
- DevSecOps
- Difúzne modely
- Digitálne Twin
- Zníženie rozmerov
- Terminológia (E až K)
- Edge AI
- Emócia AI
- Ensemble Learning
- Etické hackovanie
- ETL
- Vysvetliteľná AI
- Federatívne vzdelávanie
- FinOps
- Generatívna AI
- Generatívna kontradiktórna sieť
- Generatívne vs. diskriminačné
- Zosilnenie gradientu
- Gradientný zostup
- Učenie s niekoľkými výstrelmi
- Klasifikácia obrázkov
- IT operácie (ITOPs)
- Automatizácia incidentov
- Vplyvové inžinierstvo
- Klastrovanie K-Means
- K-Najbližší susedia
- Terminológia (od L po Q)
- Terminológia (od R po Z)
- Posilňovacie učenie
- Zodpovedná AI
- RLHF
- Automatizácia robotických procesov
- Štruktúrované vs neštruktúrované
- Analýza sentimentu
- Pod dohľadom verzus bez dozoru
- Podpora vektorové stroje
- Syntetické údaje
- Syntetické médiá
- Klasifikácia textu
- TinyML
- Transfer Learning
- Transformátorové neurónové siete
- Turingov test
- Vyhľadávanie podobnosti vektorov
AI 101
Čo je vyhľadávanie podobnosti vektorov a ako je užitočné?
By
Haziqa SajidObsah
Moderné vyhľadávanie údajov je komplexná oblasť. Vyhľadávanie podľa vektorovej podobnosti alebo VSS predstavuje údaje s kontextovou hĺbkou a vracia spotrebiteľom relevantnejšie informácie ako odpoveď na vyhľadávací dopyt. Uveďme si jednoduchý príklad.
Vyhľadávacie dopyty ako „veda o údajoch“ a „sci-fi“ sa vzťahujú na rôzne typy obsahu, hoci oba majú spoločné slovo („veda“). Tradičná technika vyhľadávania by priraďovala bežné frázy, aby vrátila relevantné výsledky, čo by v tomto prípade bolo nepresné. Vyhľadávanie podobnosti vektorov by zohľadnilo skutočný zámer vyhľadávania a význam týchto vyhľadávacích dopytov, aby sa vrátila presnejšia odpoveď.
Tento článok bude diskutovať o rôznych aspektoch vyhľadávania podobnosti vektorov, ako sú jeho komponenty, výzvy, výhody a prípady použitia. Poďme začať.
Čo je vyhľadávanie podobnosti vektorov (VSS)?
Vyhľadávanie podobnosti vektorov nachádza a získava kontextovo podobné informácie z veľkých zbierok štruktúrovaných alebo neštruktúrovaných údajov ich transformáciou do numerických reprezentácií známych ako vektory alebo vloženia.
VSS dokáže spravovať rôzne dátové formáty, vrátane numerických, kategorických, textových, obrázkových a video formátov. Konvertuje každý objekt v dátovom korpuse na vysokorozmernú vektorovú reprezentáciu zodpovedajúcu jeho príslušnému formátu (diskutované v ďalšej časti).
VSS najčastejšie nájde porovnateľné objekty, ako sú podobné frázy alebo odseky, alebo nájde súvisiace obrázky v rozsiahlych systémoch na vyhľadávanie obrázkov. Veľké spotrebiteľské spoločnosti ako Amazon, eBay a Spotify používajú túto technológiu na zlepšenie výsledkov vyhľadávania pre milióny používateľov, tj na poskytovanie relevantného obsahu, ktorý by si používatelia s najväčšou pravdepodobnosťou chceli kúpiť, pozrieť alebo vypočuť.
Tri hlavné komponenty vyhľadávania podobnosti vektorov
Skôr než pochopíme, ako funguje vyhľadávanie podobnosti vektorov, pozrime sa na jeho hlavné komponenty. Na implementáciu efektívnej metodiky VSS existujú predovšetkým tri základné komponenty:
- Vektorové vloženie: Vloženie predstavuje rôzne typy údajov v matematickom formáte, tj usporiadané pole alebo množinu čísel. Identifikujú vzory v údajoch pomocou matematických výpočtov.
- Metriky vzdialenosti alebo podobnosti: Ide o matematické funkcie, ktoré počítajú, ako podobné alebo úzko súvisiace sú dva vektory.
- Algoritmy vyhľadávania: Algoritmy pomáhajú nájsť vektory podobné danému vyhľadávaciemu dopytu. napr. K-Najbližší susedia Algoritmus KNN alebo algoritmus KNN sa často používa vo vyhľadávacích systémoch s podporou VSS na určenie K vektorov v súbore údajov, ktoré sú najviac podobné danému vstupnému dotazu.
Teraz poďme diskutovať o tom, ako tieto komponenty fungujú vo vyhľadávacom systéme.
Ako funguje vyhľadávanie podobnosti vektorov?
Prvým krokom pri implementácii vyhľadávania podobnosti vektorov je reprezentácia alebo popis objektov v dátovom korpuse ako vektorových vložení. Využíva rôzne metódy vkladania vektorov, ako napr Rukavice, Word2veca BERTI, na mapovanie objektov do vektorového priestoru.
Pre každý formát údajov, ako je text, zvuk a video, vytvára VSS rôzne modely vkladania, ale konečným výsledkom tohto procesu je reprezentácia číselného poľa.
Ďalším krokom je vytvorenie indexu, ktorý dokáže usporiadať podobné objekty spolu pomocou týchto číselných reprezentácií. Algoritmus ako KNN slúži ako základ pre implementáciu podobnosti vyhľadávania. Na indexovanie podobných výrazov však vyhľadávacie systémy využívajú moderné prístupy, ako napr Hašovanie citlivé na lokalitu (LSH) a Približný najbližší sused (ANNOY).
Algoritmy VSS tiež vypočítavajú mieru podobnosti alebo vzdialenosti, ako je euklidovská vzdialenosť, kosínusová podobnosť alebo podobnosť Jaccard, aby porovnali všetky vektorové reprezentácie v zbere údajov a vrátili podobný obsah ako odpoveď na dopyt používateľa.
Hlavné výzvy a výhody vyhľadávania podobnosti vektorov
Celkovo je cieľom nájsť spoločné charakteristiky medzi dátovými objektmi. Tento proces však predstavuje niekoľko potenciálnych výziev.
Hlavné výzvy implementácie VSS
- Rôzne techniky vkladania vektorov a miery podobnosti prinášajú rôzne výsledky. Hlavnou výzvou je výber vhodných konfigurácií pre systémy na vyhľadávanie podobností.
- V prípade veľkých súborov údajov je VSS výpočtovo nákladný a potrebuje vysokovýkonné GPU na vytváranie rozsiahlych indexov.
- Vektory s príliš mnohými rozmermi nemusia presne reprezentovať autentickú štruktúru a spojenia údajov. Preto musí byť proces vkladania vektorov bezstratový, čo je výzva.
V súčasnosti sa technológia VSS neustále vyvíja a zdokonaľuje. Stále však môže poskytnúť mnoho výhod pre vyhľadávanie spoločnosti alebo produktu.
Výhody VSS
- VSS umožňuje vyhľadávacím systémom nájsť podobné objekty neuveriteľne rýchlo na rôznych typoch údajov.
- VSS zaisťuje efektívnu správu pamäte, pretože konvertuje všetky dátové objekty na číselné vloženia, ktoré môžu stroje ľahko spracovať.
- VSS dokáže klasifikovať objekty pri nových vyhľadávacích dopytoch, s ktorými sa systém od spotrebiteľov možno nestretol.
- VSS je vynikajúca metóda na riešenie chudobných a neúplných údajov, pretože dokáže nájsť kontextovo podobné objekty, aj keď nie sú úplne zhodné.
- Najdôležitejšie je, že dokáže detekovať a zoskupovať súvisiace objekty vo veľkom rozsahu (variabilné objemy údajov).
Hlavné obchodné prípady použitia vyhľadávania vektorovej podobnosti
V komerčnom podnikaní môže technológia VSS spôsobiť revolúciu v širokej škále priemyselných odvetví a aplikácií. Niektoré z týchto prípadov použitia zahŕňajú:
- Zodpovedanie otázok: Vyhľadávanie podobnosti vektorov môže nájsť súvisiace otázky vo fórach otázok a odpovedí, ktoré sú takmer totožné, čo umožňuje presnejšie a relevantnejšie odpovede pre koncových používateľov.
- Vyhľadávanie sémantického webu: Vyhľadávanie podobnosti vektorov dokáže nájsť súvisiace dokumenty alebo webové stránky v závislosti od „blízkosti“ ich vektorových reprezentácií. Jeho cieľom je zvýšiť relevantnosť výsledkov vyhľadávania na webe.
- Odporúčania produktov: Vyhľadávanie podobnosti vektorov môže poskytnúť prispôsobené odporúčania produktov na základe histórie prehliadania alebo vyhľadávania spotrebiteľa.
- Lepšie poskytovanie zdravotnej starostlivosti: Zdravotnícki výskumníci a praktici využívajú vyhľadávanie podobnosti vektorov na optimalizáciu klinických štúdií analýzou vektorových reprezentácií relevantného lekárskeho výskumu.
Dnes už nie je možné spravovať, analyzovať a vyhľadávať údaje pomocou konvenčných techník založených na SQL. Internetoví spotrebitelia kladú na webe zložité otázky – zdanlivo jednoduché pre ľudí, ale neuveriteľne zložité na interpretáciu strojov (vyhľadávačov). Pre stroje je dlhotrvajúcou výzvou dešifrovať rôzne formy údajov v strojovo zrozumiteľnom formáte.
Vyhľadávanie podobnosti vektorov umožňuje vyhľadávacím systémom lepšie pochopiť kontext komerčných informácií.
Chcete si prečítať podrobnejší obsah súvisiaci s AI? Navštívte zjednotiť.ai.
Haziqa je Data Scientist s rozsiahlymi skúsenosťami s písaním technického obsahu pre spoločnosti AI a SaaS.
Možno budete chcieť
AniPortrait: Zvukom riadená syntéza fotorealistickej portrétnej animácie
Vnútorný dialóg AI: Ako sebareflexia zlepšuje chatbotov a virtuálnych asistentov
Okamžitý štýl: Zachovanie štýlu pri generovaní textu na obrázok
LoReFT: Dolaďovanie reprezentácie pre jazykové modely
Okrem vyhľadávacích nástrojov: Vzostup agentov na prehliadanie webu poháňaných LLM
Zlepšenie transparentnosti a dôvery AI pomocou zloženej AI