- Terminija (A–D)
- AI galimybių valdymas
- AIOps
- albumai
- Turto našumas
- Autoencoder
- Atgalinis dauginimas
- Bayeso teorema
- Dideliu duomenų kiekiu
- „Chatbot“: vadovas pradedančiajam
- Kompiuterinis mąstymas
- Kompiuterio vizija
- Sumišimo matrica
- Konvoliuciniai neuroniniai tinklai
- Kibernetinė sauga
- Duomenų audinys
- Duomenų pasakojimas
- duomenų Mokslas
- Duomenų saugojimas
- Sprendimų medis
- Gilūs klastotės
- Gilus mokymasis
- Gilaus sutvirtinimo mokymasis
- devops
- „DevSecOps“
- Difuzijos modeliai
- Skaitmeninis dvynys
- Matmenų mažinimas
- Terminija (nuo E iki K)
- Edge AI
- Emocijų AI
- Ansamblio mokymasis
- Etinis įsilaužimas
- ETL
- Paaiškinamas AI
- Federuotas mokymasis
- FinOps
- Generatyvinis AI
- Generacinis prieštaringų tinklas
- Generatyvus prieš diskriminacinį
- Gradiento didinimas
- Gradiento nusileidimas
- Mokymasis iš kelių kartų
- Vaizdo klasifikacija
- IT operacijos (ITOps)
- Incidentų automatizavimas
- Įtakos inžinerija
- „K“ reiškia grupavimą
- K-Artimiausi kaimynai
- Terminija (L–Q)
- Terminija (nuo R iki Z)
- Stiprinimo mokymasis
- Atsakingas AI
- RLHF
- Robotų procesų automatizavimas
- Struktūrinis vs nestruktūrinis
- Sentimentų analizė
- Prižiūrimas prieš neprižiūrimą
- Palaikykite vektorines mašinas
- Sintetiniai duomenys
- Sintetinės laikmenos
- Teksto klasifikacija
- TinyML
- Mokymasis perkelti
- Transformatorių neuroniniai tinklai
- Tiuringo testas
- Vektorių panašumo paieška
AI 101 m
Kas yra vektorinio panašumo paieška ir kuo ji naudinga?
By
Haziqa SajidTurinys
Šiuolaikinė duomenų paieška yra sudėtinga sritis. Vektorių panašumo paieška arba VSS pateikia duomenis su konteksto gyliu ir pateikia vartotojams aktualesnę informaciją atsakant į paieškos užklausą. Paimkime paprastą pavyzdį.
Paieškos užklausos, pvz., „duomenų mokslas“ ir „mokslinė fantastika“, nurodo skirtingus turinio tipus, nors abi turi bendrą žodį („mokslas“). Tradicinė paieškos technika atitiktų įprastas frazes, kad būtų pateikti atitinkami rezultatai, kurie šiuo atveju būtų netikslūs. Vektoriaus panašumo paieška apsvarstytų tikrąjį šių paieškos užklausų paieškos tikslą ir prasmę, kad gautų tikslesnį atsakymą.
Šiame straipsnyje bus aptariami įvairūs vektorių panašumo paieškos aspektai, tokie kaip jos komponentai, iššūkiai, pranašumai ir naudojimo atvejai. Pradėkime.
Kas yra vektorinio panašumo paieška (VSS)?
Vektorių panašumo paieška suranda ir nuskaito kontekstiniu požiūriu panašią informaciją iš didelių struktūrinių arba nestruktūrizuotų duomenų rinkinių, paversdama ją skaitiniais vaizdais, vadinamais vektoriais arba įterpimais.
VSS gali valdyti įvairius duomenų formatus, įskaitant skaitmeninius, kategorinius, tekstinius, vaizdo ir vaizdo įrašus. Jis konvertuoja kiekvieną objektą duomenų korpuse į didelio matmens vektorinį vaizdą, atitinkantį jo atitinkamą formatą (aptarta kitame skyriuje).
Dažniausiai VSS aptinka palyginamus objektus, pvz., panašias frazes ar pastraipas, arba suranda susijusius vaizdus didžiulėse vaizdų paieškos sistemose. Didelės vartotojų įmonės, tokios kaip „Amazon“, „eBay“ ir „Spotify“, naudoja šią technologiją, siekdamos pagerinti milijonų vartotojų paieškos rezultatus, ty teikti atitinkamą turinį, kurį vartotojai greičiausiai norėtų nusipirkti, žiūrėti ar klausytis.
Trys pagrindiniai vektorinio panašumo paieškos komponentai
Prieš suprasdami, kaip veikia vektorių panašumo paieška, pažvelkime į pagrindinius jos komponentus. Visų pirma, yra trys esminiai komponentai, padedantys įgyvendinti veiksmingą VSS metodiką:
- Vektoriniai įterpimai: įterpimai reiškia skirtingus duomenų tipus matematiniu formatu, ty sutvarkytą masyvą arba skaičių rinkinį. Jie nustato duomenų šablonus, naudodami matematinius skaičiavimus.
- Atstumo arba panašumo metrika: tai matematinės funkcijos, apskaičiuojančios, kiek panašūs arba glaudžiai susiję du vektoriai.
- Paieškos algoritmai: algoritmai padeda rasti panašių vektorių į nurodytą paieškos užklausą. Pavyzdžiui, K-Artimiausi kaimynai arba KNN algoritmas dažnai naudojamas VSS įgalintose paieškos sistemose, siekiant nustatyti K vektorių duomenų rinkinyje, kurie yra labiausiai panašūs į nurodytą įvesties užklausą.
Dabar aptarkime, kaip šie komponentai veikia paieškos sistemoje.
Kaip veikia vektorinio panašumo paieška?
Pirmas žingsnis įgyvendinant vektorinio panašumo paiešką yra objektų atvaizdavimas arba apibūdinimas duomenų korpuse kaip vektoriniai įterpimai. Jame naudojami įvairūs vektorinio įterpimo metodai, pvz Pirštinės, Word2vecir ETRI, susieti objektus su vektorine erdve.
Kiekvienam duomenų formatui, pvz., tekstui, garsui ir vaizdo įrašui, VSS sukuria skirtingus įterpimo modelius, tačiau galutinis šio proceso rezultatas yra skaitinis masyvo atvaizdavimas.
Kitas veiksmas yra sukurti indeksą, kuris gali išdėstyti panašius objektus kartu naudojant šiuos skaitinius vaizdus. Toks algoritmas kaip KNN yra paieškos panašumo įgyvendinimo pagrindas. Tačiau panašiems terminams indeksuoti paieškos sistemos naudoja šiuolaikinius metodus, pvz Vietovės jautri maiša (LSH) ir Apytikslis artimiausias kaimynas (ANNOY).
Be to, VSS algoritmai apskaičiuoja panašumo arba atstumo matą, pvz., Euklido atstumą, kosinuso panašumą arba Jaccard panašumą, kad palygintų visas vektorines reprezentacijas duomenų rinkinyje ir pateiktų panašų turinį atsakant į vartotojo užklausą.
Pagrindiniai vektorinio panašumo paieškos iššūkiai ir pranašumai
Apskritai, tikslas yra rasti bendras duomenų objektų charakteristikas. Tačiau šis procesas kelia keletą galimų iššūkių.
Pagrindiniai VSS diegimo iššūkiai
- Skirtingi vektorių įterpimo būdai ir panašumo priemonės suteikia skirtingus rezultatus. Pagrindinis iššūkis yra tinkamų panašumo paieškos sistemų konfigūracijų pasirinkimas.
- Didelių duomenų rinkinių atveju VSS yra brangus skaičiavimas ir norint sukurti didelio masto indeksus, reikia didelio našumo GPU.
- Vektoriai, turintys per daug matmenų, gali tiksliai neatvaizduoti autentiškos duomenų struktūros ir ryšių. Taigi vektoriaus įterpimo procesas turi būti be nuostolių, o tai yra iššūkis.
Šiuo metu VSS technologija yra nuolat tobulinama ir tobulinama. Tačiau ji vis tiek gali suteikti daug naudos įmonės ar produkto paieškos patirčiai.
VSS privalumai
- VSS leidžia paieškos sistemoms neįtikėtinai greitai rasti panašius objektus naudojant įvairius duomenų tipus.
- VSS užtikrina efektyvų atminties valdymą, nes konvertuoja visus duomenų objektus į skaitmeninius įterpimus, kuriuos mašinos gali lengvai apdoroti.
- VSS gali klasifikuoti objektus pagal naujas paieškos užklausas, su kuriomis sistema galėjo nesusidurti iš vartotojų.
- VSS yra puikus būdas tvarkyti prastus ir neišsamius duomenis, nes jis gali rasti kontekstiniu požiūriu panašius objektus, net jei jie nėra tobuli.
- Svarbiausia, kad jis gali aptikti ir sugrupuoti susijusius objektus dideliu mastu (kintamu duomenų kiekiu).
Pagrindiniai vektorinio panašumo paieškos verslo naudojimo atvejai
Komerciniame versle VSS technologija gali pakeisti daugybę pramonės šakų ir taikomųjų programų. Kai kurie iš šių naudojimo atvejų apima:
- Atsakymai į klausimus: vektoriaus panašumo paieška klausimų ir atsakymų forumuose gali rasti susijusius klausimus, kurie yra beveik identiški, todėl galutiniai vartotojai gali gauti tikslesnius ir tinkamesnius atsakymus.
- Semantinė žiniatinklio paieška: vektorinio panašumo paieška gali rasti susijusių dokumentų ar tinklalapių, atsižvelgiant į jų vektorinių vaizdų „artumą“. Juo siekiama padidinti žiniatinklio paieškos rezultatų tinkamumą.
- Produkto rekomendacijos: vektorinio panašumo paieška gali pateikti asmenines produktų rekomendacijas, pagrįstas vartotojo naršymo ar paieškos istorija.
- Geresnis sveikatos priežiūros teikimas: sveikatos priežiūros mokslininkai ir praktikai naudoja vektorių panašumo paiešką, kad optimizuotų klinikinius tyrimus, analizuodami atitinkamų medicininių tyrimų vektorines reprezentacijas.
Šiandien nebeįmanoma tvarkyti, analizuoti ir ieškoti duomenų naudojant įprastus SQL pagrindus. Interneto vartotojai žiniatinklyje užduoda sudėtingas užklausas – iš pažiūros paprastas žmonėms, bet neįtikėtinai sudėtingas mašinoms (paieškos sistemoms). Iššifruoti įvairių formų duomenis mašinoms suprantamu formatu yra ilgalaikis iššūkis mašinoms.
Vektorių panašumo paieška leidžia paieškos sistemoms geriau suprasti komercinės informacijos kontekstą.
Norite perskaityti daugiau įžvalgaus su AI susijusio turinio? Apsilankykite vienytis.ai.
Haziqa yra duomenų mokslininkas, turintis didelę patirtį rašant techninį turinį AI ir SaaS įmonėms.
Jums gali patikti
AI vidinis dialogas: kaip savirefleksija pagerina pokalbių robotus ir virtualius asistentus
Momentinis stilius: stiliaus išsaugojimas kuriant tekstą į vaizdą
LoReFT: Representation Finetuning for Language Models
Be paieškos sistemų: LLM valdomų žiniatinklio naršymo agentų augimas
AI skaidrumo ir pasitikėjimo didinimas naudojant sudėtinį AI
GPU duomenų centrai įtempia elektros tinklus: dirbtinio intelekto inovacijų ir energijos suvartojimo subalansavimas