- Terminológia (A-tól D-ig)
- AI képességvezérlés
- AIOps
- albumációk
- Eszköz teljesítménye
- Autoencoder
- Visszaszaporítás
- Bayes-tétel
- Big adatok
- Chatbot: Útmutató kezdőknek
- Számítási gondolkodás
- Számítógépes látás
- Zavart mátrix
- Konvolúciós neurális hálózatok
- Kiberbiztonság
- Data Fabric
- Adattörténetmondás
- Data Science
- Adattárolás
- Döntési fa
- Deepfakes
- Deep Learning
- Mély megerősítésű tanulás
- DevOps
- DevSecOps
- Diffúziós modellek
- Digitális iker
- Dimenzionalitás csökkentés
- Terminológia (E-től K-ig)
- Edge AI
- Érzelem AI
- Együttes tanulás
- Etikai hackelés
- ETL
- Megmagyarázható AI
- Egyesített tanulás
- FinOps
- Generatív AI
- Generatív versenytársak hálózata
- Generatív vs. diszkriminatív
- Gradiens Boosting
- Gradiens Descent
- Few-Shot Learning
- Képosztályozás
- IT-műveletek (ITOps)
- Incidens automatizálás
- Befolyásolás Mérnökség
- K-Means klaszterezés
- K-Legközelebbi szomszédok
- Terminológia (L-től Q-ig)
- Terminológia (R-től Z-ig)
- Erősítő tanulás
- Felelős mesterséges intelligencia
- RLHF
- Robotikus folyamat automatizálás
- Strukturált vs strukturálatlan
- Érzelmi elemzés
- Felügyelt vs nem felügyelt
- Támogatja a vektoros gépeket
- Szintetikus adatok
- Szintetikus média
- Szöveg osztályozása
- TinyML
- Transzfer tanulás
- Transzformátor neurális hálózatok
- Turing teszt
- Vektoros hasonlóság keresése
AI 101
Mi a vektoros hasonlóság keresése és hogyan hasznos?
By
Haziqa SajidTartalomjegyzék
A modern adatkeresés összetett terület. A vektoros hasonlósági keresés vagy a VSS kontextuális mélységű adatokat jelenít meg, és relevánsabb információkat ad vissza a fogyasztóknak a keresési lekérdezésre válaszul. Vegyünk egy egyszerű példát.
Az olyan keresési lekérdezések, mint a „data science” és a „science fiction”, különböző típusú tartalomra utalnak, annak ellenére, hogy mindkettőben van egy közös szó („tudomány”). Egy hagyományos keresési technika megfeleltetné a gyakori kifejezéseket, hogy releváns találatokat adjon vissza, ami ebben az esetben pontatlan. A vektorhasonlóság keresése figyelembe veszi ezeknek a keresési lekérdezéseknek a tényleges keresési szándékát és jelentését, hogy pontosabb választ adjon.
Ez a cikk a vektorhasonlóság-keresés különféle szempontjait tárgyalja, például annak összetevőit, kihívásait, előnyeit és használati eseteit. Kezdjük.
Mi az a vektoros hasonlósági keresés (VSS)?
A vektorhasonlóság-keresés a kontextuálisan hasonló információkat talál és kér le strukturált vagy strukturálatlan adatok nagy gyűjteményéből oly módon, hogy azokat numerikus reprezentációkká alakítja, amelyeket vektoroknak vagy beágyazásoknak nevezünk.
A VSS számos adatformátumot képes kezelni, beleértve a numerikus, kategorikus, szöveges, képet és videót. Az adatkorpusz minden egyes objektumát a vonatkozó formátumának megfelelő nagydimenziós vektoros reprezentációvá alakítja (a következő részben lesz szó).
A VSS leggyakrabban hasonló objektumokat, például hasonló kifejezéseket vagy bekezdéseket, vagy kapcsolódó képeket talál meg hatalmas képlekérő rendszerekben. Az olyan nagy fogyasztói cégek, mint az Amazon, az eBay és a Spotify, ezt a technológiát használják arra, hogy felhasználók milliói számára javítsák a keresési eredményeket, azaz olyan releváns tartalmakat szolgáltassanak ki, amelyeket a felhasználók nagy valószínűséggel szeretnének megvásárolni, megnézni vagy hallgatni.
A vektoros hasonlósági keresés három fő összetevője
Mielőtt megértenénk, hogyan működik a vektorhasonlóság-keresés, nézzük meg főbb összetevőit. Elsősorban három alapvető összetevőből áll a hatékony VSS módszertan megvalósítása:
- Vektoros beágyazások: A beágyazások különböző adattípusokat képviselnek matematikai formátumban, azaz rendezett tömbben vagy számkészletben. Matematikai számításokkal azonosítják az adatok mintázatait.
- Távolság- vagy hasonlósági mérőszámok: Ezek matematikai függvények, amelyek kiszámítják, hogy két vektor mennyire hasonló vagy szorosan összefügg.
- Keresési algoritmusok: Az algoritmusok segítenek megtalálni az adott keresési lekérdezéshez hasonló vektorokat. Például, K-Legközelebbi szomszédok vagy a KNN algoritmust gyakran használják a VSS-képes keresőrendszerekben K vektor meghatározására egy adatkészletben, amelyek leginkább hasonlítanak egy adott bemeneti lekérdezéshez.
Most pedig beszéljük meg, hogyan működnek ezek az összetevők a keresőrendszerben.
Hogyan működik a vektoros hasonlóság keresése?
A vektorhasonlóság-keresés megvalósításának első lépése az adatkorpuszban lévő objektumok vektorbeágyazásként történő ábrázolása vagy leírása. Különféle vektorbeágyazási módszereket használ, mint pl Kesztyű, Word2vecés BERTI, objektumok leképezéséhez a vektortérbe.
A VSS minden adatformátumhoz, például szöveghez, hanghoz és videóhoz különböző beágyazási modelleket készít, de ennek a folyamatnak a végeredménye egy numerikus tömbábrázolás.
A következő lépés egy olyan index létrehozása, amely a hasonló objektumokat ezeknek a numerikus ábrázolásoknak a segítségével össze tudja rendezni. Egy olyan algoritmus, mint a KNN, szolgál a keresési hasonlóság megvalósításának alapjául. A hasonló kifejezések indexeléséhez azonban a keresőrendszerek modern megközelítéseket alkalmaznak, mint pl Locality Sensitive Hashing (LSH) és a Hozzávetőleges legközelebbi szomszéd (ANNOY).
Ezenkívül a VSS-algoritmusok kiszámítanak egy hasonlóságot vagy távolságmértéket, például az euklideszi távolságot, a koszinusz-hasonlóságot vagy a Jaccard-hasonlóságot, hogy összehasonlítsák az adatgyűjtésben lévő összes vektorreprezentációt, és hasonló tartalmat adjanak vissza a felhasználói lekérdezésekre válaszul.
A vektoros hasonlósági keresés főbb kihívásai és előnyei
Összességében a cél az adatobjektumok közötti közös jellemzők megtalálása. Ez a folyamat azonban számos lehetséges kihívást rejt magában.
A VSS megvalósításának fő kihívásai
- A különböző vektorbeágyazási technikák és hasonlósági mérőszámok eltérő eredményeket mutatnak. A hasonlóságkereső rendszerek megfelelő konfigurációinak kiválasztása a fő kihívás.
- Nagy adatkészletek esetén a VSS számításilag költséges, és nagy teljesítményű GPU-kra van szüksége a nagyméretű indexek létrehozásához.
- Előfordulhat, hogy a túl sok dimenziójú vektorok nem reprezentálják pontosan az adatok hiteles szerkezetét és kapcsolatait. Ezért a vektorbeágyazási folyamatnak veszteségmentesnek kell lennie, ami kihívást jelent.
Jelenleg a VSS technológia folyamatos fejlesztés és fejlesztés alatt áll. Ennek ellenére számos előnnyel járhat egy vállalat vagy termék keresési élménye szempontjából.
A VSS előnyei
- A VSS lehetővé teszi, hogy a keresőrendszerek hihetetlenül gyorsan megtalálják a hasonló objektumokat különböző adattípusokon.
- A VSS hatékony memóriakezelést biztosít, mivel az összes adatobjektumot numerikus beágyazásokká alakítja, amelyeket a gépek könnyen feldolgozhatnak.
- A VSS olyan objektumokat tud besorolni új keresési lekérdezéseken, amelyekkel a rendszer esetleg nem találkozott a fogyasztóktól.
- A VSS kiváló módszer a szegényes és hiányos adatok kezelésére, mert képes kontextuálisan hasonló objektumokat találni, még akkor is, ha nem egyeznek meg egymással.
- A legfontosabb, hogy képes észlelni és fürtözni a kapcsolódó objektumokat méretarányosan (változó adatmennyiségek).
A vektoros hasonlóság keresésének főbb üzleti felhasználási esetei
A kereskedelmi üzletágban a VSS technológia forradalmasíthatja az iparágak és alkalmazások széles körét. Néhány ilyen használati eset a következőket tartalmazza:
- Kérdések megválaszolása: A vektoros hasonlóság keresése a kérdés-felelet fórumokon olyan kapcsolódó kérdéseket találhat, amelyek közel azonosak, így pontosabb és relevánsabb válaszokat adnak a végfelhasználók számára.
- Szemantikus webes keresés: A vektoros hasonlóságok keresése a kapcsolódó dokumentumokat vagy weboldalakat a vektoros ábrázolásuk „közeliségétől” függően találhatja meg. Célja az internetes keresési eredmények relevanciájának növelése.
- Termékajánlatok: A vektoros hasonlóságok keresése személyre szabott termékajánlatokat tehet a fogyasztó böngészési vagy keresési előzményei alapján.
- Jobb egészségügyi ellátás: Az egészségügyi kutatók és gyakorlati szakemberek vektorhasonlósági keresést alkalmaznak a klinikai vizsgálatok optimalizálására a releváns orvosi kutatások vektoros reprezentációinak elemzésével.
Ma már nem életképes az adatok kezelése, elemzése és keresése hagyományos SQL-alapú technikákkal. Az internetes fogyasztók összetett lekérdezéseket tesznek fel az interneten – látszólag egyszerűnek az emberek számára, de hihetetlenül bonyolultak a gépek (keresőmotorok) számára az értelmezésük. Régóta kihívást jelent a gépek számára az adatok különböző formáinak gép által érthető formátumban történő megfejtése.
A vektoros hasonlóság keresése lehetővé teszi a keresőrendszerek számára, hogy jobban megértsék a kereskedelmi információk kontextusát.
Szeretne több éleslátó AI-val kapcsolatos tartalmat olvasni? Látogatás egyesülj.ai.
Haziqa egy adattudós, aki nagy tapasztalattal rendelkezik a mesterséges intelligencia és SaaS cégek számára készült műszaki tartalom írásában.
Talán tetszene
AniPortrait: A fotorealisztikus portréanimáció hangvezérelt szintézise
Az AI belső párbeszéde: Hogyan javítja az önreflexió a chatbotokat és a virtuális asszisztenseket
Azonnali stílus: Stílusmegőrzés a szövegből képpé generálás során
LoReFT: Representation Finetuning for Language Models
A keresőmotorokon túl: Az LLM-alapú webböngésző ügynökök felemelkedése
Növelje a mesterséges intelligencia átláthatóságát és a bizalmat az összetett mesterségesintelligencia segítségével