Intervijas

Dr. Ram Sriharsha, Pinecone inženierzinātņu viceprezidents — interviju sērija

Izdots

pirms 1 gads

Februāris 4, 2023

Dr Ram Sriharsha ir Pinecone inženierzinātņu un pētniecības un attīstības viceprezidents.

Pirms pievienošanās Pinecone, Ram bija viceprezidents Yahoo, Databricks un Splunk. Uzņēmums Yahoo viņš bija gan galvenais programmatūras inženieris, gan pēc tam pētnieks; uzņēmumā Databricks viņš bija vienotās genomikas analīzes platformas produktu un inženieru vadītājs; un trīs gadu laikā Splunkā viņš spēlēja vairākas lomas, tostarp vecākais zinātnieks, inženierzinātņu viceprezidents un izcilais inženieris.

Priežu čiekurs ir pilnībā pārvaldīta vektoru datu bāze, kas ļauj viegli pievienot vektoru meklēšanu ražošanas lietojumprogrammām. Tas apvieno vektoru meklēšanas bibliotēkas, tādas iespējas kā filtrēšana un sadalīta infrastruktūra, lai nodrošinātu augstu veiktspēju un uzticamību jebkurā mērogā.

Kas jūs sākotnēji piesaistīja mašīnmācībā?

Augstas dimensijas statistika, mācīšanās teorija un līdzīgas tēmas mani piesaistīja mašīnmācībā. Tie ir matemātiski labi definēti, tos var pamatot, un tiem ir dažas fundamentālas atziņas par to, ko nozīmē mācīšanās un kā izstrādāt algoritmus, kas var efektīvi mācīties.

Iepriekš jūs bijāt inženierzinātņu viceprezidents uzņēmumā Splunk — datu platforma, kas palīdz pārvērst datus par novērojumiem, IT, drošību un citām darbībām. Kādas bija jūsu galvenās šīs pieredzes atziņas?

Līdz brīdim, kad nonācu pie Splunk, es nebiju sapratis, cik dažādi ir uzņēmumu meklēšanas gadījumi: cilvēki izmanto Splunk žurnālu analīzei, novērojamības un drošības analīzei starp neskaitāmiem citiem lietošanas gadījumiem. Un tas, kas ir kopīgs daudziem no šiem lietošanas gadījumiem, ir ideja atklāt līdzīgus notikumus vai ļoti atšķirīgus (vai anomālus) notikumus nestrukturētajos datos. Izrādās, ka tā ir sarežģīta problēma, un tradicionālie līdzekļi šādu datu meklēšanai nav īpaši mērogojami. Strādājot Splunk, es sāku pētīt šīs jomas par to, kā mēs varētu izmantot mašīnmācīšanos (un dziļo mācīšanos) žurnālu ieguvei, drošības analītikai utt. Veicot šo darbu, es sapratu, ka vektoru iegulšana un vektoru meklēšana galu galā būs fundamentāls primitīvs jaunām pieejām šajās jomās.

Vai jūs varētu mums aprakstīt, kas ir vektoru meklēšana?

Tradicionālajā meklēšanā (citādi sauktā par atslēgvārdu meklēšanu) jūs meklējat atslēgvārdu atbilstību starp vaicājumu un dokumentiem (tie varētu būt tvīti, tīmekļa dokumenti, juridiski dokumenti, kas jums ir). Lai to izdarītu, vaicājums ir jāsadala tā marķieros, jāizgūst dokumenti, kas satur doto marķieri, un jāapvieno un jānovērtē, lai noteiktu atbilstošākos dokumentus konkrētajam vaicājumam.

Galvenā problēma, protams, ir tā, ka, lai iegūtu atbilstošus rezultātus, jūsu vaicājumam ir jābūt atslēgvārdu atbilstībām dokumentā. Klasiska tradicionālās meklēšanas problēma ir: ja meklējat “pop”, jūs atbildīsit “popmūzika”, bet neatbildīsit “soda” utt., jo nav atslēgvārdu pārklāšanās starp “pop” un dokumentiem, kas satur “soda”. lai gan mēs zinām, ka sarunvalodā daudzās ASV jomās "pops" nozīmē to pašu, kas "soda".

Meklējot vektoru, vispirms pārvēršat gan vaicājumus, gan dokumentus vektoros kādā augstas dimensijas telpā. Tas parasti tiek darīts, nododot tekstu caur dziļas mācīšanās modeli, piemēram, OpenAI LLM vai citiem valodu modeļiem. Rezultātā jūs iegūstat peldošā komata skaitļu masīvu, ko var uzskatīt par vektoru kādā augstas dimensijas telpā.

Galvenā ideja ir tāda, ka blakus esošie vektori šajā augstas dimensijas telpā ir arī semantiski līdzīgi. Atgriežoties pie mūsu “soda” un “pop” piemēra, ja modelis ir apmācīts pareizajā korpusā, tas, iespējams, uzskatīs “pop” un “soda” semantiski līdzīgus un tādējādi attiecīgie ieguljumi būs tuvu viens otram. iegulšanas vieta. Ja tas tā ir, tad tuvāko dokumentu izgūšana konkrētam vaicājumam kļūst par problēmu, meklējot atbilstošā vaicājuma vektora tuvākos kaimiņus šajā augstas dimensijas telpā.

Vai jūs varētu aprakstīt, kas ir vektoru datubāze un kā tā ļauj izveidot augstas veiktspējas vektoru meklēšanas lietojumprogrammas?

Vektoru datu bāze saglabā, indeksē un pārvalda šīs iegulšanas (vai vektorus). Galvenās vektoru datubāzes atrisināmās problēmas ir:

Efektīva meklēšanas indeksa izveide, izmantojot vektorus, lai atbildētu uz tuvāko kaimiņu vaicājumiem
Efektīvu papildu indeksu un datu struktūru izveide vaicājumu filtrēšanas atbalstam. Piemēram, pieņemsim, ka vēlaties meklēt tikai korpusa apakškopā, jums vajadzētu būt iespējai izmantot esošo meklēšanas indeksu, to nepārveidojot.

Atbalstiet efektīvus atjauninājumus un saglabājiet gan datus, gan meklēšanas indeksu svaigus, konsekventus, noturīgus utt.

Kādi ir dažādie mašīnmācīšanās algoritmu veidi, ko izmanto Pinecone?

Mēs parasti strādājam pie aptuveniem tuvākā kaimiņa meklēšanas algoritmiem un izstrādājam jaunus algoritmus, lai efektīvi atjauninātu, veiktu vaicājumus un citādi apstrādātu lielus datu apjomus pēc iespējas izdevīgākā veidā.

Mēs arī strādājam pie algoritmiem, kas apvieno blīvu un retu izguvi, lai uzlabotu meklēšanas atbilstību.

Kādas ir problēmas, kas saistītas ar mērogojamās meklēšanas izveidi?

Lai gan aptuvenā tuvākā kaimiņa meklēšana ir pētīta gadu desmitiem, mēs uzskatām, ka vēl daudz kas ir jāatklāj.

Jo īpaši, ja runa ir par liela mēroga tuvāko kaimiņu meklēšanu, kas ir rentabla, efektīvas filtrēšanas veikšana mērogā vai algoritmu izstrāde, kas atbalsta liela apjoma atjauninājumus un parasti jaunus indeksus, mūsdienās ir sarežģītas problēmas.

Kādiem dažādiem lietošanas gadījumiem šo tehnoloģiju var izmantot?

Vektoru datu bāzu lietošanas gadījumu spektrs pieaug ar katru dienu. Papildus izmantošanai semantiskajā meklēšanā mēs redzam, ka tas tiek izmantots arī attēlu meklēšanā, attēlu izguvē, ģeneratīvajā AI, drošības analīzē utt.

Kāds ir jūsu redzējums par meklēšanas nākotni?

Es domāju, ka meklēšanas nākotne būs balstīta uz AI, un es nedomāju, ka tas ir ļoti tālu. Es ceru, ka šajā nākotnē vektoru datu bāzes kļūs par galveno primitīvu. Mums patīk domāt par vektoru datubāzēm kā mākslīgā intelekta ilgtermiņa atmiņu (vai ārējo zināšanu bāzi).

Paldies par lielisko interviju, lasītājiem, kuri vēlas uzzināt vairāk, vajadzētu apmeklēt Priežu čiekurs.