entrevistes

Dr. Ram Sriharsha, vicepresident d'enginyeria de Pinecone – Sèrie d'entrevistes

publicat

Fa anys 1

Febrer 4, 2023

El Dr. Ram Sriharsha, és el vicepresident d'Enginyeria i R+D de Pinecone.

Abans d'unir-se a Pinecone, Ram tenia funcions de vicepresident a Yahoo, Databricks i Splunk. A Yahoo, va ser alhora enginyer de programari principal i després investigador científic; a Databricks, va ser el responsable de producte i enginyeria de la plataforma d'anàlisi unificada per a la genòmica; i, en els seus tres anys a Splunk, va exercir diversos papers, com ara científic principal principal, vicepresident d'enginyeria i enginyer distingit.

Pinya de pi és una base de dades vectorials totalment gestionada que facilita la cerca de vectors a les aplicacions de producció. Combina biblioteques de cerca vectorial, capacitats com ara el filtratge i una infraestructura distribuïda per oferir un alt rendiment i fiabilitat a qualsevol escala.

Què et va atraure inicialment de l'aprenentatge automàtic?

Les estadístiques d'alta dimensió, la teoria de l'aprenentatge i temes com aquest van ser els que em van atraure a l'aprenentatge automàtic. Estan ben definits matemàticament, es poden raonar i tenen algunes idees fonamentals per oferir sobre què significa l'aprenentatge i com dissenyar algorismes que puguin aprendre de manera eficient.

Anteriorment, vau ser vicepresident d'enginyeria a Splunk, una plataforma de dades que ajuda a convertir les dades en acció per a l'observabilitat, la informàtica, la seguretat i molt més. Quines van ser algunes de les teves principals conclusions d'aquesta experiència?

No m'havia adonat fins que vaig arribar a Splunk com de diversos són els casos d'ús a la cerca empresarial: la gent utilitza Splunk per a l'anàlisi de registres, l'observabilitat i l'anàlisi de seguretat entre miríades d'altres casos d'ús. I el que és comú a molts d'aquests casos d'ús és la idea de detectar esdeveniments similars o esdeveniments molt diferents (o anòmals) en dades no estructurades. Això resulta ser un problema difícil i els mitjans tradicionals per cercar aquestes dades no són molt escalables. Durant la meva estada a Splunk vaig iniciar investigacions al voltant d'aquestes àrees sobre com podríem utilitzar l'aprenentatge automàtic (i l'aprenentatge profund) per a la mineria de registres, l'anàlisi de seguretat, etc. Amb aquest treball, em vaig adonar que les incrustacions de vectors i la cerca vectorial acabarien sent un primitiu fonamental per als nous enfocaments a aquests dominis.

Ens podries descriure què és la cerca vectorial?

A la cerca tradicional (també coneguda com a cerca de paraules clau), esteu buscant concordances de paraules clau entre una consulta i documents (podrien ser tuits, documents web, documents legals, què teniu). Per fer-ho, dividiu la vostra consulta en els seus testimonis, recupereu els documents que contenen el testimoni donat i fusioneu i classifiqueu per determinar els documents més rellevants per a una consulta determinada.

El principal problema, per descomptat, és que per obtenir resultats rellevants, la vostra consulta ha de tenir coincidències de paraules clau al document. Un problema clàssic de la cerca tradicional és: si cerqueu "pop" trobareu "música pop", però no coincidirà amb "soda", etc., ja que no hi ha cap solapament de paraules clau entre "pop" i documents que contenen "soda". tot i que sabem que col·loquialment a moltes zones dels EUA, "pop" significa el mateix que "soda".

A la cerca vectorial, comenceu convertint tant les consultes com els documents a un vector en un espai de dimensions elevades. Normalment, això es fa passant el text a través d'un model d'aprenentatge profund com els LLM d'OpenAI o altres models lingüístics. El que s'obté com a resultat és una matriu de nombres de coma flotant que es pot pensar com un vector en un espai de dimensions elevades.

La idea bàsica és que els vectors propers en aquest espai d'alta dimensió també són semànticament similars. Tornant al nostre exemple de "soda" i "pop", si el model s'entrena en el corpus correcte, és probable que consideri "pop" i "soda" semànticament similars i, per tant, les incrustacions corresponents estaran a prop l'una de l'altra en l'espai d'inserció. Si aquest és el cas, aleshores la recuperació de documents propers per a una consulta determinada esdevé el problema de cercar els veïns més propers del vector de consulta corresponent en aquest espai de dimensions elevades.

Podries descriure què és la base de dades vectorials i com permet la creació d'aplicacions de cerca vectorials d'alt rendiment?

Una base de dades vectorial emmagatzema, indexa i gestiona aquestes incrustacions (o vectors). Els principals reptes que resol una base de dades vectorials són:

Construir un índex de cerca eficient sobre vectors per respondre les consultes dels veïns més propers
Creació d'índexs auxiliars i estructures de dades eficients per donar suport al filtratge de consultes. Per exemple, suposem que només voleu cercar en un subconjunt del corpus, hauríeu de poder aprofitar l'índex de cerca existent sense haver de reconstruir-lo.

Admet actualitzacions eficients i manté les dades i l'índex de cerca actuals, coherents, duradors, etc.

Quins són els diferents tipus d'algoritmes d'aprenentatge automàtic que s'utilitzen a Pinecone?

En general, treballem en algorismes aproximats de cerca de veïns més propers i desenvolupem nous algorismes per actualitzar, consultar i gestionar de manera eficient grans quantitats de dades de la manera més rendible possible.

També treballem en algorismes que combinen recuperació densa i escassa per millorar la rellevància de la cerca.

Quins són alguns dels reptes darrere de la creació de cerca escalable?

Tot i que la cerca aproximada del veïnat més proper s'ha investigat durant dècades, creiem que queda molt per descobrir.

En particular, quan es tracta de dissenyar una cerca de veí més proper a gran escala que sigui rendible, per realitzar un filtrat eficient a escala o per dissenyar algorismes que admeten actualitzacions de gran volum i, en general, índexs nous, són problemes difícils d'avui.

Quins són alguns dels diferents tipus de casos d'ús per als quals es pot utilitzar aquesta tecnologia?

L'espectre de casos d'ús de les bases de dades vectorials augmenta cada dia. A part dels seus usos en cerca semàntica, també veiem que s'utilitza en cerca d'imatges, recuperació d'imatges, IA generativa, anàlisi de seguretat, etc.

Quina és la teva visió del futur de la recerca?

Crec que el futur de la recerca estarà impulsat per la intel·ligència artificial, i no crec que això estigui gaire lluny. En aquest futur, espero que les bases de dades vectorials siguin una primitiva bàsica. Ens agrada pensar en les bases de dades vectorials com la memòria a llarg termini (o la base de coneixement externa) de la IA.

Gràcies per la gran entrevista, els lectors que vulguin aprendre més haurien de visitar Pinya de pi.