Entrevistas
Edo Liberty, Fundador y Científico Jefe en Pinecone – Serie de Entrevistas

Edo Liberty, Fundador y Científico Jefe en Pinecone, es un experto líder en sistemas de datos a gran escala y aprendizaje automático. Antes de lanzar Pinecone, la base de datos de vectores construida para el rendimiento y la escalabilidad, fue Director de Investigación en AWS y Jefe de los Laboratorios de Inteligencia Artificial de Amazon, donde su equipo desarrolló tecnologías básicas detrás de SageMaker, OpenSearch, Kinesis y más. Anteriormente, dirigió el laboratorio de investigación de Yahoo en Nueva York, avanzando en plataformas y aplicaciones de aprendizaje automático en búsqueda, publicidad y seguridad. Su trabajo se centra en algoritmos y fundamentos matemáticos para el manejo de conjuntos de datos masivos, que abarcan la reducción de dimensionalidad, el agrupamiento, la transmisión y el álgebra lineal a gran escala.
Pinecone es una base de datos de vectores completamente administrada construida para alimentar búsquedas escalables y eficientes en conjuntos de datos grandes y dinámicos. Admite tanto incrustaciones densas como dispersas, indexación en tiempo real y filtrado basado en metadatos, mientras se integra de manera transparente con nubes, modelos y marcos líderes. Con escalado automático sin servidor, seguridad de nivel empresarial y normas de cumplimiento como SOC 2, ISO 27001, GDPR y HIPAA, Pinecone proporciona una base confiable para implementar aplicaciones de inteligencia artificial a gran escala.
Fundaste Pinecone en 2019 después de liderar la investigación en Amazon AI Labs y construir sistemas como SageMaker. ¿Qué te inspiró a lanzar Pinecone y centrarte específicamente en bases de datos de vectores?
En AWS, nuestro equipo de aprendizaje automático construyó sistemas increíbles, pero cuando se trataba de memoria, no había forma de buscar semánticamente a través de vastas cantidades de datos no estructurados. Requería ingenieros extremadamente especializados que supieran cómo construir soluciones de búsqueda de vectores complejas. Sabía que si había una forma para que la gente accediera fácilmente a la riqueza semántica que capturan los vectores y la combinara con modelos sofisticados, entonces cualquiera podría acelerar el valor de la inteligencia artificial para sí mismo. Así que me fui de AWS con el objetivo de transformar realmente cómo hacer que sea lo más simple posible obtener el mayor valor de los datos no estructurados propietarios utilizando el poder de la inteligencia artificial.
Pinecone ha crecido hasta convertirse en la empresa definitoria en el espacio de bases de datos de vectores. Mirando hacia atrás, ¿cuáles fueron los mayores obstáculos técnicos o de mercado que tuviste que superar para establecer esta nueva categoría?
El mayor desafío! Nadie sabía qué era una base de datos de vectores. Teníamos que educar al mercado sobre lo que estábamos construyendo y por qué era importante. Le preguntamos a nuestros clientes qué lo llamaban ellos mismos y nos dijeron que una base de datos de vectores.
Una vez que los demás comenzaron a entender, la gente preguntaba por qué no podían usar simplemente código abierto. Y teníamos que explicar todas las limitaciones del código abierto y los compromisos de escalabilidad y rendimiento que obtendrían, y después de todo eso, todavía necesitarían ingenieros experimentados para construir su infraestructura. Es por eso que siempre hemos sido un servicio administrado y nos centramos en la experiencia del usuario. Nuestro sistema es extremadamente complicado bajo la superficie porque necesitas esta infraestructura especializada para la búsqueda de similitud a escala de miles de millones. Pero lo hacemos accesible con una llamada a la API que cualquier desarrollador puede usar.
Esto significaba abstraer toda la complejidad de los algoritmos de vecino más cercano aproximado, la administración de índices y los sistemas distribuidos. Los desarrolladores no quieren pensar en parámetros HNSW, solo quieren que funcione.
Recientemente has pasado de CEO a Científico Jefe, trayendo a Ash Ashutosh para liderar la empresa. ¿Qué motivó esta decisión, y cómo ves tu papel evolucionando en el próximo capítulo de Pinecone?
Pinecone, como empresa, es una empresa de inteligencia artificial y centrada en la investigación. Llegamos a donde estamos hoy porque hemos redefinido la búsqueda, los sistemas y los algoritmos. Y hemos sido muy activos académicamente, publicando informes técnicos y artículos, dando charlas y educando al mercado, incluso escribiendo libros de texto y dando cursos universitarios sobre inteligencia artificial y memoria. A medida que la empresa crece, necesitamos formalizar estos esfuerzos bajo un laboratorio de investigación que esté separado del resto del negocio. Piensa en DeepMind y Google como un ejemplo. En el futuro, me centraré mi energía en liderar nuestra investigación, hacer que la inteligencia artificial sea conocedora y construir el próximo conjunto de productos contextuales de Pinecone.
Al mismo tiempo, Ash será un fantástico CEO y líder para Pinecone. Fundó y escaló múltiples empresas de infraestructura y sabe cómo operar una empresa como Pinecone de manera muy efectiva. Es profundamente conocedor y creativo sobre nuestra tecnología y nuestro mercado. Y está intensamente obsesionado con el cliente. Ash y yo nos asociaremos profundamente para crecer la empresa y nuestro negocio.
En tu publicación de blog escribiste sobre centrarte en “hacer que la inteligencia artificial sea conocedora”. ¿Puedes desglosar qué significa esto en la práctica y cómo la tecnología de Pinecone está única y especialmente posicionada para habilitarlo?
La inteligencia artificial sin memoria es como una persona brillante con amnesia: mucha inteligencia, pero sin contexto. “Hacer que la inteligencia artificial sea conocedora” significa dar a los sistemas de inteligencia artificial la capacidad de acceder, entender y razonar sobre vastas cantidades de información en tiempo real.
Estamos habilitando aplicaciones impulsadas por inteligencia artificial para proporcionar información relevante en tiempo real, extraída de datos semánticamente entendidos y organizados, y asegurando que los sistemas de inteligencia artificial no solo estén adivinando, sino que puedan recuperar y sintetizar conocimiento a demanda. Esto resulta en salidas más precisas, informadas y actualizadas para los usuarios finales.
Lo hacemos proporcionando todos los componentes y capacidades para una recuperación de alta calidad y precisa de extremo a extremo en un solo lugar, junto con un rendimiento líder en la industria para la recuperación a gran escala.
Habiendo enseñado “Memoria a Largo Plazo en Inteligencia Artificial” en Princeton, ¿cómo ves la relación entre bases de datos de vectores y el futuro de los modelos de inteligencia artificial? ¿Crees que la memoria y el contexto son los ingredientes que faltan para los modelos grandes de hoy en día?
Absolutamente. Los LLM son máquinas de coincidencia de patrones, brillantes, pero fundamentalmente limitadas por su conjunto de datos de entrenamiento y ventanas de contexto. El curso que enseñé con Matthijs Douze de Meta se centró en los algoritmos que hacen posible la búsqueda de vectores sobre cantidades masivas de datos. El futuro no son modelos más grandes, es una recuperación más inteligente sobre más datos, en tiempo real.
Muchas empresas luchan por moverse de pilotos de inteligencia artificial a implementaciones a escala de producción. ¿Cómo ayuda Pinecone a cerrar esta brecha, y qué mejores prácticas has observado en clientes exitosos?
La brecha generalmente se reduce a tres cosas: rendimiento (y costo) a escala, seguridad y complejidad. Un demo que funciona con 10 millones de documentos se desmorona a 10 mil millones. Ejecutar algo durante una hora es diferente a ejecutarlo las 24 horas del día sin tolerancia a los tiempos de inactividad. Es por eso que nos hemos obsesionado con nuestra arquitectura sin servidor, características de nivel empresarial y facilidad de uso.
La cosa más importante es simplemente empezar. Nuestros clientes a menudo se sorprenden de cuánto pueden hacer sin siquiera hablar con nosotros. Lo hemos diseñado así a propósito, pero siempre estamos allí cuando nuestros clientes nos necesitan.
Has pasado tu carrera moviéndote entre la academia, la investigación de tecnología grande (Yahoo, AWS) y el espíritu empresarial. ¿Cómo han moldeado estos diferentes entornos tu enfoque para construir Pinecone?
La academia me enseñó a pensar desde los primeros principios. Cómo abstraer y diseñar grandes soluciones. En Yahoo y AWS, aprendí a construir plataformas de datos simples que a los ingenieros les encanta construir.
El espíritu empresarial es donde aprendes que la mejor tecnología solo gana si resuelve problemas reales de una manera que la gente pueda usar realmente.
Esta mezcla es crucial para lo que estamos construyendo. No estamos escribiendo simplemente artículos de investigación o construyendo tecnología por la tecnología en sí. Cada innovación tiene que hacer que la vida de los desarrolladores sea más fácil y las aplicaciones de las empresas más poderosas.
La convergencia de la búsqueda y la inteligencia artificial parece ser uno de los cambios más grandes en la informática. ¿Hacia dónde crees que esto se dirige en los próximos cinco años, y cómo ayudará el trabajo de Pinecone a dar forma a ese futuro?
La búsqueda se está volviendo conversacional y contextual. En cinco años, no “buscarás”, tendrás diálogos con sistemas de inteligencia artificial que entienden no solo tu consulta, sino tu intención, tu contexto, tu historia. Cada interacción estará informada por vastas bases de conocimiento que se actualizan en tiempo real.
Estamos construyendo la infraestructura para esto. Nuestra base de datos de vectores es solo el comienzo. Veo un futuro donde cada aplicación tiene contexto incrustado, donde la inteligencia artificial no alucina porque está basada en datos, donde la frontera entre buscar y saber desaparece.
Como Científico Jefe, estarás más involucrado con los datos, los modelos y la creación de prototipos. ¿Qué áreas de investigación te emociona personalmente explorar en este momento?
Oh, hombre, ¿por dónde empezar? A corto y mediano plazo, me sumergo más en la eficiencia y la facilidad de uso. ¿Podemos hacer que la búsqueda de vectores sea 10 veces más rápida mientras la hacemos 10 veces más barata? ¿Podemos hacer que nuestras API sean incluso más simples de lo que son hoy? Estos son problemas difíciles.
A largo plazo, estoy obsesionado con la intersección de la recuperación y el razonamiento. ¿Cómo se construyen sistemas que no solo encuentran hechos relevantes, sino que entienden las relaciones entre ellos? Y luego usan ese contexto para crear inteligencia artificial conocedora y agentes más poderosos.
Finalmente, a nivel personal: al dejar el papel de CEO, ¿qué te emociona más de esta transición, y qué tipo de avances esperas desbloquear en la próxima etapa de Pinecone?
Me hace más feliz cuando estoy profundamente en el código, trabajando con nuestro equipo de investigación, teniendo esos momentos de “wow, esto realmente funciona” a las 2 a. m.
Mi sueño es hacer que la recuperación sea tan buena que se vuelva invisible. Donde los desarrolladores puedan construir aplicaciones contextuales sin pensar en incrustaciones o índices o nada de eso, y simplemente funcione.
Estamos en este momento increíble donde la inteligencia artificial y los datos se están fusionando. El potencial es ilimitado y puedo pasar mis días haciendo que ese futuro suceda ahora.
Gracias por la gran entrevista, los lectores que deseen aprender más pueden visitar Pinecone.












