Connect with us

Dr. Ram Sriharsha, Pinecone’da Mühendislik Başkan Yardımcısı – Röportaj Serisi

Röportajlar

Dr. Ram Sriharsha, Pinecone’da Mühendislik Başkan Yardımcısı – Röportaj Serisi

mm

Dr. Ram Sriharsha, Pinecone’da Mühendislik ve Ar-Ge Başkan Yardımcısıdır.

Pinecone’a katılmadan önce Ram, Yahoo, Databricks ve Splunk’ta Başkan Yardımcısı rollerinde bulunmuştur. Yahoo’da hem başlıca yazılım mühendisi hem de araştırma bilimcisi olarak görev yaptı; Databricks’te, genomik için birleşik analiz platformunun ürün ve mühendislik lideriydi ve Splunk’taki üç yılında Sr. Baş Bilim Adamı, Mühendislik Başkan Yardımcısı ve Seçkin Mühendis gibi多lu roller üstlendi.

Pinecone üretim uygulamalarına vektör araması eklemeyi kolaylaştıran tam olarak yönetilen bir vektör veritabanıdır. Vektör arama kitaplıklarını, filtreleme gibi özelliklerini ve dağıtılmış altyapıyı birleştirerek herhangi bir ölçekte yüksek performans ve güvenilirlik sağlar.

Nasıl makine öğrenimi ile ilgilenmeye başladınız?

Yüksek boyutlu istatistikler, öğrenme teorisi ve benzer konular makine öğrenimi ile ilgilenmeme neden oldu. Matematiksel olarak iyi tanımlanmışlar, akıl yürütülebiliyorlar ve öğrenmenin ne anlama geldiği, verimli öğrenme algoritmaları tasarlamak hakkında temel içgörüler sunuyorlar.

Önceden Splunk’ta Mühendislik Başkan Yardımcısıydınız, veri platformu Observability, BT, Güvenlik ve daha fazlası için verileri eyleme dönüştüren bir platform. Bu deneyimden elde ettiğiniz bazı ana sonuçlar nelerdir?

Splunk’a gelene kadar girişimdeki kullanım örneklerinin ne kadar çeşitli olduğunu fark etmemişim. İnsanlar log analizi, gözlemlenebilirlik ve güvenlik analizi gibi birçok kullanım örneği için Splunk kullanıyor. Bu kullanım örneklerinin çoğunda ortak olan şey, yapılandırılmamış verilerde benzer olayları veya yüksek oranda farklı (veya anomali) olayları tespit etme fikridir. Bu, geleneksel arama yöntemleri ile çözülebilecek bir sorun değil. Splunk’taki süreğim boyunca, log madenciliği, güvenlik analizi vb. için makine öğrenimi (ve derin öğrenme) konusunda araştırma başlattım. Bu çalışmada, vektör gömme ve vektör aramasının bu alanlara yeni yaklaşımlar için temel bir ilke olacağını fark ettim.

Bize vektör araması nedir, açıklar mısınız?

Geleneksel aramada (diğer adıyla anahtar kelime araması), sorgu ve belgeler arasında (bu, tweet’ler, web belgeleri, yasal belgeler vb. olabilir) anahtar kelime eşleştirmeleri ararsınız. Bunu yapmak için sorgunuzu token’lerine ayırır, verilen token’i içeren belgeleri alırsınız ve birleştirmek ve sıralamak için en alakalı belgeleri belirlemek için kullanılır.

Tabii ki, ana problem, alakalı sonuçlar elde etmek için sorgunuzun belgede anahtar kelime eşleştirmeleri içermesi gerektiğidir. Geleneksel aramanın klasik bir sorunu, “pop” ararsanız, “pop müziği” ile eşleştireceksiniz, ancak “soda” ile eşleştirmeyeceksiniz, çünkü “pop” ve “soda” arasında anahtar kelime örtüşmesi yoktur, ancak birçok ABD bölgesinde “pop” ve “soda” aynı anlama gelir.

Vektör aramasında, sorguları ve belgeleri某 yüksek boyutlu uzayda bir vektör olarak dönüştürerek başlarsınız. Bu genellikle metni OpenAI’ın LLM’leri veya diğer dil modelleri gibi derin öğrenme modellerinden geçirerek yapılır. Sonuç olarak,某 yüksek boyutlu uzayda bir vektör olarak düşünülebilecek bir dizi kayan nokta sayısı dizisi alırsınız.

Temel fikir, bu yüksek boyutlu uzayda yakın vektörlerin aynı zamanda anlamsal olarak benzer olmasıdır. “Soda” ve “pop” örneğimize geri dönersek, model doğru korpus üzerinde eğitilmişse, “pop” ve “soda”yı anlamsal olarak benzer olarak düşünecek ve karşılık gelen gömme noktaları bu gömme uzayında birbirlerine yakın olacaktır. Eğer böyleyse, bir sorgu için yakın belgeleri almak, bu yüksek boyutlu uzayda karşılık gelen sorgu vektörünün en yakın komşularını aramak sorununa dönüşür.

Vektör veritabanını ve yüksek performanslı vektör arama uygulamaları oluşturmasını nasıl sağladığını açıklar mısınız?

Bir vektör veritabanı, bu gömmeleri (veya vektörleri) depolar, dizinler ve yönetir. Bir vektör veritabanının çözdüğü ana zorluklar:

  • Yakın komşu sorgularını cevaplamak için vektörler üzerinde verimli bir arama dizini oluşturmak
  • Filtreleme sorgularını desteklemek için verimli yardımcı dizinler ve veri yapıları oluşturmak. Örneğin, korpusun yalnızca bir alt kümesini aramak istiyorsanız, mevcut arama dizinini yeniden oluşturmadan yararlanabilmelisiniz

Verilerin ve arama dizininin güncellenmesini destekleyin ve her şeyi taze, tutarlı, dayanıklı vb. tutun.

Pinecone’da kullanılan farklı makine öğrenimi algoritmaları nelerdir?

Genel olarak, yaklaşık en yakın komşu arama algoritmaları üzerinde çalışır ve büyük miktarda veriyi mümkün olduğunca maliyet efektif bir şekilde güncellemek, sorgulamak ve diğer şekilde işlemek için yeni algoritmalar geliştiririz.

Ayrıca, arama alakalılığını iyileştirmek için yoğun ve seyrek geri alma birleştiren algoritmalar üzerinde çalışıyoruz.

Ölçeklenebilir arama oluşturmanın arkasındaki bazı zorluklar nelerdir?

Yaklaşık en yakın komşu araması on yıllardır araştırılmıştır, ancak bizim görüşümüze göre hala keşfedilecek çok şey var.

Özellikle, büyük ölçekli en yakın komşu aramasını maliyet efektif bir şekilde tasarlamak, büyük ölçekte verimli filtreleme yapmak veya yüksek hacimli güncelleme desteleyen ve genel olarak taze dizinlerin desteklenmesini sağlayan algoritmalar tasarlamak gibi zorluklar vardır.

Bu teknolojinin kullanılabileceği farklı kullanım örnekleri nelerdir?

Vektör veritabanlarının kullanım örnekleri spektrumu gün geçtikçe büyümektedir. Anlamsal aramanın yanı sıra, görüntü araması, görüntü geri çağırma, üretken AI, güvenlik analizi vb. alanlarda da kullanıldığını görüyoruz.

Gelecekte aramanın geleceği hakkında ne düşünüyorsunuz?

Sanıyorum ki aramanın geleceği AI tarafından yönlendirilecek ve bu çok uzakta değil. Bu gelecekte, vektör veritabanlarının temel bir ilke olacağını düşünüyoruz. Vektör veritabanlarını, AI’ın uzun süreli hafızası (veya dış bilgi tabanı) olarak düşünmeyi seviyoruz.

Harika bir röportaj için teşekkür ederiz, daha fazla bilgi edinmek isteyen okuyucular Pinecone sitesini ziyaret edebilir.

Antoine bir vizyoner lider ve Unite.AI'in kurucu ortağıdır ve AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket etmektedir. Bir seri girişimci olarak, toplum için elektrik kadar yıkıcı olacağına inandığı AI'nin potansiyeli hakkında sık sık konuşur ve coşkusunu dile getirir.
Bir futurist olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.io kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren teknolojilere yatırım yapmaya odaklanmıştır.