saplama Dr. Ram Sriharsha, Pinecone'de Mühendislikten Sorumlu Başkan Yardımcısı - Röportaj Dizisi - Unite.AI
Bizimle iletişime geçin

Röportajlar

Dr. Ram Sriharsha, Pinecone'de Mühendislikten Sorumlu Başkan Yardımcısı - Röportaj Dizisi

mm

Yayınlanan

 on

Dr. Ram Sriharsha, Pinecone'de Mühendislik ve Ar-Ge Başkan Yardımcısıdır.

Pinecone'ye katılmadan önce Ram, Yahoo, Databricks ve Splunk'ta Başkan Yardımcılığı rollerine sahipti. Yahoo'da hem baş yazılım mühendisi hem de araştırma bilimcisiydi; Databricks'te genom bilimi için birleşik analitik platformunun ürün ve mühendislik lideriydi; ve Splunk'ta geçirdiği üç yılda Kıdemli Baş Bilim İnsanı, Mühendislikten Sorumlu Başkan Yardımcısı ve Seçkin Mühendis dahil olmak üzere birçok rol oynadı.

Çam kozalağı üretim uygulamalarına vektör arama eklemeyi kolaylaştıran, tam olarak yönetilen bir vektör veritabanıdır. Her ölçekte yüksek performans ve güvenilirlik sağlamak için vektör arama kitaplıklarını, filtreleme gibi yetenekleri ve dağıtılmış altyapıyı birleştirir.

Başlangıçta sizi makine öğrenimine çeken şey neydi?

Yüksek boyutlu istatistikler, öğrenme teorisi ve bunun gibi konular beni makine öğrenimine çeken şeylerdi. Matematiksel olarak iyi tanımlanmışlardır, gerekçelendirilebilirler ve öğrenmenin ne anlama geldiği ve verimli bir şekilde öğrenebilen algoritmaların nasıl tasarlanacağı konusunda bazı temel içgörülere sahiptirler.

Daha önce, verileri Gözlemlenebilirlik, BT, Güvenlik ve daha fazlası için eyleme dönüştürmeye yardımcı olan bir veri platformu olan Splunk'ta Mühendislikten Sorumlu Başkan Yardımcısıydınız. Bu deneyimden çıkardığınız önemli çıkarımlardan bazıları nelerdi?

Splunk'a ulaşana kadar kurumsal aramadaki kullanım durumlarının ne kadar çeşitli olduğunu fark etmemiştim: İnsanlar Splunk'u sayısız diğer kullanım örneklerinin yanı sıra log analitiği, gözlemlenebilirlik ve güvenlik analitiği için kullanıyor. Ve bu kullanım durumlarının çoğunda ortak olan şey, yapılandırılmamış verilerdeki benzer olayları veya oldukça farklı (veya anormal) olayları tespit etme fikridir. Bunun zor bir sorun olduğu ortaya çıkıyor ve bu tür verileri aramanın geleneksel yolları pek ölçeklenebilir değil. Splunk'ta geçirdiğim süre boyunca, günlük madenciliği, güvenlik analitiği vb. için makine öğrenimini (ve derin öğrenmeyi) nasıl kullanabileceğimize dair bu alanlar etrafında araştırma başlattım. Bu çalışma sayesinde, vektör yerleştirmelerin ve vektör aramanın sonunda ortaya çıkacağını fark ettim. bu alanlara yeni yaklaşımlar için temel bir ilkel.

Vektör aramanın ne olduğunu bize açıklayabilir misiniz?

Geleneksel aramada (anahtar kelime arama olarak da bilinir), bir sorgu ile belgeler arasında anahtar kelime eşleşmeleri arıyorsunuz (bu, tweet'ler, web belgeleri, yasal belgeler, elinizde ne varsa olabilir). Bunu yapmak için, sorgunuzu belirteçlerine bölersiniz, verilen belirteci içeren belgeleri alırsınız ve belirli bir sorgu için en alakalı belgeleri belirlemek üzere birleştirir ve sıralarsınız.

Elbette asıl sorun, alakalı sonuçlar elde etmek için sorgunuzun belgede anahtar kelime eşleşmelerinin olması gerektiğidir. Geleneksel aramayla ilgili klasik bir sorun şudur: "pop" için arama yaparsanız "pop müzik" ile eşleşirsiniz, ancak "soda" vb. ile eşleşmezsiniz çünkü "pop" ile "soda" içeren belgeler arasında anahtar kelime örtüşmesi yoktur. ABD'de birçok alanda halk dilinde "pop"un "soda" ile aynı anlama geldiğini bilsek de.

Vektör aramada, hem sorguları hem de belgeleri yüksek boyutlu bir uzayda bir vektöre dönüştürerek başlarsınız. Bu genellikle metni OpenAI'nin LLM'leri veya diğer dil modelleri gibi derin bir öğrenme modelinden geçirerek yapılır. Sonuç olarak, bazı yüksek boyutlu uzayda bir vektör olarak düşünülebilecek bir kayan noktalı sayılar dizisi elde edersiniz.

Temel fikir, bu yüksek boyutlu uzayda yakın vektörlerin de anlamsal olarak benzer olmasıdır. “Soda” ve “pop” örneğimize geri dönersek, eğer model doğru korpus üzerinde eğitilirse, “pop” ve “soda”yı anlamsal olarak benzer kabul etmesi muhtemeldir ve bu nedenle karşılık gelen gömmeler birbirine yakın olacaktır. gömme alanı. Durum buysa, belirli bir sorgu için yakındaki belgeleri almak, bu yüksek boyutlu uzayda karşılık gelen sorgu vektörünün en yakın komşularını arama sorunu haline gelir.

Vektör veri tabanının ne olduğunu ve yüksek performanslı vektör arama uygulamalarının oluşturulmasını nasıl mümkün kıldığını açıklayabilir misiniz?

Bir vektör veri tabanı, bu yerleştirmeleri (veya vektörleri) depolar, indeksler ve yönetir. Bir vektör veri tabanının çözdüğü ana zorluklar şunlardır:

  • En yakın komşu sorgularını yanıtlamak için vektörler üzerinde verimli bir arama dizini oluşturma
  • Sorgu filtrelemeyi desteklemek için verimli yardımcı dizinler ve veri yapıları oluşturma. Örneğin, külliyatın yalnızca bir alt kümesi üzerinde arama yapmak istediğinizi varsayalım, yeniden oluşturmak zorunda kalmadan mevcut arama dizininden yararlanabilmelisiniz.

Verimli güncellemeleri destekleyin ve hem verileri hem de arama dizinini taze, tutarlı, dayanıklı vb. tutun.

Pinecone'de kullanılan farklı makine öğrenimi algoritma türleri nelerdir?

Genellikle yaklaşık en yakın komşu arama algoritmaları üzerinde çalışıyoruz ve büyük miktarda veriyi mümkün olduğunca uygun maliyetli bir şekilde verimli bir şekilde güncellemek, sorgulamak ve başka türlü ele almak için yeni algoritmalar geliştiriyoruz.

Ayrıca, gelişmiş arama alaka düzeyi için yoğun ve seyrek erişimi birleştiren algoritmalar üzerinde çalışıyoruz.

 Ölçeklenebilir arama oluşturmanın arkasındaki zorluklardan bazıları nelerdir?

Yaklaşık en yakın komşu araması onlarca yıldır araştırılıyor olsa da, ortaya çıkarılması gereken çok şey olduğuna inanıyoruz.

Özellikle, uygun maliyetli büyük ölçekli en yakın komşu arama tasarımı söz konusu olduğunda, ölçekte verimli filtreleme gerçekleştirme veya yüksek hacimli güncellemeleri ve genellikle yeni dizinleri destekleyen algoritmalar tasarlama söz konusu olduğunda, bunların tümü günümüzde zorlu problemlerdir.

Bu teknolojinin kullanılabileceği farklı kullanım durumlarından bazıları nelerdir?

Vektör veritabanları için kullanım örnekleri yelpazesi her geçen gün artıyor. Semantik aramadaki kullanımlarının yanı sıra görsel arama, görsel alma, üretici yapay zeka, güvenlik analitiği vb. alanlarda da kullanıldığını görüyoruz.

Aramanın geleceği için vizyonunuz nedir?

Aramanın geleceğinin yapay zeka odaklı olacağını düşünüyorum ve bunun çok da uzak olduğunu düşünmüyorum. O gelecekte, vektör veritabanlarının temel bir ilkel olmasını bekliyorum. Vektör veritabanlarını yapay zekanın uzun süreli belleği (veya harici bilgi tabanı) olarak düşünmeyi seviyoruz.

Harika röportaj için teşekkürler, daha fazla bilgi edinmek isteyen okuyucular ziyaret etmelidir. Çam kozalağı.

Unite.AI'nin kurucu ortağı ve Forbes Teknoloji Konseyi, Antoine bir fütürist Yapay zeka ve robot biliminin geleceği konusunda tutkulu olan.

Aynı zamanda Kurucusu menkul kıymetler.io, çığır açan teknolojilere yatırım yapmaya odaklanan bir web sitesi.