Röportajlar

Anais Dotis-Georgiou, InfluxData’da Geliştirme Savunucusu – Röportaj Serisi

mm

Anais Dotis-Georgiou, InfluxData’da bir Geliştirme Savunucusu ve veri analitiği, yapay zeka ve makine öğrenimi kullanarak verileri güzelleştirmeye tutkulu. Topladığı verileri alır, araştırma, keşif ve mühendislik karışımı yapar ve verileri işlevsel, değerli ve güzel bir şeye çevirir. Ekranın arkasında değilken, dışarıda çizerek, germerek, kaykay yaparak veya bir futbol topunu kovalayarak bulunabilir.

InfluxData, milyonlarca geliştiricinin dünya çapında kullandığı açık kaynaklı zaman serisi veritabanı InfluxDB‘yi geliştiren şirkettir. Misyonları, geliştiricilerin zaman serisi verilerini kullanarak akıllı, gerçek zamanlı sistemler oluşturmalarına yardımcı olmaktır.

Sizi Araştırma Asistanı’ndan InfluxData’da Lider Geliştirme Savunucusu’na yolculuğunuz hakkında biraz bilgi verebilir misiniz? Veri analitiği ve makine öğrenimi geçmişiniz, şu anki rolünüzü nasıl şekillendirdi?

Kimya mühendisliği alanında lisans derecemi aldım ve nihayetinde aşı geliştirme ve prenatal otizm tespiti yapan laboratuvarlarda çalıştım. Oradan, sıvı işleme robotlarını programlamaya başladım ve veri bilimcilerin anormallik tespiti parametrelerini anlamalarına yardımcı oldum, bu da beni programlamaya daha fazla ilgi duymaya yöneltti.

Sonra Oracle’da satış geliştirme temsilcisi oldum ve gerçekten kodlama odaklı olmam gerektiğini fark ettim. Texas Üniversitesi’nde veri analitiği alanında bir kodlama bootcamp’ı yaptım ve teknolojiye, özellikle de geliştirici ilişkilerine geçiş yapabildim.

Teknik bir geçmişim vardı, bu da şu anki rolümü şekillendirmeme yardımcı oldu. Geliştirme deneyimi olmasa da, mühendislik geçmişine ve zihniyete sahip olan ancak aynı zamanda yazılım öğrenmeye çalışan insanlarla empati kurabiliyordum. Bu nedenle, içerik veya teknik öğreticiler oluşturduğumda, yeni kullanıcıların teknik zorlukları aşmasına yardımcı olabilecek bir bağlamda sohbeti yürütebiliyordum.

Çalışmanız, yaratıcılığı teknik uzmanlıkla birleştirmek gibi görünüyor. InfluxData’daki günlük işinizde verileri “güzel” yapmaya olan tutkunuzu nasıl dahil ediyorsunuz?

Şu sıralar daha çok veri mühendisliğine odaklanıyorum, veri analitiğine değil. Veri analitiğine eskisi kadar odaklanmasam da, matematiği gerçekten seviyorum ve bir algoritmanın arkasındaki matematiği açıklama fırsatı bulursam, seve seve anlatırım.

InfluxDB, zaman serisi veri alanında bir köşe taşı olmuştur. Açık kaynak topluluğunun InfluxDB’nin geliştirilmesine ve evrimine nasıl etkide bulunacağını görüyorsunuz?

InfluxData, açık veri mimarisine ve Apache ekosistemine oldukça bağlı. Geçen yıl, Rust ile yazılmış ve Apache Flight, DataFusion, Arrow ve Parquet ile inşa edilmiş yeni InfluxDB çekirdeği olan InfluxDB 3.0’u duyurduk – buna FDAP yığını diyoruz. InfluxData mühendisleri, bu yukarı akış projelerine katkıda bulunmaya devam ettikçe, topluluk büyüyor ve Apache Ok yayını projeleri daha kolay kullanıma sahip oluyor ve daha fazla özellik ve işlevsellik kazanıyor.

Zaman serisi verisi ve yapay zeka bağlamında son zamanlarda gördüğünüz en heyecan verici açık kaynaklı projeler veya katkılar nelerdir?

Zaman serisi için sıfır atışlı tahmin için LLM’lerin eklenmesini veya uygulanmasını görmek heyecan verici. Autolab, açık zaman serisi dil modelleri koleksiyonuna sahip ve TimeGPT de başka bir güzel örnek.

Ayrıca, Bytewax ve Mage.ai gibi çeşitli açık kaynaklı akış işleme kütüphaneleri, Hugging Face’den modelleri kullanabilme ve entegre edebilme imkanı sunuyor ve bunlar oldukça heyecan verici.

InfluxData, açık kaynaklı girişimlerinin geliştirici topluluğuna alakalı ve faydalı kalmasını nasıl sağlıyor, özellikle yapay zeka ve makine öğrenimi alanındaki hızlı gelişmeler karşısında?

InfluxData girişimleri, AI’ye özgü şirketlerin de kullandığı açık kaynaklı projelere katkıda bulunmaya odaklanarak alakalı ve faydalı kalıyor. Örneğin, her seferinde InfluxDB, Apache Arrow, Parquet veya DataFusion’a katkıda bulunduğunda, bu, Apache Spark, DataBricks, Rapids.ai, Snowflake, BigQuery, HuggingFace ve daha fazlasını kullanan diğer tüm AI teknoloji ve şirketlerine de fayda sağlıyor.

Zaman serisi dil modelleri, öngörülü analitikte giderek daha önemli hale geliyor. Bu modellerin zaman serisi tahmini ve anormallik tespitini nasıl dönüştürdüğünü açıklar mısınız?

Zaman serisi LLM’ler, lineer ve istatistiksel modelleri geride bırakırken, aynı zamanda sıfır atışlı tahmin sunuyor. Bu, modeli verilerinize önceden eğitmeye gerek kalmadığını anlamına geliyor. Ayrıca, istatistiksel bir modeli ayarlamak için derin zaman serisi istatistikleri konusunda uzman olmanıza gerek yok.

Ancak, doğal dil işlemeden farklı olarak, zaman serisi alanı büyük ölçekli, halka açık veri kümelerinden yoksun. Mevcut zaman serisi için önceden eğitilmiş modellerin çoğu, sadece birkaç bin veya belki birkaç yüz örnek içeren küçük örnek boyutlarına sahip veri kümeleri üzerinde eğitiliyor. Bu benchmark veri kümeleri, zaman serisi topluluğunun ilerlemesine instrumental olmuştur, ancak sınırlı örnek boyutları ve genellik eksikliği, derin öğrenme modellerini önceden eğitmek için zorluklar oluşturuyor.

Bu, açık kaynaklı zaman serisi LLM’lerin neden bu kadar zor bulunabileceğini açıklıyor. Google’ın TimesFM’si ve IBM’nin Tiny Time Mixers’i, yüz milyarlarca veri noktasına sahip devasa veri kümeleri üzerinde eğitildi. TimesFM ile ilgili olarak, ön eğitime Google Cloud TPU v3-256 kullanılarak yaklaşık on gün sürüyor ve 1.2 milyar parametreli bir model ortaya çıkıyor. Ön eğitilmiş model, daha sonra daha düşük öğrenme oranı ve daha az epoch kullanarak özel aşağı akış görevleri ve veri kümeleri üzerinde ayarlanıyor.

Umarım bu dönüşüm, derin alan bilgisi olmadan doğru tahminler yapabilen daha fazla insan anlamına gelir. Ancak, hesaplama açısından pahalı modelleri kullanmanın hem mali hem de çevresel maliyetini değerlendirmek için çok çalışmak gerekiyor.

Bu Hugging Face Blog gönderisi, zaman serisi tahmini hakkında başka bir güzel örneği detaylandırıyor.

Zaman serisi LLM’lerin geleneksel yöntemler üzerindeki avantajları nelerdir, özellikle karmaşık desenleri ve sıfır atışlı performansı ele alındığında?

Kritik avantaj, zaman serisi verilerinize bir modeli eğitmek ve yeniden eğitmek zorunda olmamanızdır. Bu, modelin kaymasını izleme ve yeniden eğitime tetikleme sorununu ortadan kaldırır ve tahmin pipeline’ın karmaşıklığını ortadan kaldırabilir.

Ayrıca, çok değişkenli istatistiksel modeller için cross-seri korelasyonlarını veya ilişkileri tahmin etmekle mücadele etmek zorunda kalmazsınız. Tahmin edilen değerler tarafından eklenen ek varyans, thường olarak sonuçlanan tahminleri bozar ve modelin sahte korelasyonları öğrenmesine neden olabilir.

Google’ın TimesFM’si, IBM’nin TinyTimeMixer’i ve AutoLab’ın MOMENT’i gibi modellerin gerçek dünya senaryolarında nasıl uygulandığına dair bazı pratik örnekler verebilir misiniz?

Bu soruyu cevaplamak zor; bu modeller masih относительно yeni olduğu için, şirketlerin bunları gerçek dünya senaryolarında nasıl kullandıkları hakkında çok az şey biliniyor.

Zaman serisi LLM’leri mevcut veri altyapısına entegre ederken organizasyonların genellikle karşılaştığı zorluklar nelerdir ve bunları nasıl aşabilirler?

Zaman serisi LLM’ler o kadar yeni ki, organizasyonların karşılaştığı spesifik zorlukları bilmiyorum. Ancak, herhangi bir GenAI modelini veri pipeline’ınıza entegre ederken karşılaştıkları aynı zorluklarla karşılaşacaklarını hayal ediyorum. Bu zorluklar arasında:

  • Veri uyumluluk ve entegrasyon sorunları: Zaman serisi LLM’ler genellikle özel veri formatları, tutarlı zaman damgaları ve düzenli aralıklar gerektirir, ancak mevcut veri altyapısı, farklı sistemler boyunca dağıtılmış yapılandırılmamış veya tutarlı olmayan zaman serisi verilerini içerebilir, Örneğin, eski veritabanları, bulut depolama veya gerçek zamanlı akışlar. Bunu çözmek için, ekiplerin zaman serisi verilerini ön işleme, temizleme ve hizalamak için güçlü ETL (extract, transform, load) pipeline’ları uygulamaları gerekir.
  • Model ölçeklenebilirliği ve performansı: Zaman serisi LLM’ler, özellikle derin öğrenme modelleri gibi transformer’ler, büyük miktarda zaman serisi verisini gerçek zamanlı veya neredeyse gerçek zamanlı olarak işleyebilmek için önemli kaynaklar ve hesaplama gücü gerektirebilir. Bu, ekiplerin modelleri ölçeklenebilir platformlarda dağıtmalarını, gerektiğinde GPU hızlandırmasını kullanmalarını, Dask veya Ray gibi dağıtılmış işlem çerçevelerini kullanarak model çıkarımını paralelleştirmelerini gerektirebilir.
  • Açıklanabilirlik ve güvenilirlik: Zaman serisi modelleri, özellikle karmaşık LLM’ler, “kara kutu” olarak görülebilir, bu da tahminlerin yorumlanmasını zorlaştırabilir. Bu, özellikle finans veya sağlık gibi düzenlenmiş endüstrilerde özellikle sorunlu olabilir.
  • Veri gizliliği ve güvenliği: Zaman serisi verilerini işlerken genellikle hassas bilgilerle, örneğin IoT sensör verileri veya finansal işlem verileri, ilgilenilir, bu nedenle LLM’leri entegre ederken veri güvenliğini ve uyumluluğunu sağlamak kritiktir. Organizasyonların, veri pipeline’ları ve modellerinin en iyi güvenlik uygulamalarına uymasını, erişim kontrolü ve şifreleme gibi önlemleri uygulamalarını ve modelleri güvenli, izole ortamlarda dağıtmalarını sağlamaları gerekir.

Gelecekte, öngörülü analitik ve yapay zeka alanındaki zaman serisi LLM’lerin rolünün nasıl evrileceğini görüyorsunuz? Size özellikle heyecanlandıran herhangi bir ortaya çıkan trend veya teknoloji var mı?

Mümkün bir sonraki adım, kullanıcıların bunları daha kolay dağıtabilmesi, erişebilmesi ve kullanabilmesi için zaman serisi LLM’leri sunan araçların tanıtılması olabilir. Kullandığım zaman serisi LLM’lerinin çoğu, çok spesifik ortamlar gerektiriyor ve geniş bir öğreticiler ve belgeler yelpazesi eksik. Bu projeler hala erken aşamalarında, ancak önümüzdeki aylarda ve yıllarda nasıl evrileceklerini görmek heyecan verici olacak.

Harika bir röportaj için teşekkür ederiz, daha fazla bilgi edinmek isteyen okuyucular InfluxData‘yı ziyaret edebilir.

Antoine, Unite.AI'nin vizyoner lideri ve kurucu ortağı, AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket ediyor. Bir seri girişimci olarak, AI'nin toplum için elektrik kadar yıkıcı olacağına inanmaktadır ve sık sık yıkıcı teknolojiler ve AGI'nin potansiyelini över.

Bir gelecekçi olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.ionun kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren yenilikçi teknolojilere yatırım yapmaya odaklanmıştır.