Röportajlar
Avi Baum, Hailo’nun CTO’su – Röportaj Serisi

Avi Baum, Hailo’nun CTO’su, şirketin teknoloji vizyonunu ve ürün inovasyonunu yönetiyor. Daha önce Texas Instruments’da Kablosuz Bağlantı için CTO olarak görev yaptı ve IoT ve IIoT pazarlarındaki bağlantılı MCUs için stratejileri yönlendirdi ve İsrail Savunma Kuvvetleri’nde üst düzey mimari ve liderlik rollerini üstlendi.
Hailo, yüksek performanslı, düşük güç kenar AI işlemcileri için uzmanlaşmış bir İsrail AI-chip şirketidir. Uygulamalar arasında otonom araçlar, akıllı kameralar ve robotik gibi olanlar bulunur ve bunları kapsamlı bir yazılım paketi ve küresel iş ortağı ekosistemi destekler.
Kenar AI alanına ilk olarak neler sizi çekti ve mühendislik deneyimleriniz işlemci tasarımı hakkında düşünme şeklinizi nasıl etkiledi?
Kariyer yolculuğum, ortaya çıkan pazarlara götürdü. Texas Instruments’ta (TI) görev yaptığım süre boyunca, bir yarı iletken liderinde uzun süredir devam eden bir mirasa sahiptim ve sistem düzeyinde tasarım ve mimariyi yönetme fırsatım oldu, ürün tanımı bölümünün başına geçtim ve daha sonra bu bölümün CTO’su olarak görev yaptım. Bu, bana sürekli olarak ortaya çıkan teknolojileri keşfetme fırsatı verdi.
Hailo’yu 2017’de kurduğumuzda, AI’nin bulutda başladığı ve kenar cihazları için de bir olanak haline gelebileceği açıktı. Böylece bu yolculuğa başladık.
Kenarda genişleyen üretken AI, işlemci performansı değerlendirmesinde TOPS’in (tera işlem saniye) artık yeterli bir ölçüt olmamasının nedeni nedir?
TOPS, uzun süredir AI donanımını değerlendirmek için kullanılan bir ölçüt olmuştur, ancak kenardaki üretken AI döneminde artık yeterli değildir. Klasik modellerin doğası, çok miktarda veriyi anlamlı içgörülere çevirmektir, bu nedenle işlenen verilerin miktarı arttıkça işleme için gereken hesaplama miktarı da artar. Bu görevler için modeller genellikle işlenen verilerin miktarından daha küçüktür, bu nedenle model parametrelerine erişimi sağlayan bant genişliği yükü nispeten ihmal edilebilir.
Üretken modeller ise dikkat çekici şekilde daha büyük – milyarlarca parametre alanında – ve bu durumlarda bellek bant genişliği önemli bir faktör haline gelir.
Sadece TOPS’e odaklanmak yerine, bir işlemcinin gerçek dünya koşullarında hesaplama ve belleği nasıl dengelediğini değerlendirmek kritiktir. En yüksek numarayı takip etmek değil, mimariyi işlediği iş yüklerine göre ayarlamak önemlidir.
Neden bellek bant genişliği, özellikle LLM’ler ve VLM’ler için kenar AI iş yüklerinde artık hesaplama yerine daha kritik bir darboğaz haline geliyor?
Kenar AI iş yükleri için, özellikle LLM’ler veya VLM’ler gibi olanlar için, bellek bant genişliği hızla birincil darboğaz haline geliyor. Bu modeller genellikle 0,5 ila 8 milyar parametre arasında değişir, çip üzerindeki bellek kapasitesini aşar ve dış belleğe (DRAM) erişimi gerektirir. Bu, bellek bant genişliği talebini dramatik olarak artırır. Örneğin, 1 milyar parametreli bir model, optimal koşullarda standart bir LPDDR4X arabirimi ile saniyede yaklaşık 40 token sunabilir, ancak 4 milyar model için aynı oranda bant genişliği gerektirir. Aksi takdirde, performans 떨어ir, bu, sınırlı hesaplama nedeniyle değil, işlemcinin verileri yeterince hızlı alamamasından kaynaklanır. Hesaplama ve bellek arasındaki bu dengesizlik, kenarda üretken AI’yi dağıtmadaki en önemli zorluklardan biridir. Bu, katman tarafından hesaplanan mimarilerde daha da artar, burada ara sonuçlar da bellek trafiğini artırır ve bant genişliğini daha da zorlar.
Gerçek dünya kenar uygulamaları için ürün takımlarının benchmarking stratejisini nasıl yeniden düşünmeleri gerekir?
Ürün takımlarının, tek bir performans ölçütüne (TOPS) dayanmak yerine, kenar dağıtımı gerçekliklerini yansıtan bir benchmarking stratejisini benimsemeleri gerekir. Bu, belirli bir kullanım durumunu, işlemcinin işleyeceği gerçek iş yükünü ve “çalışma noktası”nı – güç, maliyet ve gecikme kısıtlamalarının kesişme noktasını – anlamaktan başlar. Oradan, hesaplama ve belleğin bu koşullar altında nasıl etkileşime girdiğini değerlendirmek önemlidir. Yüksek TOPS’e sahip bir işlemci, bellek bant genişliği sınırlıysa teslim edemez ve daha fazla bellek, hesaplama kapasitesi yetersizse yardımcı olmaz.
Takımların, işlemcinin algılama, geliştirme ve üretken iş yükleri gibi görevleri sürekli olarak gerçekleştirebileceğini değerlendirmeleri gerekir, her biri farklı talepleri vardır. Hedef, zirve özelliklere optimize etmek değil, beklenen tüm kullanım durumları boyunca dengeli bir performansı garantilemektir.
Bu, ‘steril’ ölçümlerden daha karmaşık yaklaşımlara doğru doğal bir geçiştir, bunlar platformların nasıl kullanıldığını ve nasıl derecelendirildiğini yansıtır – diğer mimarilerin (örneğin SPEC, Coremark, 3DMark vb.) ana akıma girmesiyle ortaya çıkan durum gibi.
Hailo işlemcileri arkasındaki mimari kararlarda güç ve maliyet kısıtlamalarının nasıl bir rolü vardır, özellikle tüketiciye yönelik kenar cihazları için?
Güç ve maliyet, özellikle tüketiciye yönelik kenar cihazları için AI işlemcileri tasarlanırken iki önemli kısıtlamadır. IoT sensörleri veya akıllı ev asistanları gibi kompakt cihazlarda, güç bütçeleri dar, genellikle aktif soğutma yoktur, bu nedenle enerji verimliliği kritik hale gelir. Her ek hesaplama veya bellek kaynağı, güç çekimi ve ısıyı artırır, bu da doğrudan kullanılabilirlik ve pil ömrünü etkiler.
Maliyet de aynı derecede etkilidir. Tüketici cihazları, rekabetçi fiyat noktalarında kalmalıdır, bu nedenle işlemci yalnızca belirli bir miktarda TOPS ve belleği içererek ekonomik olarak uygulanabilir olabilir. Bu kısıtlamalar, zorlu mimari ticaretlere yol açar. Hailo’da, gerçek dünya uygulama ihtiyaçlarını, dar bir güç ve maliyet zarfı içinde karşılayan dengeli tasarımlara öncelik veriyoruz, böylece kenar AI, geniş bir tüketici ürün yelpazesi boyunca uygulanabilir, verimli ve ölçeklenebilir hale gelir.
Bir uygulamaya “çalışma noktası”nı nasıl tanımlarsınız ve bu, kenar AI dağıtımı için neden çok önemlidir?
“Çalışma noktası”nı tanımlamak, bir sistem tasarımı sırasında en önemli adımlardan biridir. Bu, bir específik dağıtımda gerçeğe uygun olarak ulaşılabilen, güç, maliyet ve gecikme kısıtlamalarının kesişme noktasına atıfta bulunur. Bulut gibi, bir problema daha fazla hesaplama veya bellek atayamayacağınız gibi, kenar cihazları sabit bir zarf içinde çalışır. Bu nedenle, uygulamanın gerçek gereksinimlerine dayalı bilinçli ticaretler yapmanız gerekir. Örneğin, bir IoT sensörü, ham performansa kıyasla enerji verimliliğini önceliklendirebilir, oysa otonom bir sistem, güç çekimine bakılmaksızın ultra düşük gecikme talep edebilir. Çalışma noktası kurulduktan sonra, işlemcinin bu ihtiyacı karşılayacak hesaplama ve bellek dengesine sahip olup olmadığını değerlendirebilirsiniz. Hedef, her yönde özellikleri en üst düzeye çıkarmak değil, gerçek dünya koşullarında sürekli ve güvenilir performansı garantilemektir.
Genel olarak, çalışma noktası, ana performans göstergelerinin optimumda olduğu yerdir. Bunu yapmamak, platformun en tipik kullanım senaryolarında alt düzeyde çalışmasına neden olabilir.
Basit bir örnek olarak, bir AI analiz sistemini çok yüksek çözünürlükte son derece verimli hale getirebilirsiniz, ancak bu, sistemlerin asla bu çözünürlüğe ulaşmadığı durumlarda bu optimizasyon anlamsız hale gelir.
Video, ses ve dil genellikle modern cihazlarda birleştirildiğinden, çok modelli optimizasyonu nasıl yaklaşıyorsunuz?
Çok modelli optimizasyon, hesaplama ve bellek kaynaklarının dengeli bir şekilde dağıtılmasını gerektirir. Her mod, sistemi farklı şekilde zorlar: video, yüksek çözünürlük ve kare hızları nedeniyle hesaplama yoğundur, dil ve ses ise daha kompakt ancak bellek bant genişliği üzerinde daha ağır bir yük oluşturur. Görme-dil işleme gibi uygulamalarda bu bölünme açık hale gelir (her zaman böyle olacağı garantisi yok, ancak tipik bir senaryodur): video işleme, hesaplama gücünü zorlar, dil modeli ise bellek bant genişliği engeline hızla çarpar.
Bu optimizasyonu, iş yüklerinin pipeline boyunca nasıl etkileşime girdiğini inceleyerek ve işlemcinin bunları aynı anda destekleyecek şekilde mimari olarak tasarlanmasını sağlayarak yaklaşırız, böylece bir mod, diğerinin performansını bozamaz.
Kenarda model boyutunun artması, gecikme ve güç tüketimini nasıl karmaşık hale getirir ve sistem düzeyindeki mimari, bunu çözmek için nasıl bir rol oynar?
Kenarda model boyutunun artması, gecikme ve güç tüketiminin yönetilmesini daha zor hale getirir. Daha büyük modeller, dış belleğe daha fazla bağımlıdır, bu da enerji kullanımını ve gecikmeyi artırır, özellikle bellek bant genişliği bir engel haline geldiğinde. Örneğin, 1 milyar parametreli bir modelden 4 milyar parametreli bir modele ölçeklendirme, aynı performansı korumak için bant genişliğinin dört katına ihtiyac duyulur, ancak pratikte performans, bant genişliği ve sistem düzeyindeki kısıtlamalar nedeniyle lineer olarak ölçeklenmez.
Sadece yüksek TOPS’e veya büyük belleğe sahip olmak değil, bu bileşenlerin nasıl etkileşime girdiği önemlidir. Dengeli bir tasarım, hesaplama, bellek ve bant genişliğinin verimli bir şekilde birlikte çalışmasını sağlar, böylece bir kaynağın tüm sistemi sınırlamasını önler.
Hailo, AI modellerinin, iş yüklerinin ve dağıtım gereksinimlerinin hızla evrimleşmesi karşısında, işlemcilerini geleceğe uygun hale getirmek için nasıl bir yol izliyor?
Kenar AI’de geleceğe uygunluk, işlemcilerin geniş bir evrimleşen iş yükünü işleyebilmesi anlamına gelir. Hailo’da, sadece bir görev için değil, algılama işlevlerinden üretken modellere kadar her şeyi destekleyebilecek dengeli mimarilere odaklanıyoruz. Her tür iş yükü, hesaplama ve belleği farklı şekilde zorlar, bu nedenle esneklik için tasarlıyoruz ve darboğazlardan kaçınmaya çalışıyoruz. Ayrıca, gerçek dünya sınırlamalarını – güç, maliyet ve gecikme – dikkate almaya çalışıyoruz. İş yükü çeşitliliği ve kaynak dengesi önceliklendirerek, tüketici ve endüstriyel kullanım durumlarındaki gelecek kenar AI dağıtımlarını desteklemeyi hedefliyoruz.
Ancak, bir boyut her şeye uymaz ve portföy, belirli adreslenebilir uygulamalara hedeflenmektedir ve bu, mevcut güç, form faktörü gibi bütçesiyle sınırlıdır ve bu da bir ‘çalışma noktası’nı tanımlar.
Geliştirici ekosisteminin, bir işlemcinin değerini en üst düzeye çıkarmadaki rolü nedir ve Hailo’nun yeteneklerini tam olarak kullanmalarını sağlamak için takımlara nasıl destek oluyorsunuz?
Programlanabilir bir cihaz olarak, geliştiricilerin işlemcinin potansiyelini kullanmak, dağıtım yolunu kısaltmak ve yeni kullanım durumlarını mümkün kılmak için kolay araçlar sunmak önemlidir. İşlemcilerimiz etrafında iyi desteklenen bir ortam sağlayarak, takımların AI uygulamalarını çeşitli kullanım durumlarında hayata geçirmelerine yardımcı oluyoruz.
Yeni bir ürün için ilk AI hızlandırıcısını seçen mühendislere veya CTO’lara ne tür tavsiyelerde bulunurdunuz?
Mevcut koşulların olgunlaşmasıyla, inovasyon potansiyelinin çok fazla olduğu ve hayal gücünü gerçek ürünlerde kullanabildiğimiz bir döneme giriyoruz. Hızla değişen bir ortamda, hızlı bir kavramdan dağıtıma geçişi sağlayan bir hızlandırıcı seçmek kritiktir.
Harika röportaj için teşekkür ederiz, daha fazla bilgi edinmek isteyen okuyucular Hailo sitesini ziyaret edebilirler.












