Connect with us

Rozhovory

Avi Baum, CTO at Hailo – Interview Series

mm

Avi Baum, CTO at Hailo, vede technologickou vizi společnosti a inovace produktů. Předtím působil jako CTO pro bezdrátové připojení ve společnosti Texas Instruments, kde řídil strategie pro připojené MCUs na trzích IoT a IIoT, a zastával seniorní architektonické a vedoucí role v Izraelských obranných silách.

Hailo je izraelská společnost specializující se na AI-čipy, která se zaměřuje na высокý výkon, nízkou spotřebu energie a edge AI procesory pro aplikace, jako jsou autonomní vozidla, chytré kamery a robotika, podporované komplexním softwarem a globálním partnerstvím.

Můžete sdílet, co vás původně přitáhlo k oblasti edge AI a jak vaše rané inženýrské zkušenosti ovlivnily vaše myšlení o návrhu procesoru?

Má kariéra mě vedla do oblastí vznikajících trhů. Během mého působení v TI (Texas Instruments), lídera v oblasti polovodičů s dlouholetou tradicí, jsem měl příležitost vést systémový design a architekturu, vedl jsem oddělení produktového definování a později jsem působil jako CTO tohoto oddělení. To mě vedlo k tomu, abych neustále探oval nové technologie, které pravděpodobně budou tvarovat “nedalekou” budoucnost.

Když jsme založili Hailo v roce 2017, bylo jasné, že AI, která začala prosperovat v cloudu, také měla potenciál stát se umožňující technologií pro edge zařízení. Takže jsme nastavili kurz a zahájili tuto cestu.

Jak se rozšiřuje generativní AI na okraji, proč je TOPS—tera operací za sekundu—již nedostatečným měřítkem pro hodnocení výkonu procesoru?

TOPS byl po dlouhou dobu standardním měřítkem pro hodnocení AI hardwaru, ale v éře generativní AI na okraji již není dostatečný. Příroda klasických modelů spočívá v tom, že překládají velké množství dat do smysluplných informací, takže množství výpočtů potřebných pro zpracování příchozích dat roste s množstvím dat, které je třeba zpracovat. Modely pro tyto úkoly jsou obvykle menší než množství dat, které zpracovávají, což činí přenosovou šířku spojenou s přístupem k parametrům modelu relativně zanedbatelnou.

Generativní modely jsou však znatelně větší – v oblasti miliard parametrů, a v těchto případech se přenosová šířka paměti stává významným faktorem.

Místo toho, aby se zaměřoval pouze na TOPS, je kritické posoudit, jak dobře procesor vyvažuje výpočet a paměť v reálných podmínkách. Není to o tom, aby se honilo za nejvyšší číslo; je to o tom, aby se ladila architektura pro zátěže, které musí zvládnout.

Proč se přenosová šířka paměti nyní stává kritičtějším úzkým místem než výpočet v edge AI úkolech, zejména pro LLM a VLM?

Pro edge AI úkoly, zejména ty, které涉ují LLM nebo VLM, se přenosová šířka paměti rychle stává primárním úzkým místem. Tyto modely obvykle sahají od 0,5 do 8 miliard parametrů, překračují kapacitu paměti na čipu a vyžadují přístup k paměti mimo čip, jako je DRAM. To dramaticky zvyšuje požadavky na přenosovou šířku paměti. Například model s 1 miliardou parametrů může dodat až ~40 tokenů za sekundu za optimálních podmínek se standardním LPDDR4X rozhraním, ale udržení této rychlosti s modelem 4B vyžaduje více než čtyřnásobnou přenosovou šířku. Bez ní výkon trpí, ne kvůli omezenému výpočtu, ale protože procesor nemůže dodat data dostatečně rychle. Tento nesoulad mezi výpočtem a pamětí je jednou z nejnaléhavějších výzev při nasazování generativní AI na okraji. To je dále zesíleno v architekturách, které počítají vrstvu po vrstvě, kde mezitímní výsledky také zvyšují paměťový provoz a dále zatěžují přenosovou šířku.

Jak by měly produktové týmy přehodnotit svou strategii benchmarkingu při navrhování pro reálné edge aplikace?

Produktové týmy by se měly odchýlit od závislosti na jediném ukazateli výkonu, jako je TOPS, a místo toho přijmout strategii benchmarkingu, která odráží realitu nasazení na okraji. To začíná tím, že se pochopí konkrétní případ použití, skutečná zátěž, kterou procesor musí zvládnout, a identifikuje “pracovní bod”: průsečík omezení výkonu, nákladů a latence. Odtud je to o hodnocení, jak výpočet a paměť interagují za těchto podmínek. Procesor s vysokým TOPS nebude dodávat, pokud přenosová šířka paměti je omezená, a více paměti nebude pomáhat, pokud kapacita výpočtu je nedostatečná.

Týmy by měly posoudit, zda procesor může udržet výkon napříč úkoly, jako je vnímání, enhancive a generativní zátěže, každá s velmi odlišnými požadavky. Cílem není optimalizovat pro špičkové specifikace, ale zajistit vyvážený výkon napříč celou řadou očekávaných použití v reálném prostředí.

To je přirozený posun od “sterilních” měřítek k více propracovaným přístupům, které odrážejí, jak se platformy používají a jak jsou hodnoceny – podobně jako to, co se stalo s jinými architekturami, které se staly mainstreamem (například SPEC, Coremark, 3DMark atd.).

Jak omezení výkonu a nákladů ovlivňují architektonická rozhodnutí za Hailo procesory, zejména pro spotřebitelská edge zařízení?

Výkon a náklady jsou dva z nejdefinujících omezení při navrhování AI procesorů pro edge zařízení, zejména v spotřebitelských produktech. V kompaktních zařízeních, jako jsou IoT senzory nebo chytré domácí asistentky, jsou rozpočty výkonu těsné, a často není žádný aktivní chlazení, takže energetická efektivita se stává kritickou. Každá další výpočetní nebo paměťová zdroje přidávají spotřebu energie a teplo, které přímo ovlivňují použitelnost a životnost baterie.

Náklady jsou stejně vlivné. Spotřebitelská zařízení musí zůstat v konkurenceschopných cenových bodech, což znamená, že procesor může obsahovat pouze tolik TOPS a paměti, než se stane ekonomicky nevýhodným. Tato omezení nutí architektonické kompromisy. V Hailo se zaměřujeme na návrhy, které poskytují správnou rovnováhu mezi výpočtem a pamětí, aby splnily potřeby reálných aplikací v rámci úzkého obalu výkonu a nákladů, zajišťující, že edge AI se stane životaschopným, efektivním a škálovatelným napříč širokým spektrem spotřebitelských produktů.

Můžete nás provést, jak definujete “pracovní bod” pro aplikaci a proč je to tak důležité v nasazení edge AI?

Definice “pracovního bodu” je jedním z nejvýznamnějších kroků při navrhování systému. Odkazuje se na průsečík omezení výkonu, nákladů a latence, které tvarují, co je realisticky dosažitelné v konkrétním nasazení. Na rozdíl od cloudu, kde můžete házet více výpočtu nebo paměti na problém, edge zařízení operují v rámci pevného obalu. To znamená, že musíte udělat úmyslné kompromisy na základě skutečných požadavků aplikace. Například IoT senzor může priorizovat energetickou efektivitu nad surovým výkonem, zatímco autonomní systém může vyžadovat ultra-nízkou latenci bez ohledu na spotřebu energie. Jakmile je stanoven pracovní bod, můžete posoudit, zda procesor má správnou rovnováhu mezi výpočtem a pamětí, aby splnil tuto potřebu. Není to o maximalizaci specifikací ve všech směrech; je to o zajištění udržitelného, spolehlivého výkonu v reálném světě, se kterým se aplikace setká.

Obecně řečeno, pracovní bod je tam, kde chcete, aby klíčové ukazatele výkonu byly na svém optimálním místě. Nesplnění toho může vést k suboptimálnímu provozu v nejtypičtějších scénářích použití platformy.

Jako jednoduchý příklad lze vytvořit systém AI analýzy, který je velmi efektivní, když je vstup na velmi vysoké rozlišení, ale pokud je tento systém nasazen v systémech, které nikdy nedosahují tohoto rozlišení, je tato optimalizace bezvýznamná.

Jak přistupujete k optimalizaci napříč multimodálními modely, kde je video, audio a jazyk často kombinován v moderních zařízeních?

Multimodální modely vyžadují promyšlenou rovnováhu mezi výpočetními a paměťovými zdroji. Každá modality zatěžuje systém jinak: video je výpočetně náročné kvůli vysokému rozlišení a snímkové frekvenci, zatímco jazyk a audio jsou kompaktnější, ale kladou větší nároky na přenosovou šířku paměti. V aplikacích, jako je zpracování jazyka a vidění, se tento rozpor stává zřejmým (i když to není záruka, ale typický scénář): zpracování videa tlačí výpočet, zatímco jazykový model může rychle narazit na paměťové úzké místo.

Přistupujeme k optimalizaci tak, že se díváme na to, jak tyto zátěže interagují napříč potrubím, a zajišťujeme, aby procesor byl navržen tak, aby podporoval je současně, bez toho, aby jedna modality kompromitovala výkon jiné.

Jak se zvyšující se velikost modelu na okraji komplikuje latenci a spotřebu energie, a jakou roli hraje systémová architektura při řešení toho?

Jak se velikost modelu zvyšuje na okraji, latence a spotřeba energie se stávají těžšími na řízení. Věřejnější modely spoléhají více na paměť mimo čip, což zvyšuje jak spotřebu energie, tak zpoždění, zejména když přenosová šířka paměti se stává úzkým místem. Například škálování z 1 miliardy na 4 miliardy parametrů by vyžadovalo více než čtyřnásobnou přenosovou šířku, aby se udržela stejná výkonnost – ale v praxi se výkonnost nezvyšuje lineárně kvůli omezením přenosové šířky a systémové architektury.

Není to jen o tom, mít vysoké TOPS nebo velkou paměť; je to o tom, jak tyto komponenty interagují. Vyvážený design zajišťuje, že výpočet, paměť a přenosová šířka pracují společně efektivně, aby se zabránilo tomu, že jeden zdroj omezí celý systém.

Jak Hailo navrhuje pro budoucnost – s ohledem na to, jak rychle se vyvíjí AI modely, zátěže a požadavky na nasazení?

Budoucnost v edge AI znamená navrhování procesorů, které mohou zvládnout širokou škálu se vyvíjejících zátěží. V Hailo se zaměřujeme na vyvážené architektury, které nejsou přizpůsobeny pouze jedné úloze, ale mohou podporovat vše od percepčních funkcí, jako je detekce objektů, až po generativní modely, jako jsou VLM. Každý typ zátěže zatěžuje výpočet a paměť jinak, takže navrhujeme pro flexibilitu, aby se zabránilo úzkým místům při přepínání mezi nimi. Také bereme v úvahu reálné limity výkonu, nákladů a latence napříč aplikacemi. Prioritizací rozmanitosti zátěží a rovnováhy zdrojů se snažíme podporovat příští generaci edge AI nasazení napříč spotřebitelskými a průmyslovými použitími.

Ještě jednou, jeden velikost nemůže vyhovovat všem, a portfolio cílí na určitou adresovatelnou aplikaci a snaží se vejít do dostupného rozpočtu, například spotřeby energie, formátu a to definuje “pracovní bod”.

Jakou roli hraje vývojářské ekosystém při maximalizaci hodnoty procesoru, a jak zajišťujete, aby týmy mohly plně využít schopností Hailo?

Jako programovatelné zařízení je důležité mít snadné nástroje pro vývojáře, aby mohli využít potenciál procesoru, zkrátit cestu k nasazení a umožnit nové použití. Poskytováním dobře podporovaného prostředí kolem našich procesorů pomáháme týmům přivést AI aplikace k životu napříč širokou škálou použití.

Jakou radu byste dali inženýrům nebo CTO, kteří si vybírají svůj první AI akcelerátor pro produkt následující generace, který se právě staví?

S dozrávajícími podmínkami věřím, že existuje mnoho inovačního potenciálu, který umožňuje převést představivost do skutečných produktů. V rychle se měnícím prostředí je výběr akcelerátoru, který umožňuje rychlý cyklus od konceptu k nasazení, kritický.

Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit Hailo.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.