Intervjuer
Avi Baum, CTO på Hailo – Intervjuserie

Avi Baum, CTO på Hailo, leder företagets tekniska vision och produktinnovation. Han har tidigare tjänstgjort som CTO för trådlös anslutning på Texas Instruments, där han drev strategier för anslutna MCU:er på IoT- och IIoT-marknaderna, och haft seniora arkitekt- och ledningsroller inom Israels försvarsstyrkor.
Hailo är ett israeliskt AI-chipföretag som specialiserar sig på högpresterande, lågeffektskant-AI-processorer för applikationer som autonoma fordon, smarta kameror och robotik, som stöds av en omfattande programvarusvit och ett globalt partnernätverk.
Kan du berätta vad som ursprungligen drog dig till området edge-AI och hur dina tidiga ingenjörsupplevelser formade ditt tänkande kring processordesign?
Min karriärväg förde mig till områden med nya marknader. Under min tid på TI (Texas Instruments), en halvledarledare med en lång historia, hade jag möjlighet att leda systemnivådesign och arkitektur, och ledde avdelningen för produktdefinition och senare som CTO för denna avdelning. Detta ledde mig till att kontinuerligt utforska de uppkommande teknologierna som sannolikt kommer att forma den “inte så avlägsna” framtiden.
När vi grundade Hailo 2017 var det tydligt att AI, som hade börjat blomstra i molnet, också hade potentialen att bli en möjliggörande teknik för kantenheter. Så vi satte kursen och började denna resa.
Som generativ AI utvecklas på kanten, varför är TOPS – teraoperationer per sekund – inte längre en tillräcklig benchmark för att utvärdera processorprestanda?
TOPS har länge varit den vanligaste metriken för att utvärdera AI-hårdvara, men i eran av generativ AI på kanten är det inte längre tillräckligt. Naturen hos klassiska modeller är att översätta stora mängder data till meningsfulla insikter, så den mängd beräkningar som behövs för att bearbeta inkommande data ökar med den mängd data som behöver bearbetas. Modeller för dessa uppgifter är vanligtvis mindre i storlek än den mängd data de bearbetar, vilket gör att överföringsbandbredden som tillskrivs åtkomst till modellparametrar är relativt försumbar.
Generativa modeller är dock märkbart större – i miljardersparameterns domän, och i dessa fall blir minnesbandbredden en icke-försumbar faktor.
I stället för att fokusera på TOPS ensamt är det avgörande att utvärdera hur väl en processor balanserar beräkning och minne under verkliga förhållanden. Det handlar inte om att jaga det högsta numret, utan om att anpassa arkitekturen till de arbetsbelastningar den behöver hantera.
Varför blir minnesbandbredd nu en mer kritisk flaskhals än beräkning i edge-AI-arbetsbelastningar, särskilt för LLM och VLM?
För edge-AI-arbetsbelastningar, särskilt de som involverar LLM eller VLM, blir minnesbandbredden snabbt den primära flaskhalsen. Dessa modeller sträcker sig vanligtvis från 0,5 till 8 miljarder parametrar, vilket överstiger kapaciteten för chipminne och kräver åtkomst till extern minne som DRAM. Detta ökar dramatiskt kraven på minnesbandbredd. Till exempel kan en 1-miljardparametersmodell leverera upp till ~40 token per sekund under optimala förhållanden med en standard-LPDDR4X-gränssnitt, men för att upprätthålla den takten med en 4-miljardersmodell krävs mer än fyra gånger så stor bandbredd. Utan det lider prestandan, inte på grund av begränsad beräkning, utan för att processorn inte kan mata in data tillräckligt snabbt. Denna obalans mellan beräkning och minne är en av de mest pressande utmaningarna i att distribuera generativ AI på kanten. Detta förstärks ytterligare i arkitekturer som beräknar lager för lager, där intermediära resultat också ökar minnestrafik och ytterligare belastar bandbredden.
Hur bör produktteam ompröva sin benchmarkstrategi när de designar för verkliga edge-applikationer?
Produktteam bör gå bort från att förlita sig på en enda prestandamätning som TOPS och i stället anta en benchmarkstrategi som reflekterar verkligheten i edge-distribution. Det börjar med att förstå det specifika användningsfallet, den faktiska arbetsbelastning som processorn behöver hantera, och identifiera “arbetspunkten”: skärningspunkten för effekt-, kostnads- och latensbegränsningar. Därifrån handlar det om att utvärdera hur beräkning och minne samverkar under dessa förhållanden. En processor med höga TOPS kommer inte att leverera om minnesbandbredden är begränsad, och mer minne kommer inte att hjälpa om beräkningskapaciteten är otillräcklig.
Team bör utvärdera om processorn kan upprätthålla prestanda över uppgifter som perception, förbättring och generativa arbetsbelastningar, var och en med mycket olika krav. Målet är inte att optimera för toppspecifikationer, utan att säkerställa balanserad prestanda över hela området av förväntade användningsfall i verkliga miljöer.
Detta är en naturlig förändring från “sterila” mått till mer intrikata tillvägagångssätt som reflekterar hur plattformar används och hur de betygsätts – liknande vad som hände med andra arkitekturer som blev mainstream (t.ex. SPEC, Coremark, 3DMark etc.).
Hur påverkar effekt- och kostnadsbegränsningar arkitekturbesluten bakom Hailo-processorer, särskilt för konsumentinriktade edge-enheter?
Effekt och kostnad är två av de mest avgörande begränsningarna när man designar AI-processorer för edge-enheter, särskilt i konsumentinriktade produkter. I kompakta enheter som IoT-sensorer eller smarta hemassistenter är effektbudgetar tighta, och det finns ofta ingen aktiv kylning, så energieffektivitet blir kritisk. Varje extra beräknings- eller minnesresurs lägger till effektåtgång och värme, vilket direkt påverkar användbarhet och batteritid.
Kostnad är lika inflytelserik. Konsumentenheter måste stanna inom konkurrenskraftiga prispunkter, vilket innebär att processorn bara kan innehålla så mycket TOPS och minne innan det blir ekonomiskt ogenomförbart. Dessa begränsningar tvingar fram hårda arkitekturval. På Hailo prioriterar vi design som levererar rätt balans mellan beräkning och minne för att möta verkliga applikationsbehov inom en tight omgivning av effekt och kostnad, säkerställer att edge-AI blir livskraftig, effektiv och skalbar över en bred range av konsumentprodukter.
Kunde du gå igenom hur du definierar en “arbetspunkt” för en applikation och varför det är så viktigt i edge-AI-distribution?
Att definiera “arbetspunkten” är ett av de viktigaste stegen när man designar ett system. Det refererar till skärningspunkten för effekt-, kostnads- och latensbegränsningar som formar vad som är realistiskt uppnåeligt i en specifik distribution. Till skillnad från i molnet, där du kan kasta mer beräkning eller minne på ett problem, fungerar edge-enheter inom en fast omgivning. Det betyder att du måste göra medvetna val baserat på applikationens faktiska krav. Till exempel kan en IoT-sensor prioritera energieffektivitet över råprestanda, medan ett autonomt system kan kräva ultra-låg latens oavsett effektåtgång. När arbetspunkten är etablerad kan du utvärdera om processorn har rätt balans mellan beräkning och minne för att möta det behovet. Det handlar inte om att maximera specifikationer i alla riktningar, utan om att säkerställa hållbar, tillförlitlig prestanda i verkliga förhållanden som applikationen kommer att möta.
Generellt sett är arbetspunkten där du vill att nyckelprestandaindikatorerna ska vara på sin topp. Att misslyckas med att göra det kan resultera i en underoptimal drift under de vanligaste användningsscenarierna för plattformen.
Som ett enkelt exempel kan man göra ett AI-analyssystem extremt effektivt när ingången är på en mycket hög upplösning, men om detta distribueras i system som aldrig når denna upplösning, är denna optimering meningslös.
Med video, ljud och språk ofta blandade i moderna enheter, hur närmade du dig optimering över multimodala modeller?
Multimodala modeller kräver en genomtänkt balans mellan beräknings- och minnesresurser. Varje modalitet belastar systemet på olika sätt: video är beräkningsintensivt på grund av hög upplösning och bildfrekvens, medan språk och ljud är mer kompakta men lägger större krav på minnesbandbredd. I applikationer som vision-språkbehandling blir denna splittring tydlig (även om detta inte är en garanti, utan ett typiskt scenario): video bearbetning trycker beräkning, medan språkmodellen kan snabbt nå minnesbottleneck.
Vi närmar oss optimering genom att se hur dessa arbetsbelastningar interagerar över pipelinen och säkerställer att processorn är arkitekturerad för att stödja dem samtidigt, utan att låta en modalitet kompromissa med prestandan hos en annan.
Hur komplicerar ökande modellstorlek på kanten latens och effektåtgång, och vilken roll spelar systemnivåarkitektur i att lösa det?
När modellstorleken ökar på kanten blir latens och effektåtgång svårare att hantera. Större modeller förlitar sig mer på extern minne, vilket ökar både energiförbrukning och fördröjning, särskilt när minnesbandbredden blir en flaskhals. Till exempel skulle en skalning från en 1-miljardersparametersmodell till en 4-miljardersmodell kräva mer än fyra gånger så stor bandbredd för att upprätthålla samma prestanda – men i praktiken skalar prestandan inte linjärt på grund av bandbredds- och systemnivåbegränsningar.
Det handlar inte bara om att ha höga TOPS eller stort minne, utan om hur dessa komponenter interagerar. En balanserad design säkerställer att beräkning, minne och bandbredd fungerar effektivt tillsammans, förhindrar att en resurs begränsar hela systemet.
Hur designar Hailo för framtidsbevisning – med tanke på hur snabbt AI-modeller, arbetsbelastningar och distributionskrav utvecklas?
Framtidsbevisning i edge-AI innebär att designa processorer som kan hantera en bred range av utvecklande arbetsbelastningar. På Hailo fokuserar vi på balanserade arkitekturer som inte är anpassade till en enda uppgift, utan kan stödja allt från perceptiva funktioner som objektdetektering till generativa modeller som VLM. Varje typ av arbetsbelastning belastar beräkning och minne på olika sätt, så vi designar för flexibilitet, undviker flaskhalsar när man växlar mellan dem. Vi tar också hänsyn till de verkliga begränsningarna för effekt, kostnad och latens över applikationer. Genom att prioritera arbetsbelastningsdiversitet och resursbalans syftar vi till att stödja nästa generations edge-AI-distributioner över konsument- och industriella användningsfall.
Men en storlek kan inte passa alla, och portföljen riktar sig till vissa tillgängliga applikationer och försöker passa inom den tillgängliga budgeten för t.ex. effekt, formfaktor och det definierar en “arbetspunkt”.
Vilken roll spelar utvecklarekosystemet i att maximera värdet av en processor, och hur säkerställer ni att team kan utnyttja Hailos förmågor?
Som en programmerbar enhet är det avgörande att ha lättanvända verktyg för utvecklare att utöva processorns potential, förkorta vägen till distribution och möjliggöra nya användningsfall. Genom att tillhandahålla en välstödd miljö runt våra processorer hjälper vi team att förverkliga AI-applikationer över en range av användningsfall.
Vad råd skulle du ge till ingenjörer eller CTO:er som väljer sin första AI-accelerator för en nästa generationsprodukt som byggs idag?
Med de mogna förhållandena tror jag att det finns mycket innovationspotential, som möjliggör att vi kan översätta fantasi till verkliga produkter. I en snabbt föränderlig miljö är det avgörande att välja en accelerator som möjliggör en snabb koncept-till-distributionscykel.
<Tack för den underbara intervjun, läsare som vill lära sig mer bör besöka Hailo.












