Connect with us

Intervjuer

Avi Baum, CTO i Hailo – Intervju-serie

mm

Avi Baum, CTO i Hailo, leder selskapets teknologiske visjon og produktinnovasjon. Han har tidligere vært CTO for trådløs tilkobling i Texas Instruments, der han drev strategier for koblete MCU-er i IoT- og IIoT-markeder, og har hatt seniorkonsept- og lederroller i Israels forsvar.

Hailo er et israelsk AI-chipselskap som spesialiserer seg på høy-ytelses-, lav-strøm edge AI-prosessorer for applikasjoner som autonome kjøretøy, smarte kameraler og robotikk, støttet av en omfattende programvaresuite og globalt partnerekosystem.

Kan du dele hva som opprinnelig trakk deg til feltet edge AI og hvordan dine tidlige ingeniørerfaringer formet din tenkning om prosessorutforming?

Min karrierevei tok meg til områder med nye markeder. Under min tid i TI (Texas Instruments), en halvlederleder med en langvarig arv, hadde jeg muligheten til å lede systemnivådesign og arkitektur, og ledet avdelingen for produktdefinisjon og senere som CTO for denne avdelingen. Dette ledet meg til å kontinuerlig utforske de kommende teknologiene som sannsynligvis vil forme fremtiden.

Da vi etablerte Hailo i 2017, var det klart at AI, som hadde begynt å blomstre i skyen, også hadde potensialet til å bli en muliggjørende teknologi for edge-enheter. Så, vi satte kurs og begynte denne reisen.

Da generativ AI utvides på kanten, hvorfor er TOPS – tera operasjoner per sekund – ikke lenger et tilstrekkelig mål for å vurdere prosessorprestasjon?

TOPS har lenge vært målet for å vurdere AI-hardware, men i generativ AI-æraen på kanten, er det ikke lenger tilstrekkelig. Naturen til klassiske modeller er å oversette mye data til meningsfulle innsikter, så mengden beregning som trengs for å prosessere innkommende data øker med mengden data som må prosesseres. Modeller for disse oppgavene er vanligvis mindre i størrelse enn mengden data de prosesserer, og gjør overføringshastigheten tilgang til modellparametere relativt ubetydelig.

Generative modeller er imidlertid merkbart større – i milliarder av parametre-domænet, og i disse tilfellene blir minnehastighet en ikke ubetydelig faktor.

I stedet for å fokusere på TOPS alene, er det kritisk å vurdere hvordan en prosessor balanserer beregning og minne under reelle forhold. Det handler ikke om å jage det høyeste tallet; det handler om å finjustere arkitekturen til arbeidsbelastningene den må håndtere.

Hvorfor blir minnehastighet nå en mer kritisk flaskehals enn beregning i edge AI-arbeidsbelastninger, særlig for LLM og VLM?

For edge AI-arbeidsbelastninger, særlig de som involverer LLM eller VLM, blir minnehastighet raskt den primære flaskehalsen. Disse modellene varierer vanligvis fra 0,5 til 8 milliarder parametre, og overstiger kapasiteten til på-chip-minne og krever tilgang til av-chip-minne som DRAM. Dette øker dramatisk kravene til minnehastighet. For eksempel kan en 1 milliards parametermodell levere opptil ~40 token per sekund under optimale forhold med en standard LPDDR4X-grensesnitt, men å opprettholde denne hastigheten med en 4 milliards modell krever over fire ganger så mye båndbredde. Uten det, lider ytelsen, ikke fordi beregningen er begrenset, men fordi prosessoren ikke kan mata inn data raskt nok. Denne ubalansen mellom beregning og minne er en av de mest presserende utfordringene i å deployere generativ AI på kanten. Dette forsterkes i arkitekturer som beregner lag for lag, hvor midlertidige resultater også øker minnetrafikk og ytterligere belaster båndbredde.

Hvordan bør produktteamene omdefinere sin benchmark-strategi når de designer for reelle edge-applikasjoner?

Produktteamene bør gå bort fra å være avhengig av ett enkelt ytelsesmål som TOPS og i stedet adoptere en benchmark-strategi som reflekterer realitetene i edge-deployment. Det starter med å forstå den spesifikke brukstilfelle, den faktiske arbeidsbelastning prosessoren må håndtere, og å identifisere “arbeidspunktet”: skjæringspunktet mellom effekt-, kostnads- og forsinkelsesbegrensninger. Deretter handler det om å vurdere hvordan beregning og minne samhandler under disse forholdene. En prosessor med høy TOPS vil ikke levere hvis minnehastighet er begrenset, og mer minne hjelper ikke hvis beregningskapasiteten er utilstrekkelig.

Teamene bør vurdere om prosessoren kan opprettholde ytelse over oppgaver som persepsjon, forbedring og generative arbeidsbelastninger, hver med svært forskjellige krav. Målet er ikke å optimere for toppspek, men å sikre balansert ytelse over hele rekken av forventede brukstilfeller i reelle miljøer.

Dette er en naturlig skift fra “sterile” mål til mer intrikate tilnærminger som reflekterer hvordan plattformene brukes og hvordan de vurderes – lignende hva som skjedde med andre arkitekturer som ble mainstream (f.eks. SPEC, Coremark, 3DMark, etc.).

Hvordan påvirker effekt- og kostnadsbegrensninger arkitektur-beslutningene bak Hailo-prosessorer, særlig for forbruker-rettede edge-enheter?

Effekt og kostnad er to av de mest avgjørende begrensningene når det gjelder å designe AI-prosessorer for edge-enheter, særlig i forbruker-rettede produkter. I kompakte enheter som IoT-sensore eller smarte hjemmeassistenter, er effektbudsjettene stramme, og det er ofte ingen aktiv kjøling, så energi-effektivitet blir kritisk. Hver ekstra beregnings- eller minneressurs legger til effektforbruk og varme, som direkte påvirker brukbarheten og batterilevetiden.

Kostnad er like innflytelsesrik. Forbrukerprodukter må forbli innen konkurranse-vennlige prispoeng, noe som betyr at prosessoren bare kan inkludere så mye TOPS og minne før det blir økonomisk uholdbart. Disse begrensningene tvinger frem harde arkitektur-valg. I Hailo prioriterer vi design som leverer riktig balanse mellom beregning og minne for å møte reelle applikasjonsbehov innen en stram envelope av effekt og kostnad, og sikrer at edge AI blir levedyktig, effektiv og skalerbar over en rekke forbrukerprodukter.

Kunne du gå gjennom hvordan du definerer et “arbeidspunkt” for en applikasjon og hvorfor det betyr så mye i edge AI-deployment?

Definere “arbeidspunktet” er ett av de viktigste stegene når du designer et system. Det refererer til skjæringspunktet mellom effekt-, kostnads- og forsinkelsesbegrensninger som former hva som realistisk kan oppnås i en spesifikk deployment. I motsetning til i skyen, der du kan kaste mer beregning eller minne på et problem, opererer edge-enheter innen en fast envelope. Det betyr at du må gjøre bevisste valg basert på applikasjonens faktiske krav. For eksempel kan en IoT-sensor prioritere energi-effektivitet over rå ytelse, mens et autonomt system kan kreve ultralav forsinkelse uansett effektforbruk. Når arbeidspunktet er etablert, kan du vurdere om prosessoren har riktig balanse mellom beregning og minne for å møte dette behovet. Det handler ikke om å maksimere spesifikasjoner i alle retninger; det handler om å sikre vedvarende, pålitelig ytelse i reelle forhold applikasjonen vil møte.

Generelt sett er arbeidspunktet der du ønsker at nøkkel-ytelsesindikatorer skal være på sitt optimum. Å ikke gjøre det kan resultere i en underoptimal drift under de mest typiske bruks-scenariene for plattformen.

Som et enkelt eksempel kan man gjøre et AI-analyse-system ekstremt effektivt når innmatningen er på en meget høy oppløsning, men hvis dette deployeres i systemer som aldri når denne oppløsningen, er denne optimaliseringen meningsløs.

Med video, lyd og språk ofte blandet i moderne enheter, hvordan nærmer du deg optimalisering over multimodale modeller?

Multimodale modeller krever en gjennomtenkt balanse mellom beregnings- og minneressurser. Hver modalitet belaster systemet forskjellig: video er beregningsintensivt på grunn av høy oppløsning og bildefrekvens, mens språk og lyd er mer kompakte, men legger tungere krav på minnehastighet. I applikasjoner som visjon-språk-behandling blir denne splitten tydelig (selv om dette ikke er en garanti, men en typisk scenario): video-behandling driver beregning, mens språkmodellen kan raskt nå minne-flaskehals.

Vi nærmer oss optimalisering ved å se på hvordan disse arbeidsbelastningene samhandler over pipeline og sikre at prosessoren er arkitektet til å støtte dem samtidig, uten å la en modalitet kompromittere ytelsen til en annen.

Hvordan komplicerer økende modellstørrelse på kanten latency og effektforbruk, og hva rolle spiller systemnivå-arkitektur i å løse dette?

Da modellstørrelsen øker på kanten, blir latency og effektforbruk vanskeligere å håndtere. Større modeller er mer avhengige av av-chip-minne, noe som øker både energiforbruk og forsinkelse, særlig når minnehastighet blir en flaskehals. For eksempel ville å skalerer fra en 1 milliards til en 4 milliards parametermodell kreve over fire ganger så mye båndbredde for å opprettholde samme ytelse – men i praksis skalerer ytelsen ikke lineært på grunn av båndbredde- og systemnivå-begrensninger.

Det handler ikke bare om å ha høy TOPS eller stor minne; det handler om hvordan disse komponentene samhandler. En balansert design sikrer at beregning, minne og båndbredde fungerer effektivt sammen, og forhindrer at en ressurs begrenser hele systemet.

Hvordan designer Hailo for fremtidssikring – gitt hvor raskt AI-modeller, arbeidsbelastninger og deployeringskrav utvikler seg?

Fremtidssikring i edge AI betyr å designe prosessorer som kan håndtere en rekke utviklende arbeidsbelastninger. I Hailo fokuserer vi på balanserte arkitekturer som ikke er tilpasset bare en oppgave, men kan støtte alt fra perseptuelle funksjoner som objektdeteksjon til generative modeller som VLM. Hver type arbeidsbelastning belaster beregning og minne forskjellig, så vi designer for fleksibilitet, og unngår flaskehals når vi bytter mellom dem. Vi tar også hensyn til de reelle begrensningene i effekt, kostnad og forsinkelse over applikasjoner. Ved å prioritere arbeidsbelastnings-mangfold og ressurs-balanse, sikrer vi å støtte neste generasjons edge AI-deployeringsmuligheter over forbruker- og industrielle brukstilfeller.

Likevel kan en størrelse ikke passe alle, og porteføljen retter seg mot bestemte adresserbare applikasjoner og prøver å passe innen det tilgjengelige budsjettet for eksempel effekt, formfaktor og det definerer et “arbeidspunkt”.

Hva rolle spiller utvikler-økosystemet i å maksimere verdien av en prosessor, og hvordan sikrer dere at team kan utnytte Hailos muligheter fullt ut?

Som en programmerbar enhet er det essensielt å ha enkle verktøy for utviklere til å utøve prosessorens potensiale, forkorte veien til deployment og muliggjøre nye brukstilfeller. Ved å tilby en godt støttet miljø rundt våre prosessorer, hjelper vi team å bringe AI-applikasjoner til live over en rekke brukstilfeller.

Hva råd ville du gi til ingeniører eller CTO-er som velger sin første AI-akselerator for et neste-generasjonsprodukt som bygges i dag?

Med de modne forholdene, tror jeg det er mye innovasjonspotensiale, som lar oss oversette forestilling til reelle produkter. I et raskt endrende miljø er det kritisk å velge en akselerator som muliggjør en rask konsept-til-deployment-syklus.

Takk for det flotte intervjuet, lesere som ønsker å lære mer bør besøke Hailo.

Antoine er en visjonær leder og grunnleggende partner i Unite.AI, drevet av en urokkelig lidenskap for å forme og fremme fremtiden for AI og robotikk. En seriegründer, han tror at AI vil være like disruptiv for samfunnet som elektrisitet, og blir ofte tatt i å tale om potensialet for disruptiv teknologi og AGI.
Som en futurist, er han dedikert til å utforske hvordan disse innovasjonene vil forme vår verden. I tillegg er han grunnleggeren av Securities.io, en plattform som fokuserer på å investere i banebrytende teknologier som omdefinerer fremtiden og omformer hele sektorer.