Interviuri
Avi Baum, CTO la Hailo – Seria de interviuri

Avi Baum, CTO la Hailo, conduce viziunea tehnologică a companiei și inovația produsului. Anterior, a ocupat funcția de CTO pentru Conectivitate Wireless la Texas Instruments, conducând strategiile pentru MCUs conectate în piețele IoT și IIoT, și a deținut roluri senior de arhitectură și conducere în Forțele de Apărare ale Israelului.
Hailo este o companie israeliană de inteligență artificială specializată în procesoare de inteligență artificială de margine de înaltă performanță și consum redus de energie pentru aplicații precum vehicule autonome, camere inteligente și roboți, susținute de un pachet software cuprinzător și un ecosistem de parteneri global.
Puteți împărtăși ce v-a atras inițial în domeniul inteligenței artificiale de margine și cum au influențat experiențele dvs. de inginerie timpurie gândirea dvs. despre proiectarea procesoarelor?
Drumul meu profesional m-a condus spre domenii de piață emergente. În timpul șederii mele la TI (Texas Instruments), un lider în domeniul semiconductoarelor cu o moștenire de lungă durată, am avut ocazia să conduc proiectarea la nivel de sistem și arhitectura, conducând departamentul de definire a produsului și, ulterior, servind ca CTO al acestui departament. Acest lucru m-a determinat să explorez continuu tehnologiile care urmează să modeleze viitorul „nu prea îndepărtat”.
Când am fondat Hailo în 2017, era clar că inteligența artificială, care începuse să prospere în cloud, avea și potențialul de a deveni o tehnologie de activare pentru dispozitivele de margine. Așadar, am început această călătorie.
Pe măsură ce inteligența artificială generativă se extinde la margine, de ce TOPS – operațiuni pe secundă tera – nu mai este un benchmark suficient pentru evaluarea performanței procesoarelor?
TOPS a fost mult timp metrica principală pentru evaluarea hardware-ului de inteligență artificială, dar în era inteligenței artificiale generative la margine, nu mai este suficient. Natura modelelor clasice este de a traduce cantități mari de date în insight-uri semnificative, astfel încât cantitatea de calcul necesară pentru procesarea datelor care intră este în creștere cu cantitatea de date care trebuie procesate. Modelele pentru aceste sarcini sunt, de obicei, mai mici în dimensiune decât cantitatea de date pe care le procesează, făcând ca lățimea de bandă suplimentară atribuită accesării parametrilor modelului să fie relativ neglijabilă.
Modelele generative, însă, sunt semnificativ mai mari – în domeniul miliarde de parametri, și în aceste cazuri, lățimea de bandă a memoriei devine un factor neglijabil.
În loc să se concentreze doar pe TOPS, este critic să se evalueze cât de bine un procesor echilibrează calculul și memoria în condiții reale. Nu este vorba despre urmărirea numărului cel mai mare; este vorba despre ajustarea arhitecturii la sarcinile de lucru pe care trebuie să le gestioneze.
De ce lățimea de bandă a memoriei devine acum un blocaj mai critic decât calculul în sarcinile de lucru de inteligență artificială de margine, în special pentru LLM și VLM?
Pentru sarcinile de lucru de inteligență artificială de margine, în special cele care implică LLM sau VLM, lățimea de bandă a memoriei devine rapid principala blocaj. Aceste modele sunt, de obicei, cuprinse între 0,5 și 8 miliarde de parametri, depășind capacitatea memoriei pe cip și necesitând acces la memoria off-cip, cum ar fi DRAM. Acest lucru crește dramatic cererea de lățime de bandă a memoriei. De exemplu, un model cu 1 miliard de parametri poate livra până la ~40 de tokeni pe secundă în condiții optime cu o interfață standard LPDDR4X, dar menținerea acestei rate cu un model de 4 miliarde de parametri necesită peste patru ori această lățime de bandă. Fără aceasta, performanța suferă, nu din cauza limitărilor de calcul, ci pentru că procesorul nu poate alimenta datele suficient de repede. Această lipsă de echilibru între calcul și memorie este una dintre cele mai presante provocări în implementarea inteligenței artificiale generative la margine. Acest lucru este amplificat și mai mult în arhitecturile care calculează strat cu strat, unde rezultatele intermediare cresc, de asemenea, traficul de memorie și solicită și mai mult lățimea de bandă.
Cum ar trebui să reconsidere echipele de produs strategia de benchmarking atunci când proiectează pentru aplicații reale de margine?
Echipele de produs ar trebui să se îndepărteze de dependența de o singură metrică de performanță, cum ar fi TOPS, și să adopte o strategie de benchmarking care reflectă realitățile implementării la margine. Acest lucru începe prin înțelegerea cazului de utilizare specific, a sarcinii de lucru reale pe care procesorul trebuie să o gestioneze și identificarea „punctului de lucru”: intersecția constrângerilor de putere, cost și latență. De acolo, este vorba despre evaluarea modului în care calculul și memoria interacționează în aceste condiții. Un procesor cu TOPS ridicat nu va livra dacă lățimea de bandă a memoriei este limitată, și mai multă memorie nu va ajuta dacă capacitatea de calcul este insuficientă.
Echipele ar trebui să evalueze dacă procesorul poate menține performanța pe sarcini precum percepția, îmbunătățirea și sarcinile de lucru generative, fiecare cu cerințe foarte diferite. Scopul nu este de a optimiza pentru specificații de vârf, ci de a asigura o performanță echilibrată pe întreaga gamă de cazuri de utilizare așteptate în medii reale.
Acesta este un pas natural de la măsurători „sterile” la abordări mai complexe care reflectă modul în care platformele sunt utilizate și cum sunt evaluate – similar cu ceea ce s-a întâmplat cu alte arhitecturi care au devenit mainstream (de exemplu, SPEC, Coremark, 3DMark, etc.).
Cum influențează constrângerile de putere și cost deciziile de arhitectură din spatele procesoarelor Hailo, în special pentru dispozitivele de margine cu care se confruntă consumatorii?
Puterea și costul sunt două dintre cele mai definitorii constrângeri atunci când se proiectează procesoare de inteligență artificială pentru dispozitivele de margine, în special în produsele cu care se confruntă consumatorii. În dispozitive compacte, cum ar fi senzorii IoT sau asistenții inteligenți pentru casă, bugetele de putere sunt strânse, și adesea nu există răcire activă, astfel încât eficiența energetică devine critică. Fiecare resursă suplimentară de calcul sau memorie adaugă putere și căldură, ceea ce afectează direct utilizabilitatea și durata de viață a bateriei.
Costul este la fel de influent. Dispozitivele pentru consumatori trebuie să rămână în puncte de preț competitive, ceea ce înseamnă că procesorul poate include doar atâtea TOPS și memorie înainte de a deveni neprofitabil din punct de vedere economic. Aceste constrângeri forțează decizii arhitecturale dificile. La Hailo, prioritatea noastră este să proiectăm procesoare care să ofere echilibrul corect între calcul și memorie pentru a satisface nevoile reale de aplicații într-un pachet strâns de putere și cost, asigurând astfel că inteligența artificială de margine devine viabilă, eficientă și escalabilă pe o gamă largă de produse pentru consumatori.
Ne puteți conduce prin modul în care definiți un „punct de lucru” pentru o aplicație și de ce acesta contează atât de mult în implementarea inteligenței artificiale de margine?
Definirea „punctului de lucru” este unul dintre cele mai importante pași atunci când se proiectează un sistem. Se referă la intersecția constrângerilor de putere, cost și latență care modelează ceea ce este realizabil într-o implementare specifică. În contrast cu cloud-ul, unde puteți arunca mai mult calcul sau memorie la o problemă, dispozitivele de margine funcționează într-un pachet fix. Acest lucru înseamnă că trebuie să faceți compromisuri deliberate pe baza cerințelor reale ale aplicației. De exemplu, un senzor IoT ar putea prioriza eficiența energetică înaintea performanței brute, în timp ce un sistem autonom ar putea cere o latență ultra-scăzută, indiferent de puterea consumată. Odată ce punctul de lucru este stabilit, puteți evalua dacă procesorul are echilibrul corect între calcul și memorie pentru a satisface această nevoie. Nu este vorba despre maximizarea specificațiilor în toate direcțiile; este vorba despre asigurarea unei performanțe susținute și fiabile în condițiile reale cu care se confruntă aplicația.
În general, punctul de lucru este acolo unde doriți ca indicatorii de performanță cheie să fie la nivel optim. Nerespectarea acestui lucru poate duce la o funcționare suboptimă în cele mai tipice scenarii de utilizare ale platformei.
Ca un exemplu simplu, puteți face un sistem de analitică de inteligență artificială extrem de eficient atunci când intrarea este la o rezoluție foarte ridicată, dar dacă acesta este implementat în sisteme care nu ating niciodată această rezoluție, această optimizare este lipsită de sens.
Cum abordați optimizarea pe modele multimodale, având în vedere că video, audio și limbaj sunt adesea amestecate în dispozitivele moderne?
Modelele multimodale necesită un echilibru atent între resursele de calcul și memorie. Fiecare modalityitate solicită sistemul în mod diferit: video este intensiv din punct de vedere al calculului din cauza rezoluției și ratelor de cadre ridicate, în timp ce limbajul și audio sunt mai compacte, dar pun o presiune mai mare asupra lățimii de bandă a memoriei. În aplicații precum procesarea limbaj-viziune, această diviziune devine clară (deși acesta nu este un garant, ci un scenariu tipic): procesarea video împinge calculul, în timp ce modelul de limbaj poate lovi rapid blocajele de memorie.
Abordăm optimizarea prin examinarea modului în care aceste sarcini de lucru interacționează de-a lungul pipeline-ului și asigurându-ne că procesorul este proiectat pentru a le susține simultan, fără a lăsa o modalityitate să compromită performanța celeilalte.
Cum complică creșterea dimensiunii modelului la margine latența și consumul de putere, și care este rolul arhitecturii la nivel de sistem în rezolvarea acestei probleme?
Pe măsură ce dimensiunea modelului crește la margine, latența și consumul de putere devin mai greu de gestionat. Modelele mai mari se bazează mai mult pe memoria off-cip, ceea ce crește atât consumul de energie, cât și întârzierea, mai ales atunci când lățimea de bandă a memoriei devine un blocaj. De exemplu, trecerea de la un model de 1 miliard de parametri la unul de 4 miliarde de parametri ar necesita peste patru ori lățimea de bandă pentru a menține aceeași performanță – dar, în practică, performanța nu se escaladează liniar din cauza constrângerilor de bandă și sistem.
Nu este vorba doar despre a avea TOPS ridicate sau memorie mare; este vorba despre modul în care aceste componente interacționează. O proiectare echilibrată asigură că calculul, memoria și lățimea de bandă funcționează împreună eficient, prevenind ca o resursă să limiteze întregul sistem.
Cum proiectați pentru asigurarea viitorului – având în vedere cât de rapid evoluează modelele de inteligență artificială, sarcinile de lucru și cerințele de implementare?
Asigurarea viitorului în inteligența artificială de margine înseamnă proiectarea procesoarelor care pot gestiona o gamă largă de sarcini de lucru în evoluție. La Hailo, ne concentrăm pe arhitecturi echilibrate care nu sunt adaptate doar unei sarcini, ci pot susține totul, de la funcții perceptive, cum ar fi detectarea obiectelor, la modele generative, cum ar fi VLM. Fiecare tip de sarcin de lucru solicită calculul și memoria în mod diferit, astfel încât proiectăm pentru flexibilitate, evitând blocaje atunci când se comută între ele. De asemenea, ținem cont de limitele reale de putere, cost și latență pe aplicații. Prin prioritizarea diversității sarcinilor de lucru și a echilibrului resurselor, ne propunem să susținem următoarea generație de implementări de inteligență artificială de margine, atât în cazul utilizării consumatorilor, cât și în cel al utilizării industriale.
Cu toate acestea, o singură dimensiune nu poate fi potrivită pentru toate, iar portofoliul nostru vizează aplicații specifice și încearcă să se încadreze în bugetul disponibil, de exemplu, de putere, factor de formă, și aceasta definește un „punct de lucru”.
Care este rolul ecosistemului dezvoltator în maximizarea valorii unui procesor, și cum asigurați că echipele pot face uz complet de capacitățile Hailo?
Ca dispozitiv programabil, este esențial să aveți unelte ușor de utilizat pentru dezvoltatori pentru a exercita potențialul procesorului, pentru a scurta calea spre implementare și pentru a permite noi cazuri de utilizare. Prin oferirea unui mediu bine susținut în jurul procesoarelor noastre, ajutăm echipele să aducă aplicații de inteligență artificială la viață pe o gamă largă de cazuri de utilizare.
Care ar fi sfatul dvs. pentru ingineri sau CTO care aleg primul lor accelerator de inteligență artificială pentru un produs de generație următoare, care se construiește astăzi?
În condițiile actuale, cred că există un potențial imens de inovare, care ne permite să transpunem imaginația în produse reale. Într-un mediu în schimbare rapidă, alegerea unui accelerator care permite un ciclu rapid de la concept la implementare este critică.
Mulțumim pentru acest interviu minunat; cititorii care doresc să afle mai multe despre Hailo ar trebui să viziteze site-ul nostru.












