Interviuri
Elad Raz, CEO de NextSilicon – Seria de interviuri

Elad Raz, CEO de NextSilicon, este un antreprenor experimentat și lider în tehnologie, respectat pentru expertiza sa profundă în sisteme de nivel scăzut, securitate, rețele și dezvoltare de sisteme de fișiere. De-a lungul carierei sale, care a cuprins roluri de inginerie militară de elită, conducere de software senior, construirea de companii și investiții pe termen lung, Raz a condus proiecte complexe și critice pentru misiuni, care au traversat internalele sistemelor de operare și integrarea hardware-software. Înainte de a fonda NextSilicon, el a construit și a ieșit din mai multe companii de tehnologie, a ocupat roluri de conducere senior într-o firmă de semiconductoare de top și a investit într-un portofoliu divers de startup-uri, combinând o adâncime de inginerie practică cu o execuție puternică și o viziune strategică pe termen lung.
NextSilicon este o companie israeliană de calcul de înaltă performanță și semiconductoare, fondată în 2017, care redefinește arhitectura de calcul pentru sarcini de lucru solicitante, cum ar fi inteligența artificială și calculul științific. Compania a dezvoltat o platformă de calcul inteligent, definită prin software, proiectată pentru a oferi performanță și eficiență ridicată, fără a necesita ca dezvoltatorii să rescrie aplicațiile. Prin concentrarea pe adaptabilitate la nivel de hardware, NextSilicon își propune să abordeze blocajele fundamentale din centrele de date moderne și medii de supracalcul, poziționându-se ca o alternativă de nouă generație la acceleratoarele tradiționale.
Puteți să ne spuneți despre călătoria dvs. care a condus la fondarea NextSilicon? Ce a declanșat ideea inițială și cum au influențat experiențele dvs. timpurii cu calculul viziunea dvs.?
Am fost fascinat de calculatoare de când eram copil. Acea fascinație m-a condus de la a experimenta cu vechile Commodore 64 și Atari (pe care le colecționez și astăzi) la a co-fonda startup-uri și, în cele din urmă, la a vinde compania mea anterioară către Mellanox. Dar, chiar și cu aceste succese timpurii, am continuat să văd aceeași provocare, una după alta, în această industrie. Pe măsură ce sarcinile de calcul au devenit mai complexe, arhitecturile tradiționale de CPU și GPU au atins limitele de performanță, eficiență energetică și scalabilitate. Indiferent dacă optimizați algoritmi sau rulați simulări la scară largă, a devenit clar că arhitecturile actuale forțează sarcinile de lucru să se adapteze la hardware – și nu invers.
Scânteia pentru NextSilicon a provenit din această provocare recurentă și a ridicat întrebarea: Ce se întâmplă dacă am putea să inversăm situația și să construim arhitecturi de calcul care se adaptează la sarcini de lucru, în loc să forțeze sarcinile de lucru să se adapteze la hardware? Experiența mea timpurie cu proiectarea algoritmilor și hardware-ul mi-a învățat că adevăratele descoperiri vor veni din combinarea celor două în timp real. Acesta este fundamentul Arhitecturii noastre de Calcul Inteligent (ICA) și viziunea ghidatoare a NextSilicon de la început.
Maverick-2 este descris ca un Accelerator de Calcul Inteligent care se adaptează la sarcini de lucru în timp real. Cum diferă arhitectura sa de cea a GPU-urilor tradiționale sau a FPGA-urilor și ce permite acest nivel de adaptabilitate?
CPU-urile și GPU-urile au transformat lumea noastră și ne-au servit bine. Dar acestea nu au fost proiectate pentru a îndeplini cerințele sarcinilor de lucru moderne de inteligență artificială și calcul de înaltă performanță (HPC) din domenii precum știința, vremea, energia și apărarea. Aceste sarcini de lucru au dependențe de date complexe, modele de acces la memorie și modele de calcul care nu au fost proiectate pentru a fi gestionate de procesorii de astăzi. Rezultatul este reprezentat de blocaje care încetinesc inovația.
Diferența cheie a arhitecturii Maverick-2 este abordarea sa inovatoare, care combină un motor de flux de date reconfigurabil cu optimizarea software în timp real. Diferența arhitecturală cheie este că hardware-ul este configurat pe baza sarcinii dvs. de lucru, și nu invers. Pentru Maverick-2, disponibilitatea datelor conduce calculul, și nu un contor de program care conduce execuția instrucțiunilor, ca în procesorii tradiționali. Acest lucru ne permite să creăm unități de procesare virtuale definite prin software, care pot fi configurate și reconfigurate în timp real pentru a se potrivi cu modelele specifice de sarcini de lucru.
Rezultatele vorbesc de la sine: Maverick-2 oferă o performanță de peste 4 ori mai mare pe watt decât GPU-urile și de peste 20 de ori mai mare decât CPU-urile, reducând în același timp costurile operaționale cu peste jumătate. Ca urmare, cercetătorii și inginerii pot rula simulări mari și neregulate mai rapid și mai eficient, deblocând astfel insight-uri și descoperiri într-o fracțiune din timp.
Ați raportat realizarea unei performanțe de peste 4 ori mai mare pe watt față de GPU-uri și de peste 20 de ori mai mare decât CPU-urile de înaltă performanță. Care sunt inovațiile cheie care conduc la aceste câștiguri de performanță în sarcini de lucru reale?
Câștigurile de performanță provin din câteva inovații cheie care lucrează împreună.
În primul rând, ne-am îndepărtat de modelul Von Neumann, care a dominat calculul timp de 80 de ani. În loc de execuția secvențială a instrucțiunilor, Maverick-2 utilizează o arhitectură de flux de date, în care calculul urmează disponibilitatea datelor. Acest lucru este fundamental mai potrivit pentru sarcini de lucru neregulate și intensive din punct de vedere al memoriei.
În al doilea rând, arhitectura noastră de auto-optimizare generează nuclee de procesor definite prin software în timp real. Hardware-ul se adaptează la nevoile fiecărei aplicații fără a necesita rescrierea codului – obțineți optimizarea fără supraîncărcarea.
În al treilea rând, și acesta este critic: ne concentrăm pe performanța reală susținută, nu pe vârfurile teoretice. Multe arhitecturi arată bine pe hârtie, dar se înfrâng pe sarcini de lucru reale. Maverick-2 menține eficiența pe sarcini de lucru de inteligență artificială, HPC și baze de date vectoriale, adaptându-se continuu la nevoile sarcinii de lucru.
Maverick-2 suportă C/C++, Fortran, OpenMP și Kokkos fără a necesita modificări de cod. Cum au răspuns dezvoltatorii la această compatibilitate și care sunt planurile dvs. pentru a suporta CUDA, ROCm sau cadre de inteligență artificială populare?
Dezvoltatorii iubesc faptul că Maverick-2 este un adevărat “înlocuitor de tip drop-in”. Ei pot rula aplicațiile existente imediat, fără a întâmpina bariere de portare care afectează această industrie. În prezent, suportăm C/C++, Fortran, OpenMP și Kokkos, cu CUDA, ROCm și cadre de inteligență artificială majore, cum ar fi TensorFlow, JAX, PyTorch și ONNX, în dezvoltare activă. Acest lucru elimină blocajul furnizorului și rescrierea codului costisitoare și permite clienților să evalueze și să adopte noi arhitecturi fără a perturba fluxurile de lucru.
Cum funcționează sistemul de optimizare bazat pe telemetrie al Maverick-2 în spatele scenei? Ce este implicat în profilarea și reconfigurarea cipului în timp real?
Gândiți-vă la optimizarea noastră de sistem ca la un ciclu continuu: în timpul execuției, sistemul nostru de telemetrie măsoară sute de indicatori de performanță (de exemplu, lățimea de bandă a memoriei, utilizarea, adâncimea cozilor). Toate aceste date sunt introduse într-un optimizator de timp de rulare care determină dacă configurația actuală a hardware-ului rămâne optimă pentru sarcina de lucru și nevoile sale prevăzute. Dacă nu, acesta poate repartitiona resurse, reordona căile de date și ajusta conductele de calcul în mod continuu, ceea ce înseamnă că aplicația nu se oprește. Acest lucru se întâmplă în milisecunde, astfel încât aplicația menține eficiența maximă constantă, pe măsură ce profilul său de calcul se schimbă.
Există tipuri specifice de sarcini de lucru sau cazuri limită în care ajustarea performanței în timp real este mai puțin eficientă sau introduce compromisuri în latență sau putere?
Orice arhitectură va avea compromisuri. Maverick-2 excelează la sarcini de lucru complexe și neregulate, cu modele de calcul și acces la memorie în schimbare. Pentru sarcini de lucru foarte previzibile și cu funcții fixe, un GPU bine reglat poate fi foarte eficient fără supraîncărcarea adaptării. În aceste cazuri, adaptabilitatea noastră oferă încă o performanță solidă, dar avantajul relativ poate fi mai mic.
Proiectarea NextSilicon se concentrează pe versatilitate și competitivitate în cazuri simple, dar este transformatoare în cele dificile.
De ce ați decis să priorizați piața HPC de la început, când majoritatea startup-urilor se grăbeau să intre pe piața de inteligență artificială? Cum a influențat această decizie produsul și strategia dvs. de afaceri?
HPC reprezintă frontiera complexității computaționale și a rezolvării problemelor pentru seturi de date masive, acces la memorie neregulat și modele de calcul imprevizibile. Dacă puteți construi o arhitectură care să prospere aici – cum ar fi rularea simulărilor la scară de exabytes în modelarea climatică sau fizica particulelor, va excela și în inteligența artificială.
Prin concentrarea asupra HPC de la început, am demonstrat Maverick-2 pe sarcini de lucru solicitante din domeniul modelării climatice, fizicii și științelor vieții. Acest lucru ne-a oferit credibilitate, date de performanță din lumea reală și un produs matur înainte de a ne extinde în piețele de inteligență artificială. Acum, suntem poziționați pentru a deservi ambele, fără a compromite arhitectura noastră pentru a capitaliza tendințe sau nevoi pe termen scurt.
Acum, când Maverick-2 este în producție și implementat la zeci de clienți, puteți să ne împărtășiți exemple de modul în care este utilizat? Rezultate sau benchmark-uri specifice din implementări de top?
Un exemplu de top este implementarea noastră la Sandia National Labs, unde Maverick-2 alimentează supercomputerul Spectra, ca parte a programului Vanguard-II. Vedem rezultate de performanță impresionante fără a necesita modificări de cod. De asemenea, lucrăm cu ODISSEE (Soluții online intensive de date pentru știință în era exabytes), care reunește instituții de cercetare de top pentru a gestiona date de exabytes de la Colliderul de înaltă luminanță de la CERN și Observatorul Square Kilometre Array. Rolul Maverick-2 va fi de a rezolva provocarea de a prelucra petabytes de date experimentale brute într-o fracțiune din timpul și energia necesare anterior. Scopul final este de a permite analize de fizică și descoperiri astronomice mai rapide.
Ați strâns peste 300 de milioane de dolari, cu runde majore anunțate în 2021 și recent. Puteți să ne spuneți cum a accelerat această finanțare dezvoltarea produsului și răspândirea pe piață?
Finanțarea ne-a permis să facem trei lucruri. În primul rând, am putut să ducem arhitectura mai departe, nu doar îmbunătățiri incrementale, ci avansuri fundamentale care au făcut Maverick-2 gata de producție. În al doilea rând, am escaladat producția și lanțul de aprovizionare pentru a satisface cererea în creștere, o provocare non-trivială pentru siliciul nou. În al treilea rând, am extins ecosistemul nostru de software pentru a permite clienților să integreze și să implementeze mai rapid.
Acest lucru ne-a permis, de asemenea, să încheiem parteneriate strategice cu centre de supracalcul și furnizori de servicii cloud, permițându-ne să simplificăm procesul de la concept la implementare și să ne extindem mult mai rapid decât startup-urile tradiționale de hardware.
Într-un peisaj care include Cerebras, SambaNova și Nvidia, cum vă poziționați NextSilicon? Care este abordarea dvs. de piață ca challenger?
Ne vedem pe NextSilicon ca o companie de tehnologie, mai degrabă decât doar o companie de cipuri. Optimizăm fiecare sarcină de lucru, oferim adaptabilitate și nu blocăm clienții în programe sau hardware proprietare. Clienții noștri pot aduce codul existent și obține accelerare imediată, fără cicluri lungi de portare sau blocaj de furnizor, cum ar fi CUDA. Acest lucru contează în special pe măsură ce sarcinile de lucru de inteligență artificială evoluează dincolo de antrenamentul pur. Modelele de raționament, inferența extinsă și ferestrele de context mari necesită modele de calcul fundamental diferite: acces la memorie mai dinamic, calcul cu lungime variabilă și alocare de resurse adaptabilă. Acestea nu sunt probleme pe care le puteți rezolva cu mai mult din aceeași arhitectură fixă.
Strategia noastră de piață se concentrează pe rezolvarea problemelor cele mai dificile mai întâi: lucrul cu instituții de cercetare, laboratoare naționale și întreprinderi în care performanța, eficiența energetică și flexibilitatea sunt critice. De acolo, ne extindem în piețele mai largi de inteligență artificială și de date intensive. Industria este dominată de arhitecturi fixe. Noi oferim ceva diferit, adaptabilitate construită de la început. Inteligența artificială se schimbă de la scară la inteligență. Modelele mai mari permit un raționament mai inteligent, de la prompturi scurte la înțelegere contextuală pe termen lung. În această tranziție, arhitecturile adaptabile nu vor fi doar noi; vor fi esențiale.
Mulțumim pentru interviul excelent; cititorii care doresc să afle mai multe ar trebui să viziteze NextSilicon.












