interviste

Doug Fuller, vicepresidente dell'ingegneria del software presso Cornelis Networks – Serie di interviste

Pubblicato il

9 mesi fa

Luglio 28, 2023

In qualità di vicepresidente dell'ingegneria del software, Doug è responsabile di tutti gli aspetti del Reti Cornelis' stack software, inclusi i driver dell'architettura Omni-Path, il software di messaggistica e i sistemi di controllo dei dispositivi incorporati. Prima di entrare a far parte di Cornelis Networks, Doug ha guidato i team di ingegneria del software di Red Hat nel cloud storage e nei servizi dati. La carriera di Doug nell'HPC e nel cloud computing è iniziata presso lo Scalable Computing Laboratory dell'Ames National Laboratory. Dopo diversi ruoli nell'informatica di ricerca universitaria, Doug è entrato a far parte dell'Oak Ridge National Laboratory del Dipartimento dell'Energia degli Stati Uniti nel 2009, dove ha sviluppato e integrato nuove tecnologie presso l'Oak Ridge Leadership Computing Facility di livello mondiale.

Cornelis Networks è un leader tecnologico che fornisce fabric ad alte prestazioni appositamente costruiti per High Performance Computing (HPC), High Performance Data Analytics (HPDA) e Intelligenza Artificiale (AI) alle principali organizzazioni commerciali, scientifiche, accademiche e governative.

Cosa ti ha attratto inizialmente verso l'informatica?

Sembrava che mi piacesse lavorare con la tecnologia. Mi è piaciuto lavorare con i computer crescendo; avevamo un modem nella nostra scuola che mi ha permesso di provare Internet e l'ho trovato interessante. Come matricola al college, ho incontrato uno scienziato computazionale dell'USDOE mentre mi offrivo volontario per il National Science Bowl. Mi ha invitato a visitare il suo laboratorio HPC e ne sono rimasto affascinato. Da allora sono un fanatico dei supercomputer.

Hai lavorato in Red Hat dal 2015 al 2019, quali sono stati alcuni dei progetti su cui hai lavorato e quali sono stati i punti salienti di questa esperienza?

Il mio progetto principale in Red Hat era lo storage distribuito Ceph. In precedenza mi ero concentrato interamente sull'HPC e questo mi ha dato l'opportunità di lavorare su tecnologie fondamentali per l'infrastruttura cloud. Fa rima. Molti dei principi di scalabilità, gestibilità e affidabilità sono estremamente simili anche se mirano a risolvere problemi leggermente diversi. In termini di tecnologia, la mia conclusione più importante è stata che il cloud e l'HPC hanno molto da imparare l'uno dall'altro. Stiamo costruendo sempre più progetti diversi con lo stesso set Lego. Mi ha davvero aiutato a capire in che modo le tecnologie abilitanti, inclusi i tessuti, possono influire su applicazioni HPC, cloud e AI allo stesso modo. È anche il luogo in cui sono arrivato davvero a capire il valore dell'Open Source e come eseguire l'Open Source, la filosofia di sviluppo del software prima a monte che ho portato con me in Cornelis Networks. Personalmente, Red Hat è stato il luogo in cui sono davvero cresciuto e maturato come leader.

Attualmente sei il vicepresidente dell'ingegneria del software presso Cornelis Networks, quali sono alcune delle tue responsabilità e com'è la tua giornata tipo?

In qualità di vicepresidente dell'ingegneria del software, sono responsabile di tutti gli aspetti dello stack software di Cornelis Networks, inclusi i driver dell'architettura Omni-Path, il software di messaggistica, la gestione della struttura ei sistemi di controllo dei dispositivi integrati. Cornelis Networks è un luogo entusiasmante, soprattutto in questo momento e in questo mercato. Per questo motivo, non sono sicuro di avere una giornata "normale". Alcuni giorni sto lavorando con il mio team per risolvere l'ultima sfida tecnologica. Altri giorni sto interagendo con i nostri architetti hardware per assicurarmi che i nostri prodotti di prossima generazione vengano consegnati ai nostri clienti. Sono spesso sul campo per incontrare la nostra fantastica community di clienti e collaboratori assicurandomi di comprendere e anticipare le loro esigenze.

Cornelis Networks offre reti di nuova generazione per applicazioni di High Performance Computing e AI, potresti condividere alcuni dettagli sull'hardware offerto?

Il nostro hardware consiste in una soluzione fabric di rete di tipo switching ad alte prestazioni. A tal fine, forniamo tutti i dispositivi necessari per integrare completamente i fabric HPC, cloud e AI. Omni-Path Host-Fabric Interface (HFI) è una scheda PCIe a basso profilo per dispositivi endpoint. Produciamo anche uno switch "top-of-rack" 48U a 1 porte. Per distribuzioni più grandi, realizziamo due switch di "classe director" completamente integrati; uno che racchiude 288 porte in 7U e un dispositivo da 1152 porte, 20U.

Puoi discutere del software che gestisce questa infrastruttura e di come è progettata diminuire la latenza?

In primo luogo, la nostra piattaforma di gestione integrata offre facilità di installazione e configurazione, nonché l'accesso a un'ampia gamma di metriche di configurazione e prestazioni prodotte dai nostri switch ASIC.

Il nostro software driver è sviluppato come parte del kernel Linux. In effetti, inviamo tutte le nostre patch software direttamente alla comunità del kernel Linux. Ciò garantisce che tutti i nostri clienti godano della massima compatibilità tra le distribuzioni Linux e della facile integrazione con altri software come Lustre. Pur non essendo nel percorso di latenza, avere un driver in-tree riduce drasticamente la complessità dell'installazione.

L'Omni-Path Fabric Manager (FM) configura e instrada un'Omni-Path Fabric. Ottimizzando le rotte del traffico e ripristinando rapidamente i guasti, l'FM offre prestazioni e affidabilità leader del settore su fabric da decine a migliaia di nodi.

Omni-Path Express (OPX) è il nostro software di messaggistica ad alte prestazioni, recentemente rilasciato a novembre 2022. È stato specificamente progettato per ridurre la latenza rispetto al nostro precedente software di messaggistica. Abbiamo eseguito simulazioni accurate del ciclo dei nostri percorsi di codice di invio e ricezione per ridurre al minimo il conteggio delle istruzioni e l'utilizzo della cache. Ciò ha prodotto risultati drammatici: quando sei nel regime dei microsecondi, ogni ciclo conta!

Abbiamo anche integrato con il Interfacce OpenFabrics (OFI), uno standard aperto prodotto da OpenFabrics Alliance. L'architettura modulare di OFI aiuta a ridurre al minimo la latenza consentendo al software di livello superiore, come MPI, di sfruttare le funzionalità del fabric senza ulteriori chiamate di funzione.

L'intera rete è progettata anche per aumentare la scalabilità, potresti condividere alcuni dettagli su come è in grado di scalare così bene?

La scalabilità è al centro dei principi di progettazione di Omni-Path. Ai livelli più bassi, utilizziamo la tecnologia a livello di collegamento Cray per correggere gli errori di collegamento senza alcun impatto sulla latenza. Ciò influisce sui tessuti a tutte le scale, ma è particolarmente importante per i tessuti su larga scala, che naturalmente subiscono più errori di collegamento. Il nostro responsabile del tessuto si concentra sia sulla programmazione di tabelle di routing ottimali sia sul farlo in modo rapido. Ciò garantisce che l'instradamento anche per i tessuti più grandi possa essere completato in un tempo minimo.

La scalabilità è anche un componente critico di OPX. La riduzione al minimo dell'utilizzo della cache migliora la scalabilità sui singoli nodi con un numero elevato di core. Ridurre al minimo la latenza migliora anche la scalabilità migliorando il tempo di completamento per gli algoritmi collettivi. L'utilizzo più efficiente delle risorse dell'interfaccia host-fabric consente a ciascun core di comunicare con più peer remoti. La scelta strategica di libfabric ci consente di sfruttare funzionalità software come endpoint scalabili utilizzando interfacce standard.

Potresti condividere alcuni dettagli su come l'intelligenza artificiale è incorporata in alcuni dei flussi di lavoro di Cornelis Networks?

Non siamo ancora pronti a parlare esternamente dei nostri usi interni e dei piani per l'IA. Detto questo, mangiamo il nostro cibo per cani, quindi possiamo sfruttare i miglioramenti di latenza e scalabilità che abbiamo apportato a Omni-Path per supportare i carichi di lavoro IA. Ci rende ancora più entusiasti di condividere questi vantaggi con i nostri clienti e partner. Abbiamo certamente osservato che, come nell'HPC tradizionale, il ridimensionamento dell'infrastruttura è l'unica strada da percorrere, ma la sfida è che le prestazioni della rete sono facilmente soffocate da Ethernet e altre reti tradizionali.

Quali sono alcuni cambiamenti che prevedi nel settore con l'avvento dell'IA generativa?

Prima di tutto, l'uso dell'IA generativa renderà le persone più produttive: nessuna tecnologia nella storia ha reso gli esseri umani obsoleti. Ogni evoluzione e rivoluzione tecnologica che abbiamo avuto, dalla sgranatrice al telaio automatico, al telefono, Internet e oltre, ha reso alcuni lavori più efficienti, ma non abbiamo eliminato l'umanità dall'esistenza.

Attraverso l'applicazione dell'IA generativa, credo che le aziende avanzeranno tecnologicamente a un ritmo più veloce perché coloro che gestiscono l'azienda avranno più tempo libero per concentrarsi su tali progressi. Ad esempio, se l'IA generativa fornisce previsioni, rapporti, pianificazione, ecc. più accurati, le aziende possono concentrarsi sull'innovazione nel loro campo di competenza

Sento specificamente che l'IA renderà ognuno di noi un esperto multidisciplinare. Ad esempio, in qualità di esperto di software scalabile, comprendo le connessioni tra HPC, big data, cloud e applicazioni AI che li guidano verso soluzioni come Omni-Path. Dotato di un assistente AI generativo, posso approfondire il significato delle applicazioni utilizzate dai nostri clienti. Non ho dubbi che questo ci aiuterà a progettare hardware e software ancora più efficaci per i mercati ei clienti che serviamo.

Prevedo anche un miglioramento generale della qualità del software. L'intelligenza artificiale può funzionare efficacemente come "un altro paio di occhi" per analizzare staticamente il codice e sviluppare approfondimenti su bug e problemi di prestazioni. Ciò sarà particolarmente interessante su larga scala, dove i problemi di prestazioni possono essere particolarmente difficili da individuare e costosi da riprodurre.

Infine, spero e credo che l'IA generativa aiuterà il nostro settore a formare e coinvolgere più professionisti del software senza precedenti esperienze in AI e HPC. Il nostro campo può sembrare scoraggiante per molti e può volerci del tempo per imparare a "pensare in parallelo". Fondamentalmente, proprio come le macchine hanno reso più facile la produzione di cose, l'IA generativa renderà più facile considerare e ragionare sui concetti.

C'è qualcos'altro che vorresti condividere sul tuo lavoro o su Cornelis Networks in generale?

Vorrei incoraggiare chiunque sia interessato a intraprendere una carriera nell'informatica, in particolare in HPC e AI. In questo campo, siamo equipaggiati con le più potenti risorse informatiche mai costruite e le applichiamo alle più grandi sfide dell'umanità. È un posto eccitante dove stare e mi sono divertito in ogni fase del percorso. L'intelligenza artificiale generativa porta il nostro campo a livelli ancora più elevati poiché la domanda di capacità in aumento aumenta drasticamente. Non vedo l'ora di vedere dove andremo dopo.

Grazie per l'ottima intervista, i lettori che desiderano saperne di più dovrebbero visitare Reti Cornelis.

Avanti il prossimo

Dr. Sam Zheng, CEO e co-fondatore di DeepHow – Serie di interviste

Da non perdere

David Smith, Chief Data Officer di TheVentureCity – Serie di interviste

Antonio Tardif

Socio fondatore di unite.AI e membro di Consiglio tecnologico di Forbes, Antonio è un futurista che è appassionato del futuro dell'intelligenza artificiale e della robotica.

È anche il Fondatore di Titoli.io, un sito web che si concentra sugli investimenti in tecnologie dirompenti.

Unite.AI

Doug Fuller, vicepresidente dell'ingegneria del software presso Cornelis Networks – Serie di interviste

interviste

Doug Fuller, vicepresidente dell'ingegneria del software presso Cornelis Networks – Serie di interviste

Sommario

Post Recenti

Unite.AI

Doug Fuller, vicepresidente dell'ingegneria del software presso Cornelis Networks – Serie di interviste

Sommario

Ti potrebbe piacere

Post Recenti