Connect with us

Thought leaders

De komende verschuiving in AI-infrastructuur: programmeerbaarheid voorbij silicium

mm

Terwijl de hele wereld steeds meer verliefd wordt op AI en al zijn toepassingen, bestaan er enkele zeer reële barrières die zijn volledige succes belemmeren. Neem bijvoorbeeld AI-datacenter-infrastructuur, die significante betrouwbaarheidsuitdagingen, prestatiebeperkingen en steeds meer beperkingen van stroomverbruik kent die beperken hoe ver AI-systemen in de praktijk kunnen worden geschaald. Inderdaad, AI’s voortdurend veranderende workloads vereisen een stap naar het volgende stadium van OCS-ontwikkeling — programmeerbare siliciumfotonische OCS’s — die niveaus van netwerkflexibiliteit mogelijk maken die nog nooit eerder zijn gezien.

Hoe we hier zijn gekomen: de geschiedenis achter OCS-ontwikkeling

Optical Circuit Switches (OCS’s) hebben een lange geschiedenis in de telefonie, die teruggaat tot het einde van de 19e/begin van de 20e eeuw, toen spraakcommunicatie afhankelijk was van circuit switching — fysiek schakelen van kabels om een telefoonverbinding tussen twee partijen tot stand te brengen. Packet switching werd in de jaren 60 geïntroduceerd als een manier om beter gebruik te maken van gedeelde infrastructuur. Het hield in dat gegevens werden opgesplitst in kleine “pakketten” om meerdere transmissies mogelijk te maken over een netwerk via elke route. In de jaren 70 werden deze pakketten verder gedefinieerd in termen van adressering, routing en levering over heterogene systemen, en in de jaren 80 werd deze definitie — Transmission Control Protocol/Internet Protocol, of TCP/IP — de internetstandaard om eerder onverenigbare netwerken te laten communiceren onder een gemeenschappelijk kader. Toen netwerk- en schaalvereisten in de jaren 90 groeiden, werden Electrical Packet Switches (EPS’s) geïntroduceerd. In combinatie met TCP/IP vormden EPS’s de basis voor de groei van het internet en verbonden miljoenen gebruikers wereldwijd. Tegelijkertijd verving glasvezel koper in mondiale netwerken, waardoor hogere capaciteit, langere bereik en de mogelijkheid om multi-terabit-snelheden te ondersteunen mogelijk werden.

De dynamische AI-omgeving

Maar in het begin van de 21e eeuw legden AI-workloads een enorme druk op de huidige elektronische netwerken, waardoor de ontwikkeling van de eerste commerciële MEMS-gebaseerde Optical Circuit Switch (OCS) datacenter-architecturen werd gestimuleerd. Optische MEMS-schakelaars zijn all-optical schakelapparaten die microscopisch beweegbare spiegels gebruiken om licht tussen ingangs- en uitgangsvezels om te leiden zonder het signaal om te zetten in elektriciteit. Deze MEMS-gebaseerde OCS’s ondersteunen grote poortaantallen, die ideaal zijn voor optische verbinding van verre servers om de beperkingen van koper in datacenters te overwinnen. Echter, beperkingen in herconfiguratie-snelheid, kosten per poort en vormfactor zijn duidelijk geworden. Deze beperkingen verhinderen dat MEMS-gebaseerde OCS’s de behoefte aan netwerkrealtime-herconfiguratie in het hart van de datacenter-computermotor — het scale-up-netwerk — kunnen aanpakken, vooral in het licht van AI-workloads.

Inderdaad, vandaag de dag worden de beperkingen van MEMS-gebaseerde OCS’s en de eisen op de AI-datacenter alleen maar duidelijker, dankzij de massale, niet-lineaire, onvoorspelbare veranderingen die door AI elk jaar of elke zes maanden — zo niet elke kwartaal — worden geïntroduceerd. AI-datacenter-ecosysteemactoren worden nu gevraagd om snel aan te passen en te reageren op het voortdurend veranderende AI-landschap. En netwerkontwerpers worden onder druk gezet om hun AI-datacenter-netwerken te herconfigureren of te herprogrammeren als dat nodig is om problemen binnen het netwerk te omzeilen of om het nieuwe niveau van AI-workloads met geoptimaliseerde prestaties te beheren.

Programmeerbare siliciumfotonica: verder gaan dan een ‘bevroren’ netwerk

Programmeerbare siliciumfotonische (SiPh) OCS’s zijn de volgende stap in OCS-ontwikkeling. Deze fotonicachips zijn laag in kosten, zeer compact en worden aangedreven door software, waardoor ze onmiddellijk kunnen worden herprogrammeerd om in real-time de manier van licht en dus het netwerk te herconfigureren. In vergelijking met MEMS is de programmeerbare SiPh OCS een solide-staats technologie, die veel betrouwbaarheidsrisico’s wegneemt omdat er geen bewegende delen zijn. Solide-staats, CMOS-compatibele technologie impliceert ook dat het de optimale GPU-cluster-doelkosten van $100 per radix kan evenaren.

Programmeerbare SiPh OCS’s versterken AI-datacenter-architecturen op twee kritieke manieren. Ten eerste maken ze snelle herconfiguratie van GPU-interconnects mogelijk, zodat workloads efficiënter kunnen worden uitgevoerd en sneller kunnen worden voltooid. Aangezien AI-training evolueert, moeten communicatietopologieën dynamisch veranderen — zelfs binnen de trainingsjob — zonder pakketverlies. Dit vereist extreem snelle herconfiguratie-tijden, een gebied waarin SiPh OCS-schaalbaarheid fundamenteel superieur is aan MEMS-gebaseerde benaderingen, met herconfiguratie- en transductietijden die vele malen sneller zijn dan MEMS-technologieën.

Ten tweede staat SiPh OCS-programmeerbaarheid toe dat extra functionaliteiten rechtstreeks in de schakelstof kunnen worden geïntegreerd zonder de vormfactor te schalen. Functionaliteiten zoals real-time-telemetrie via SiGe-geïntegreerde fotodetectors en linkversterking kunnen worden geïntegreerd om observatie en falenbestendigheid te verbeteren. Terwijl MEMS-gebaseerde OCS’s typisch 2–3 dB optische verlies introduceren, kunnen SiPh OCS-implementaties zo worden ontworpen dat ze effectief verliesvrij zijn, waardoor de algehele systeemflexibiliteit en efficiëntie worden verbeterd.

Blik in de toekomst

Omdat historische datacenter-netwerken star zijn en de veranderende behoeften van AI-datacenters niet kunnen bijhouden, biedt de markt voor programmeerbare SiPh-technologie een multi-miljardenkans. Samen met deze enorme groei komt de behoefte aan samenwerking en samenwerking tussen bedrijven die aan de basis staan van deze nieuwe technologie. Daartoe bestaat er een OCP-standaardisatieorgaan — dat Google, Microsoft, Lumentum en andere innovators omvat — dat als doel heeft om de software-interface voor de netwerkbeheerder die OCS gebruikt zo standaard en gemakkelijk te gebruiken te maken als mogelijk. Samen delen deze bedrijven hun perspectieven en creëren ze standaarden om de technologie vooruit te helpen en de adoptie te versnellen.

Aangezien AI de evolutie in onze wereld aandrijft, moeten AI-datacenter-netwerken eveneens evolueren en toekomstbestendig zijn om het te ondersteunen. Programmeerbare SiPh OCS’s stellen bedrijven in staat om op het hoogste niveau van innovatie te creëren en nieuwe en spannende kansen voor iedereen te realiseren.

Christian Dupont is CEO van iPronics, waar hij tientallen miljoenen heeft opgehaald om het bedrijf te laten groeien in optische schakelaars voor AI-datacenters. Als EPFL-ingenieur met eenistinguished carrière in de technologiebranche, heeft de heer Dupont uitvoerende rollen gehad bij Texas Instruments, heeft hij als CEO gediend bij Varioptic en PoLight in het domein van optische MEMS, en later als CEO van CEO-CF, Dolphin Integration en Riber.