Connect with us

Infineon Technologies und d-Matrix kooperieren bei Low-Latency-AI-Infrastruktur

Partnerschaften

Infineon Technologies und d-Matrix kooperieren bei Low-Latency-AI-Infrastruktur

mm

Infineon Technologies hat eine Zusammenarbeit mit d-Matrix bekannt gegeben, die auf die Verbesserung der Leistung und Energieeffizienz von AI-Inferenzsystemen abzielt, die in modernen Rechenzentren verwendet werden. Die Partnerschaft konzentriert sich auf d-Matrix’ Corsair-AI-Inferenz-Beschleuniger-Plattform und Infineons OptiMOS-Dual-Phase-Leistungsmodulen, die für hochdichte Rechenumgebungen für interaktive AI-Workloads konzipiert sind.

Die Ankündigung unterstreicht eine wachsende Verschiebung innerhalb der AI-Hardware-Industrie. Während sich der größte Teil des Infrastruktur-Booms in den letzten Jahren auf die Ausbildung immer größerer AI-Modelle konzentrierte, expandiert die Industrie nun schnell in die Inferenz – den Prozess des tatsächlichen Ausführens von Modellen in realen Anwendungen wie Chatbots, agierenden AI-Systemen, Copiloten, Suchfunktionen, Finanzanalysen und Entscheidungsunterstützung im Gesundheitswesen. Diese Workloads stellen andere Anforderungen an die Hardware, insbesondere im Hinblick auf Latenz, Responsivität und Energieverbrauch.

Warum AI-Inferenz zu einem wichtigen Hardware-Schlachtfeld wird

AI-Inferenz ist zu einem der am schnellsten wachsenden Segmente des AI-Infrastrukturmarktes geworden, da interaktive AI-Systeme Antworten in Millisekunden und nicht in Sekunden benötigen. d-Matrix hat Corsair speziell für diese Workloads positioniert, wobei der Schwerpunkt auf ultraniedriger Latenz und energieeffizienter Inferenz für große Sprachmodelle und AI-Agents liegt.

Laut d-Matrix wurde Corsair um eine digitale In-Memory-Compute-Architektur herum entwickelt, die darauf abzielt, die Speicherengpässe zu reduzieren, die oft die generative AI-Inferenz verlangsamen. Das Unternehmen behauptet, dass die Plattform die Latenz erheblich senken und die Durchsatzrate im Vergleich zu herkömmlichen GPU-zentrierten Inferenzsystemen verbessern kann, insbesondere für interaktive Anwendungen.

Die Partnerschaft mit Infineon adressiert eine weitere zunehmend kritische Herausforderung: die Stromversorgung.

Da AI-Server weiterhin an Dichte zunehmen, ist die effiziente Stromversorgung von Beschleunigern zu einem limitierenden Faktor für die Skalierung der Infrastruktur geworden. Infineons OptiMOS-TDM2254xx-Module sind für vertikale Stromversorgungsarchitekturen konzipiert, die helfen, elektrische Verluste zu reduzieren und die Leistungsdichte in kompakten Serversystemen zu verbessern.

Der Wechsel zu Echtzeit-AI-Systemen

Die Unternehmen haben die Zusammenarbeit um den Aufstieg von “interaktiver AI” herum aufgebaut, bei der Inferenzsysteme kontinuierlich Ausgaben mit extrem niedriger Verzögerung generieren müssen. Dazu gehören konversationale AI, AI-Agents, Echtzeit-Reasoning-Systeme und Anwendungen, die eine schnelle Token-Generierung aus großen Sprachmodellen erfordern.

d-Matrix-Gründer und CEO Sid Sheth sagte, dass die Architektur hinter Corsair speziell für eine Token-Latenz von unter 2 Millisekunden entwickelt wurde, ein Maß, das immer wichtiger wird, da Unternehmen AI-Systeme von Experimenten in kundenorientierte Umgebungen verlagern.

Die breitere AI-Industrie beginnt auch zu erkennen, dass Inferenz-Infrastruktur möglicherweise anders als Trainings-Infrastruktur entwickelt wird. Während GPU-Cluster die erste Phase der generativen AI-Expansion dominierten, belohnt Inferenz zunehmend Architekturen, die auf Speicherbandbreite, Latenz, Netzwerk und Energieeffizienz optimiert sind, anstatt nur auf rohe Rechenleistung.

Energieeffizienz wird zum zentralen Aspekt der AI-Skalierung

Eine der größten Einschränkungen, mit denen Hyperscaler und AI-Cloud-Anbieter konfrontiert sind, ist der Strombedarf. AI-Inferenz-Workloads können kontinuierlich über Millionen von Anfragen pro Tag laufen, was die Betriebseffizienz für die Bereitstellungskosten kritisch macht.

Infineon hat seine Position innerhalb der AI-Infrastruktur durch Halbleitertechnologien auf der Basis von Silizium, Siliziumcarbid (SiC) und Galliumnitrid (GaN) aggressiv ausgebaut. Das Unternehmen hat sich zunehmend auf die Versorgung der Stromversorgungsschicht unter AI-Beschleunigern und Server-Infrastruktur konzentriert.

Die Zusammenarbeit mit d-Matrix spiegelt wider, wie Halbleiterunternehmen enger mit AI-Beschleuniger-Startups integriert werden, da die Industrie nach Alternativen zu herkömmlichen GPU-lastigen Architekturen sucht.

AI-Infrastruktur expandiert jenseits traditioneller GPUs

Die Partnerschaft kommt während einer breiteren Welle von Experimenten in der AI-Hardware. Eine wachsende Anzahl von Startups entwickelt spezialisierte Beschleuniger, die speziell auf Inferenz, memory-zentrierte Computing oder AI-Netzwerke ausgerichtet sind.

d-Matrix hat sich durch seinen Schwerpunkt auf Compute-in-Memory-Technologien und low-latency-Inferenz-Systeme für generative AI abgehoben. Das Unternehmen hat auch seine Infrastrukturstrategie über Beschleuniger-Chips hinaus erweitert und kürzlich Netzwerke, komponierbare Infrastruktur und vollständige Systemoptimierung für Inferenz-Cluster betont.

Da AI-Anwendungen immer interaktiver und agenter werden, werden Infrastrukturanbieter erwartet, einen größeren Schwerpunkt auf die Reduzierung der Latenz, die Senkung des Energieverbrauchs und die Verbesserung der Systemeffizienz über den gesamten Rechenzentrums-Stack hinweg legen, anstatt sich ausschließlich auf die rohe Rechenleistung zu konzentrieren.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.