Partnerstwa
Technologie Infineon i d-Matrix współpracują przy niskiej latencji w infrastrukturze AI
Infineon Technologies ogłosiło współpracę z d-Matrix w celu poprawy wydajności i efektywności energetycznej systemów inferencji AI stosowanych w nowoczesnych centrach danych. Współpraca koncentruje się wokół platformy przyspieszacza inferencji AI Corsair d-Matrix oraz modułów zasilania OptiMOS dual-phase Infineon, które są zaprojektowane do obsługi środowisk obliczeniowych o wysokiej gęstości dla interaktywnych obciążeń AI.
Ogłoszenie podkreśla rosnący trend w branży sprzętu AI. Podczas gdy większość boomu infrastrukturalnego w ciągu ostatnich kilku lat koncentrowała się na szkoleniu coraz większych modeli AI, branża teraz szybko rozprzestrzenia się na inferencję — proces rzeczywistego uruchamiania modeli w aplikacjach takich jak czatboty, systemy AI agencji, piloty, wyszukiwarki, analiza finansowa i wsparcie decyzji medycznych. Te obciążenia stawiają inne wymagania dotyczące sprzętu, szczególnie w zakresie opóźnień, responsywności i zużycia energii.
Dlaczego inferencja AI staje się głównym polem bitwy sprzętu
Inferencja AI wyłoniła się jako jeden z najszybciej rozwijających się segmentów rynku infrastruktury AI, ponieważ interaktywne systemy AI wymagają odpowiedzi w milisekundach, a nie sekundach. d-Matrix pozycjonował Corsair specjalnie dla tych obciążeń, podkreślając ultra-niską latencję i efektywność energetyczną inferencji dla dużych modeli językowych i agentów AI.
Zgodnie z oświadczeniem d-Matrix, Corsair został zaprojektowany wokół cyfrowej architektury obliczeń w pamięci, mającej na celu zmniejszenie wąskich gardeł pamięci, które często spowalniają inferencję AI generatywną. Firma twierdzi, że platforma może znacznie obniżyć opóźnienia i poprawić przepływność w porównaniu z tradycyjnymi systemami inferencji opartymi na GPU, szczególnie dla aplikacji interaktywnych.
Współpraca z Infineon dotyczy innego coraz bardziej krytycznego wyzwania: dostarczania energii.
Podczas gdy serwery AI nadal zwiększają swoją gęstość, efektywne dostarczanie energii do przyspieszaczy stało się czynnikiem ograniczającym skalowalność infrastruktury. Moduły OptiMOS TDM2254xx Infineon są zaprojektowane dla architektur zasilania pionowego, które pomagają zmniejszyć straty elektryczne, jednocześnie poprawiając gęstość mocy w kompaktowych systemach serwerowych.
Przesunięcie w kierunku systemów AI w czasie rzeczywistym
Spółki scharakteryzowały współpracę jako odpowiedź na rozwój „interaktywnej AI”, gdzie systemy inferencji muszą nieprzerwanie generować dane wyjściowe z ekstremalnie niskim opóźnieniem. Obejmuje to AI konwersacyjny, agenci AI, systemy rozumnienia w czasie rzeczywistym i aplikacje wymagające szybkiej generacji tokenów z dużych modeli językowych.
Założyciel i dyrektor generalny d-Matrix, Sid Sheth, powiedział, że architektura Corsair została zaprojektowana specjalnie dla opóźnień tokenów poniżej 2 milisekund, co stało się coraz bardziej istotnym wskaźnikiem, gdy przedsiębiorstwa przenoszą systemy AI z eksperymentów do środowisk skierowanych do klientów.
Szeroka branża AI zaczyna również rozpoznawać, że infrastruktura inferencji może ewoluować inaczej niż infrastruktura szkoleniowa. Podczas gdy klastry GPU dominowały w pierwszej fazie ekspansji AI generatywnej, inferencja coraz częściej nagradza architektury zoptymalizowane pod kątem przepustowości pamięci, opóźnień, sieci i efektywności energetycznej, a nie samej mocy obliczeniowej.
Efektywność energetyczna staje się centralnym elementem skalowania AI
Jednym z największych ograniczeń, z którymi borykają się hyperscalers i dostawcy chmury AI, jest popyt na energię elektryczną. Obciążenia inferencji AI mogą działać nieprzerwanie przez miliony żądań dziennie, co sprawia, że efektywność operacyjna jest kluczowa dla kosztów wdrożenia.
Infineon dynamicznie rozwija swoją pozycję w infrastrukturze AI poprzez technologie półprzewodnikowe oparte na krzemie, węglu krzemu (SiC) i azotku galu (GaN). Firma coraz bardziej koncentruje się na dostarczaniu warstwy zasilania pod przyspieszaczami AI i infrastrukturą serwerową.
Współpraca z d-Matrix odzwierciedla, jak firmy półprzewodnikowe stają się coraz bardziej zintegrowane z startupami przyspieszaczy AI, gdy branża poszukuje alternatyw dla konwencjonalnych architektur opartych na GPU.
Infrastruktura AI rozprzestrzenia się poza tradycyjne GPU
Współpraca następuje również podczas szerszej fali eksperymentów w sprzęcie AI. Rosnąca liczba startupów rozwija specjalistyczne przyspieszacze skoncentrowane specjalnie na inferencji, obliczeniach zorientowanych na pamięć lub sieciach AI.
d-Matrix wyróżnił się poprzez podkreślenie technologii obliczeń w pamięci i systemów inferencji o niskiej latencji dostosowanych do AI generatywnej. Firma również rozszerzyła swoją strategię infrastrukturalną poza same przyspieszacze, ostatnio podkreślając sieci, infrastrukturę komponowaną i optymalizację systemową dla klastrów inferencji.
Podczas gdy aplikacje AI stają się coraz bardziej agencjami i interaktywnymi, dostawcy infrastruktury są spodziewani, że położą większy nacisk na redukcję opóźnień, obniżenie zużycia energii i poprawę efektywności systemowej na poziomie całych stosów centrów danych, zamiast koncentrować się wyłącznie na surowej mocy obliczeniowej.












