Kemitraan
Infineon Technologies dan d-Matrix Bermitra dalam Infrastruktur AI Rendah Latensi
Infineon Technologies telah mengumumkan kerja sama dengan d-Matrix yang berfokus pada meningkatkan kinerja dan efisiensi energi sistem inferensi AI yang digunakan di pusat data modern. Kemitraan ini berpusat pada platform akselerator inferensi AI Corsair dari d-Matrix dan modul daya OptiMOS dual-fase dari Infineon, yang dirancang untuk mendukung lingkungan komputasi berkepadatan tinggi untuk beban kerja AI interaktif.
Pengumuman ini menyoroti pergeseran yang tumbuh dalam industri perangkat keras AI. Sementara sebagian besar ledakan infrastruktur selama beberapa tahun terakhir berfokus pada pelatihan model AI yang semakin besar, industri ini sekarang dengan cepat berkembang ke inferensi — proses menjalankan model di aplikasi dunia nyata seperti chatbot, sistem AI agen, kopilot, pencarian, analitik keuangan, dan pendukung keputusan kesehatan. Beban kerja ini menempatkan tuntutan yang berbeda pada perangkat keras, terutama sekitar latensi, responsif, dan konsumsi daya.
Mengapa Inferensi AI Menjadi Medan Pertempuran Perangkat Keras Utama
Inferensi AI telah muncul sebagai salah satu segmen tercepat tumbuh di pasar infrastruktur AI karena sistem AI interaktif memerlukan respon dalam milidetik bukan detik. d-Matrix telah memposisikan Corsair khusus untuk beban kerja ini, menekankan latensi ultra-rendah dan inferensi hemat energi untuk model bahasa besar dan agen AI.
Menurut d-Matrix, Corsair dirancang di sekitar arsitektur komputasi memori digital yang dimaksudkan untuk mengurangi bottleneck memori yang sering memperlambat inferensi AI generatif. Perusahaan ini mengklaim bahwa platform ini dapat secara signifikan mengurangi latensi dan meningkatkan throughput dibandingkan dengan sistem inferensi berbasis GPU tradisional, terutama untuk aplikasi interaktif.
Kemitraan dengan Infineon membahas tantangan lain yang semakin kritis: pengiriman daya.
Karena server AI terus meningkat dalam kepadatan, pengiriman daya yang efisien ke akselerator telah menjadi faktor pembatas untuk penskalaan infrastruktur. Modul OptiMOS TDM2254xx dari Infineon dirancang untuk arsitektur pengiriman daya vertikal yang membantu mengurangi kerugian listrik sambil meningkatkan kepadatan daya di dalam sistem server kompak.
Pergeseran Menuju Sistem AI Waktu Nyata
Perusahaan tersebut membingkai kemitraan ini di sekitar munculnya “AI interaktif,” di mana sistem inferensi harus terus menghasilkan output dengan penundaan yang sangat rendah. Ini termasuk AI percakapan, agen AI, sistem penalaran waktu nyata, dan aplikasi yang memerlukan generasi token cepat dari model bahasa besar.
Pendiri dan CEO d-Matrix, Sid Sheth, mengatakan bahwa arsitektur di balik Corsair dibangun khusus untuk latensi token sub-2 milidetik, sebuah metrik yang telah menjadi semakin penting karena perusahaan memindahkan sistem AI dari eksperimen ke lingkungan yang menghadap pelanggan.
Industri AI yang lebih luas juga mulai mengakui bahwa infrastruktur inferensi mungkin berkembang secara berbeda dari infrastruktur pelatihan. Sementara klaster GPU mendominasi fase pertama ekspansi AI generatif, inferensi semakin menghargai arsitektur yang dioptimalkan sekitar bandwidth memori, latensi, jaringan, dan efisiensi energi daripada komputasi murni.
Efisiensi Daya Menjadi Pusat Penskalaan AI
Salah satu kendala terbesar yang dihadapi oleh hyperscaler dan penyedia cloud AI adalah permintaan listrik. Beban kerja inferensi AI dapat berjalan terus menerus di seluruh jutaan permintaan per hari, membuat efisiensi operasional sangat penting untuk biaya penerapan.
Infineon telah secara agresif memperluas posisinya dalam infrastruktur AI melalui teknologi semikonduktor berbasis silikon, silikon karbida (SiC), dan galium nitrida (GaN). Perusahaan ini telah semakin fokus pada memasok lapisan pengiriman daya di bawah akselerator AI dan infrastruktur server.
Kolaborasi dengan d-Matrix mencerminkan bagaimana perusahaan semikonduktor menjadi lebih terintegrasi dengan startup akselerator AI karena industri ini mencari alternatif untuk arsitektur GPU konvensional.
Infrastruktur AI Berkembang di Luar GPU Tradisional
Kemitraan ini juga tiba selama gelombang eksperimen yang lebih luas dalam perangkat keras AI. Sejumlah startup telah mengembangkan akselerator khusus yang berfokus pada inferensi, komputasi berbasis memori, atau jaringan AI.
d-Matrix telah membedakan dirinya melalui penekanan pada teknologi komputasi-dalam-memori dan sistem inferensi rendah-latensi yang dirancang untuk AI generatif. Perusahaan ini juga telah memperluas strategi infrastruktur di luar chip akselerator saja, baru-baru ini menekankan jaringan, infrastruktur komposabel, dan optimasi sistem penuh untuk klaster inferensi.
Karena aplikasi AI menjadi semakin interaktif dan agen, penyedia infrastruktur diharapkan untuk menempatkan penekanan yang lebih besar pada mengurangi latensi, mengurangi konsumsi energi, dan meningkatkan efisiensi sistem-level di seluruh tumpukan pusat data daripada hanya fokus pada kekuatan pemrosesan murni.












