Connect with us

Kemitraan

Infineon Technologies dan d-Matrix Bermitra dalam Infrastruktur AI Rendah Latensi

mm

Infineon Technologies telah mengumumkan kerja sama dengan d-Matrix yang berfokus pada meningkatkan kinerja dan efisiensi energi sistem inferensi AI yang digunakan di pusat data modern. Kemitraan ini berpusat pada platform akselerator inferensi AI Corsair dari d-Matrix dan modul daya OptiMOS dual-fase dari Infineon, yang dirancang untuk mendukung lingkungan komputasi berkepadatan tinggi untuk beban kerja AI interaktif.

Pengumuman ini menyoroti pergeseran yang tumbuh dalam industri perangkat keras AI. Sementara sebagian besar ledakan infrastruktur selama beberapa tahun terakhir berfokus pada pelatihan model AI yang semakin besar, industri ini sekarang dengan cepat berkembang ke inferensi — proses menjalankan model di aplikasi dunia nyata seperti chatbot, sistem AI agen, kopilot, pencarian, analitik keuangan, dan pendukung keputusan kesehatan. Beban kerja ini menempatkan tuntutan yang berbeda pada perangkat keras, terutama sekitar latensi, responsif, dan konsumsi daya.

Mengapa Inferensi AI Menjadi Medan Pertempuran Perangkat Keras Utama

Inferensi AI telah muncul sebagai salah satu segmen tercepat tumbuh di pasar infrastruktur AI karena sistem AI interaktif memerlukan respon dalam milidetik bukan detik. d-Matrix telah memposisikan Corsair khusus untuk beban kerja ini, menekankan latensi ultra-rendah dan inferensi hemat energi untuk model bahasa besar dan agen AI.

Menurut d-Matrix, Corsair dirancang di sekitar arsitektur komputasi memori digital yang dimaksudkan untuk mengurangi bottleneck memori yang sering memperlambat inferensi AI generatif. Perusahaan ini mengklaim bahwa platform ini dapat secara signifikan mengurangi latensi dan meningkatkan throughput dibandingkan dengan sistem inferensi berbasis GPU tradisional, terutama untuk aplikasi interaktif.

Kemitraan dengan Infineon membahas tantangan lain yang semakin kritis: pengiriman daya.

Karena server AI terus meningkat dalam kepadatan, pengiriman daya yang efisien ke akselerator telah menjadi faktor pembatas untuk penskalaan infrastruktur. Modul OptiMOS TDM2254xx dari Infineon dirancang untuk arsitektur pengiriman daya vertikal yang membantu mengurangi kerugian listrik sambil meningkatkan kepadatan daya di dalam sistem server kompak.

Pergeseran Menuju Sistem AI Waktu Nyata

Perusahaan tersebut membingkai kemitraan ini di sekitar munculnya “AI interaktif,” di mana sistem inferensi harus terus menghasilkan output dengan penundaan yang sangat rendah. Ini termasuk AI percakapan, agen AI, sistem penalaran waktu nyata, dan aplikasi yang memerlukan generasi token cepat dari model bahasa besar.

Pendiri dan CEO d-Matrix, Sid Sheth, mengatakan bahwa arsitektur di balik Corsair dibangun khusus untuk latensi token sub-2 milidetik, sebuah metrik yang telah menjadi semakin penting karena perusahaan memindahkan sistem AI dari eksperimen ke lingkungan yang menghadap pelanggan.

Industri AI yang lebih luas juga mulai mengakui bahwa infrastruktur inferensi mungkin berkembang secara berbeda dari infrastruktur pelatihan. Sementara klaster GPU mendominasi fase pertama ekspansi AI generatif, inferensi semakin menghargai arsitektur yang dioptimalkan sekitar bandwidth memori, latensi, jaringan, dan efisiensi energi daripada komputasi murni.

Efisiensi Daya Menjadi Pusat Penskalaan AI

Salah satu kendala terbesar yang dihadapi oleh hyperscaler dan penyedia cloud AI adalah permintaan listrik. Beban kerja inferensi AI dapat berjalan terus menerus di seluruh jutaan permintaan per hari, membuat efisiensi operasional sangat penting untuk biaya penerapan.

Infineon telah secara agresif memperluas posisinya dalam infrastruktur AI melalui teknologi semikonduktor berbasis silikon, silikon karbida (SiC), dan galium nitrida (GaN). Perusahaan ini telah semakin fokus pada memasok lapisan pengiriman daya di bawah akselerator AI dan infrastruktur server.

Kolaborasi dengan d-Matrix mencerminkan bagaimana perusahaan semikonduktor menjadi lebih terintegrasi dengan startup akselerator AI karena industri ini mencari alternatif untuk arsitektur GPU konvensional.

Infrastruktur AI Berkembang di Luar GPU Tradisional

Kemitraan ini juga tiba selama gelombang eksperimen yang lebih luas dalam perangkat keras AI. Sejumlah startup telah mengembangkan akselerator khusus yang berfokus pada inferensi, komputasi berbasis memori, atau jaringan AI.

d-Matrix telah membedakan dirinya melalui penekanan pada teknologi komputasi-dalam-memori dan sistem inferensi rendah-latensi yang dirancang untuk AI generatif. Perusahaan ini juga telah memperluas strategi infrastruktur di luar chip akselerator saja, baru-baru ini menekankan jaringan, infrastruktur komposabel, dan optimasi sistem penuh untuk klaster inferensi.

Karena aplikasi AI menjadi semakin interaktif dan agen, penyedia infrastruktur diharapkan untuk menempatkan penekanan yang lebih besar pada mengurangi latensi, mengurangi konsumsi energi, dan meningkatkan efisiensi sistem-level di seluruh tumpukan pusat data daripada hanya fokus pada kekuatan pemrosesan murni.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.