Connect with us

Pemimpin pemikiran

Rahasia untuk AI yang Lebih Cepat Bukan Lebih Banyak GPU, Melainkan Jaringan yang Lebih Pintar

mm

AI mendefinisikan kembali apa yang mungkin dilakukan di berbagai industri termasuk kesehatan, keuangan, manufaktur, dan ritel. Namun, dengan potensi yang menjanjikan, juga membawa tuntutan infrastruktur yang besar.

Organisasi di seluruh dunia berinvestasi dalam GPU dengan skala yang belum pernah terjadi sebelumnya untuk mempercepat pelatihan AI dan inferensi. Pada tahun 2028, Gartner memproyeksikan pengeluaran IT AI generatif akan melampaui $1 triliun. Hyperion Research meramalkan pengeluaran pasar HPC secara keseluruhan akan melebihi $100 miliar pada waktu yang sama. Namun, meskipun berinvestasi dalam akselerator canggih, banyak CIO terus melihat GPU menganggur, dengan utilitas mengambang sekitar 35% atau lebih rendah. Ini tidak hanya menghasilkan kinerja yang buruk tetapi juga energi yang terbuang dan biaya yang membengkak.

Sementara banyak proyek AI macet, bukan karena mereka kekurangan GPU atau daya komputasi, tetapi karena jaringan tidak dapat mengimbangi, memerlukan pendekatan baru untuk merancang AI pada skala besar.

Biaya Tersembunyi dari Bottleneck Jaringan

Ketika jaringan tidak dapat memberikan data dengan cukup cepat untuk menjaga GPU tetap sibuk secara konsisten, organisasi mengalami beberapa dampak kritis:

  • GPU dan CPU yang tidak termanfaatkan karena transfer data yang terbottleneck: GPU dirancang untuk komputasi paralel besar, tetapi mereka hanya dapat memproses data secepat data tersebut disampaikan. Jika jaringan tidak dapat mengimbangi, GPU menganggur menunggu data daripada menghitung angka. CPU juga dapat menganggur karena mereka mengkoordinasikan tugas dan memindahkan data melalui pipa, menghasilkan utilitas yang rendah meskipun ketersediaan perangkat keras yang mahal.
  • Kinerja inferensi yang tidak konsisten dari jaringan yang tidak efisien: Ketidakefisienan jaringan menciptakan aliran data yang tidak rata, menyebabkan GPU berfluktuasi antara kecepatan penuh dan keadaan menganggur. Ini menghasilkan kinerja inferensi yang tidak dapat diprediksi yang dapat melumpuhkan aplikasi AI dalam produksi.
  • Siklus pelatihan yang lebih lama, memperlambat waktu-pasar: Pelatihan model AI memerlukan memindahkan dataset besar melintasi server, GPU, dan penyimpanan. Bottleneck jaringan menghambat proses ini, sehingga GPU menghabiskan lebih sedikit waktu untuk pelatihan dan lebih banyak waktu menunggu. Ini secara langsung memperlambat jadwal pengembangan dan penerapan produk.
  • Biaya daya dan operasional yang meningkat: Even ketika menganggur, GPU dan infrastruktur sekitarnya masih mengonsumsi daya yang signifikan. Jika GPU tidak termanfaatkan karena ketidakefisienan jaringan, organisasi membayar untuk penggunaan daya yang tinggi tanpa mendapatkan kinerja yang proporsional. Biaya operasional meningkat karena fasilitas harus mendukung beban puncak daya dan pendinginan, bahkan ketika throughput komputasi secara artifisial dibatasi.

Perusahaan dapat terus menuangkan uang ke dalam lebih banyak GPU, tetapi tanpa peningkatan jaringan yang tepat, mereka hanya akan memperburuk bottleneck dan ketidakefisienan ini.

Jaringan sebagai Akselerator: Perubahan Paradigma

Solusi ini memerlukan pemikiran ulang tentang arsitektur jaringan secara keseluruhan. Mengenalkan model yang memanfaatkan jaringan sebagai akselerator membalikkan pemikiran tradisional tentang kinerja HPC dan AI untuk membuka kemampuan baru.

Bukannya fokus primer pada menambahkan lebih banyak komputasi melalui GPU dan CPU, pendekatan “jaringan sebagai akselerator” memperlakukan jaringan sebagai pengganda kinerja. Sebagai hasilnya, jaringan dapat lebih baik mendukung komputasi dengan kepadatan tinggi dan mempercepat ROI dengan menghilangkan bottleneck, menskalakan untuk memenuhi tuntutan komputasi, dan menyesuaikan investasi perangkat keras. Dengan memungkinkan komputasi yang lebih besar tanpa perlambatan, organisasi dapat menjalankan beban kerja yang lebih besar dalam ruang yang lebih kecil, mendapatkan hasil lebih cepat, dan menghindari pemborosan pada perangkat keras tambahan.

Bagaimana Model ‘Jaringan sebagai Akselerator’ Bekerja

Jadi, bagaimana model ini bekerja sehingga organisasi dapat mengubah jaringan mereka dari menjadi pemindah data pasif menjadi pengaktif komputasi yang aktif dan mulai memanfaatkan manfaatnya? Ini menyampaikan empat kemampuan kunci yang tidak dimiliki jaringan tradisional:

  • Pengiriman yang dijamin pada tingkat perangkat keras: Jaringan tradisional membebani CPU dan GPU dengan overhead pelacakan paket, pengiriman ulang, dan pengurutan. Ini mengonsumsi siklus komputasi yang bisa digunakan untuk pelatihan atau inferensi. Dengan jaringan yang menjamin pengiriman pada tingkat perangkat keras, tugas-tugas ini dipindahkan dari node komputasi, menghasilkan overhead CPU dan GPU yang berkurang, kinerja yang konsisten dan dapat diprediksi, serta skalabilitas yang menyederhanakan pemrograman dan orkestrasi klaster.
  • Routing dinamis cerdas: Routing konvensional bergantung pada jalur tetap atau suboptimal, yang dapat meninggalkan bagian jaringan yang tidak termanfaatkan atau menciptakan bottleneck di mana volume data besar mengalir secara bersamaan. Routing cerdas dinamis memanfaatkan semua jalur yang tersedia untuk mengoptimalkan aliran lalu lintas. Ini memungkinkan throughput yang lebih tinggi dengan beberapa jalur aktif yang menyeimbangkan lalu lintas, latensi yang lebih rendah melalui pemilihan jalur optimal, dan ketahanan yang ditingkatkan karena lalu lintas jaringan secara otomatis mengalihkan sekitar kegagalan link atau node. Ini mengurangi waktu menganggur dan menjaga GPU tetap terisi dengan data.
  • Ulangi otomatis pada tingkat link: Ketika paket hilang atau rusak, jaringan standar bergantung pada lapisan komputasi untuk mendeteksi dan mengirim ulang, yang memperkenalkan latensi signifikan dan mengganggu aliran komputasi. Jaringan dengan kemampuan ulangi otomatis pada tingkat link menangani pengiriman ulang di dalam jaringan itu sendiri. Ini memungkinkan keandalan yang hampir transparan karena kehilangan paket menjadi tidak terlihat oleh node komputasi, mengurangi dampak latensi karena ulangi terjadi secara lokal pada link, bukan di seluruh tumpukan jaringan. Ini juga menghilangkan kebutuhan untuk penanganan kesalahan aplikasi yang kompleks. Kemampuan ulangi memastikan komputasi terdistribusi yang tidak terganggu dan efisien, yang penting ketika menskalakan ribuan GPU.
  • Komputasi dalam jaringan: Sementara jaringan tradisional terutama memindahkan data, komputasi dalam jaringan memungkinkan jaringan untuk menjadi koprosesor dengan melakukan operasi tertentu langsung di dalam jaringan. NVIDIA SHARP adalah contoh utama – ini memungkinkan pengurangan terjadi pada switch jaringan itu sendiri. Ini memungkinkan operasi terdistribusi yang dipercepat, mengurangi latensi karena data dikumpulkan saat melintasi jaringan, dan meningkatkan efisiensi karena node komputasi dibebaskan dari tugas agregasi, meninggalkan lebih banyak siklus untuk pelatihan dan simulasi.

Secara keseluruhan, kemampuan ini adalah apa yang membuat “komputasi yang dipimpin jaringan” menjadi fondasi untuk menskalakan lingkungan AI dan HPC generasi berikutnya. Pendekatan yang berorientasi pada jaringan menyampaikan pengembalian yang nyata yang mencakup utilitas GPU yang lebih tinggi yang menghilangkan kelaparan data, waktu-ke-wawasan yang lebih cepat yang mengurangi siklus pelatihan dan menstabilkan kinerja inferensi, efisiensi sumber daya yang ditingkatkan, dan biaya kepemilikan total yang lebih rendah.

Temukan Kekuatan Jaringan yang Sebenarnya

AI pada skala besar bukan hanya masalah komputasi – ini adalah tantangan rekayasa sistem, dengan jaringan di pusatnya. Mengobati jaringan sebagai akselerator mengubahnya menjadi pengganda kinerja untuk komputasi, memungkinkan pusat data HPC dan AI untuk menskalakan kepadatan tanpa mengorbankan kinerja. Ini menyampaikan ROI yang dapat diukur lebih cepat dengan mengekstrak nilai maksimum dari infrastruktur yang ada sebelum berinvestasi pada lebih banyak silikon.

Dengan menghilangkan bottleneck, meningkatkan utilitas, dan menyampaikan kinerja yang konsisten, jaringan yang lebih pintar memungkinkan tim AI yang lebih produktif, ROI yang lebih baik pada infrastruktur GPU, dan waktu-ke-wawasan, inovasi, dan kepemimpinan pasar yang lebih cepat. Ini memungkinkan organisasi untuk menemukan apa yang dapat dilakukan jaringan mereka dan memanfaatkan kekuatan AI dengan cara baru.

Nishant Lodha adalah direktur senior jaringan AI di Cornelis Networks. Sebelum bergabung dengan Cornelis, Nishant menjabat posisi direktur di Intel Corporation dan Marvell. Ia memiliki lebih dari 25 tahun pengalaman di bidang jaringan pusat data, penyimpanan, dan teknologi komputasi dalam berbagai peran yang meliputi pemasaran produk, solusi dan pemasaran teknis, serta insinyur jaringan. Ia berbasis di Silicon Valley.