Connect with us

AI 101

Unit Pengolahan Neural (NPUs): Penggerak di Balik AI dan Komputasi Berikutnya

mm

Sama seperti GPU yang pernah mengungguli CPUs untuk beban kerja AI, Unit Pengolahan Neural (NPUs) siap untuk menantang GPU dengan memberikan kinerja yang lebih cepat dan lebih efisien—terutama untuk generative AI, di mana pemrosesan waktu nyata besar harus terjadi dengan kecepatan kilat dan dengan biaya yang lebih rendah.

Pertanyaannya adalah bagaimana NPUs bekerja, dan mengapa mereka mengungguli pendahulu GPU mereka untuk tugas AI modern, dan apa yang membuat mereka sangat penting untuk segala sesuatu dari infrastruktur pusat data yang kuat hingga perangkat konsumen sehari-hari? Apakah Anda merencanakan penerapan AI besar berikutnya atau hanya penasaran tentang teknologi terbaru, penting untuk memahami mengapa NPUs bisa menjadi terobosan yang mendefinisikan kembali AI—dan generasi komputasi berikutnya.

Apa itu Unit Pengolahan Neural (NPU)?

Unit Pengolahan Neural (NPU) adalah mikroprosesor khusus yang dibangun dari awal untuk menangani persyaratan unik dari beban kerja AI dan pembelajaran mesin modern. Sementara Unit Pemrosesan Pusat (CPUs) dan Unit Pengolahan Grafis (GPUs) secara historis memuat tugas komputasi tradisional dan rendering grafis, mereka tidak dirancang untuk menangani intensitas komputasi dari jaringan neural yang dalam. NPUs mengisi kesenjangan ini dengan fokus khusus pada operasi paralel, tinggi-turun seperti perkalian matriks dan matematika tensor—landasan dari model AI.

Aspek kunci yang membedakan NPUs dari CPU dan GPU umum termasuk:

  • Aritmatika AI yang Dioptimalkan: NPUs umumnya menggunakan tipe data presisi rendah (misalnya, matematika integer 8-bit, atau bahkan lebih rendah) untuk menyeimbangkan daya pengolahan dan efisiensi energi, sementara CPU dan GPU biasanya mengandalkan perhitungan titik mengambang presisi tinggi.
  • Arsitektur Paralel: NPUs dapat memecah tugas AI menjadi ribuan (atau bahkan jutaan) komputasi kecil yang berjalan secara paralel, meningkatkan throughput secara dramatis.
  • Efisiensi Energi: Dengan menghilangkan instruksi yang tidak perlu dan mengoptimalkan khusus untuk tugas jaringan neural, NPUs dapat mencapai kinerja yang lebih tinggi dengan daya yang lebih rendah dibandingkan dengan GPU atau CPU yang melakukan beban kerja AI yang sama.

Juga dikenal sebagai penguat AI, NPUs sering muncul sebagai perangkat keras diskrit yang dilampirkan ke papan induk server, atau sebagai bagian dari sistem pada chip (SoC) di smartphone, laptop, atau perangkat edge.

Mengapa NPUs Penting untuk Generative AI

Pertumbuhan ledakan generative AI—yang mencakup model bahasa besar (LLM) seperti ChatGPT, alat generasi gambar seperti DALL·E, dan model sintesis video—membutuhkan platform komputasi yang dapat menangani sejumlah besar data, memprosesnya secara waktu nyata, dan belajar dari itu dengan efisien. Prosesor tradisional dapat bergelut dengan persyaratan ini, menyebabkan konsumsi energi tinggi, peningkatan latensi, dan bottleneck throughput.

Kelebihan NPU untuk Generative AI

  1. Pemrosesan Waktu Nyata: Model AI generatif seperti transformer, model difusi, dan jaringan adversarial generatif (GAN) melibatkan operasi matriks dan tensor yang luas. NPUs unggul dalam mengalikan matriks dan menambahkan vektor secara paralel, membantu model generatif mencapai kinerja latensi rendah.
  2. Skalabilitas: NPUs dirancang khusus untuk penskalaan paralel, membuatnya cocok untuk arsitektur skala besar yang digunakan dalam AI generatif. Menambahkan lebih banyak inti NPU atau NPUs ke klaster pusat data dapat meningkatkan kinerja AI secara linier tanpa meningkatkan biaya energi secara drastis.
  3. Efisiensi Energi: Seiring dengan meningkatnya kompleksitas model generatif, sehingga pula konsumsi daya mereka. NPUs membantu menjaga jejak energi tetap terkendali dengan fokus pada jenis matematika yang tepat yang diperlukan AI generatif, menghilangkan overhead dari komputasi lain.

Fitur Utama NPUs

  1. Pemrosesan Paralel: Dengan membagi tugas komputasi menjadi banyak tugas kecil, NPUs dapat menangani operasi matriks yang luas jauh lebih cepat daripada CPU, yang biasanya menjalankan instruksi dengan cara yang lebih linier atau serial. Parallelisme ini sangat penting untuk tugas pembelajaran dalam, di mana pelatihan dan inferensi melibatkan batch data besar.
  2. Aritmatika Presisi Rendah: Sebagian besar komputasi jaringan neural tidak memerlukan presisi perhitungan titik mengambang 32-bit atau 64-bit. Tipe data presisi rendah, seperti integer 8-bit, secara signifikan mengurangi jumlah bit yang diproses per operasi, memungkinkan eksekusi yang lebih cepat dan lebih efisien energi sambil tetap mempertahankan akurasi model.
  3. Memori On-Chip Berkecepatan Tinggi: Kemampuan untuk menyimpan potongan data pelatihan atau inferensi besar dekat dengan prosesor sangat penting untuk tugas AI. Banyak NPUs memiliki memori berkecepatan tinggi (HBM) on-chip atau sistem memori canggih yang dirancang khusus untuk jaringan neural, mengurangi kebutuhan untuk berkomunikasi secara konstan dengan memori eksternal.
  4. Teknik Akselerasi Perangkat Keras: Arsitektur NPU modern sering mengintegrasikan unit perangkat keras khusus seperti systolic arrays atau inti tensor, memungkinkan mereka untuk melakukan perkalian matriks dan operasi AI-sentris lainnya dengan kecepatan yang sangat tinggi dan overhead minimal.

Bagaimana NPUs Bekerja: Mensimulasikan Otak

NPUs mengambil inspirasi dari jaringan neural otak manusia. Sama seperti miliaran neuron dan sinapsis memproses informasi secara paralel, sebuah NPU terdiri dari banyak elemen pengolahan yang dapat menangani dataset besar secara bersamaan. Desain ini sangat efektif untuk tugas seperti:

  • Pengenalan dan Pemrosesan Gambar
  • Pemrosesan Bahasa Alami (NLP) dan Pengenalan Suara
  • Pendeteksian Objek dan Navigasi Otonom
  • AI Generatif (misalnya, generasi gambar dan teks)

Bobot Sinaptik dan Pembelajaran

Sebuah konsep penting dalam komputasi jaringan neural adalah bobot, yang mewakili “kekuatan” atau “pentingnya” dari setiap koneksi neuron dalam jaringan. NPUs mengintegrasikan bobot ini langsung ke perangkat keras, memungkinkan pembaruan yang lebih cepat dan lebih efisien energi saat model belajar.

Inti Berkapasitas Tinggi yang Disederhanakan

Sementara CPU secara tradisional menangani berbagai operasi (mulai dari browsing web hingga perhitungan spreadsheet), NPUs merancang ulang desain untuk fokus pada beberapa operasi inti—seperti perkalian matriks, fungsi aktivasi, dan konvolusi—dieksekusi berulang kali secara paralel.

NPUs vs. GPUs vs. CPUs

Setiap jenis prosesor memainkan peran unik dalam komputasi modern, meskipun ada beberapa tumpang tindih ketika menangani tugas AI. Berikut adalah ringkasan singkat:

Fitur CPU GPU NPU
Penggunaan Utama Tugas umum, logika, dan kontrol Rendering grafis, pemrosesan paralel untuk tugas HPC Pemrosesan paralel khusus untuk AI, ML, dan pembelajaran dalam
Jumlah Inti Sedikit (sering 2–16 di chip konsumen) Ratusan hingga ribuan inti kecil Array paralel inti khusus
Presisi Presisi tinggi (32-bit atau 64-bit) Campuran presisi tinggi dan rendah (FP32, FP16, dll.) Fokus pada presisi rendah (8-bit atau lebih rendah)
Efisiensi Energi (AI) Moderat ketika diskalakan untuk AI besar Baik, tetapi dapat boros daya pada skala besar Sangat dioptimalkan, daya rendah per operasi
Jejak Fisik Terintegrasi ke papan utama atau SoC Sering kartu diskrit (GPU diskrit) atau SoC-basis Dapat diskrit atau terintegrasi ke SoC (smartphone, dll.)

Intinya: Sementara CPU tetap penting untuk kontrol sistem dan alur kerja tradisional, dan GPU menawarkan kekuatan pemrosesan paralel (terutama untuk tugas grafis berat), NPUs dirancang khusus untuk akselerasi AI dan sering beroperasi pada performa per-watt yang lebih tinggi untuk beban kerja pembelajaran mesin.

Aplikasi NPU Dunia Nyata

Pusat Data dan AI Cloud

Pusat data besar menampung NPUs diskrit yang dapat dilampirkan langsung ke papan induk server. Ini mempercepat segala sesuatu dari mesin rekomendasi (seperti yang memuat Netflix dan Amazon) hingga AI generatif seperti generasi teks dan gambar waktu nyata.

Smartphone dan Elektronik Konsumen

Banyak smartphone, laptop, dan tablet premium saat ini mengintegrasikan NPU atau mesin AI langsung ke SoC. Mesin Neural Apple, Hexagon NPU Qualcomm, dan Mesin Pengolahan Neural Samsung adalah contoh solusi terintegrasi. Pendekatan ini memungkinkan:

  • Pemrosesan gambar dan video waktu nyata (misalnya, blur latar belakang pada panggilan video)
  • Asisten suara on-device (dengan pengenalan suara)
  • Fitur kamera pintar seperti deteksi adegan, pengenalan wajah, dan stabilisasi gambar canggih

Perangkat Edge dan IoT

NPUs telah menjadi penting dalam komputasi edge, di mana perangkat perlu memproses data secara lokal daripada mengirimkannya ke cloud. Ini sangat berharga untuk aplikasi yang memerlukan latensi rendah, privasi data, atau umpan balik waktu nyata—pikirkan perangkat rumah pintar, sensor industri 4.0, drone, kendaraan otonom, dan banyak lagi.

Robotika

Dari robot gudang otomatis hingga asisten bedah robot, NPUs dapat membuat keputusan dalam waktu nyata berdasarkan input sensor. Kemampuan mereka untuk menangani umpan video (deteksi objek dan pengenalan pola) dan data sensor lainnya dengan cepat adalah transformasional untuk generasi robot otonom dan semi-otonom berikutnya.

NPUs untuk Komputasi Edge dan AI On-Device

Mengapa Komputasi Edge Penting

Ketika AI menyebar ke perangkat yang dapat dikenakan, sensor jarak jauh, dan perangkat Internet of Things (IoT) lainnya, kemampuan untuk memproses data dekat sumber (bukan cloud) dapat lebih kritis daripada sebelumnya. AI edge mengurangi biaya transfer data, memitigasi masalah latensi, dan menjaga informasi sensitif di perangkat—memperbaiki keamanan dan privasi.

Peran NPUs dalam AI Edge

  1. Konsumsi Daya Rendah: Sering beroperasi dengan baterai atau terbatas energi, perangkat edge memerlukan prosesor AI yang dapat berfungsi tanpa menghabiskan sumber daya. NPUs, yang dioptimalkan untuk operasi matriks yang efisien, adalah pilihan yang tepat.
  2. Wawasan Waktu Nyata: Apakah mendeteksi anomali di pabrik atau mengalihkan drone di tengah penerbangan, keputusan inferensi waktu nyata dapat membuat atau menghancurkan viabilitas aplikasi. NPUs menawarkan kemampuan ini dengan overhead minimal.
  3. Aplikasi Smartphone: Dengan munculnya AI generatif on-device, NPUs di smartphone sudah memungkinkan fitur kamera canggih, terjemahan bahasa waktu nyata, dan asisten suara yang sadar konteks.

Masa Depan NPUs dan AI

Ketika AI generatif terus meningkatkan kemampuan secara eksponensial, sehingga pula permintaan akan komputasi kinerja tinggi dan ultra-efisien. Sudah, produsen perangkat keras seperti Intel, AMD, Nvidia, Apple, Qualcomm, dan Samsung berlomba untuk mengintegrasikan atau memperbarui arsitektur NPU mereka. Demikian pula, pusat data beralih ke model komputasi heterogen—di mana CPU, GPU, dan NPUs co-eksist—untuk menangani beban kerja yang semakin spesialisasi pada skala besar.

NPUs untuk AI Generatif Berikutnya

  • Latensi yang Lebih Rendah: NPU masa depan bisa mencapai inferensi waktu nyata yang hampir instan, membuat asisten pribadi virtual dan generasi konten waktu nyata menjadi bagian tak terpisahkan dari kehidupan sehari-hari.
  • Penyesuaian Model On-the-Fly: Ketika model menjadi lebih dinamis—menyesuaikan arsitektur dan bobot secara online—NPUs akan berkembang untuk menangani skenario pembelajaran terus-menerus.
  • Melampaui Visi dan Bahasa: AI generatif akan segera memperluas ke output multisensory kompleks, termasuk umpan balik haptik waktu nyata, generasi objek 3D, atau bahkan pengalaman audio-visual imersif.

Kolaborasi Multi-Prosesor

Komputasi heterogen melibatkan memanfaatkan prosesor yang tepat untuk pekerjaan yang tepat. CPU menangani tugas umum dan orkestrasi, GPU menangani operasi paralel besar (seperti grafis atau komputasi matriks besar), dan NPU memungkinkan tugas AI khusus—terutama inferensi jaringan neural skala besar.

Dalam skenario masa depan ini, aplikasi menjadi lebih fleksibel dan kuat:

  • Seni generatif dapat berjalan secara lokal, dengan NPU Anda menangani tugas transfer gaya atau penskalaan waktu nyata.
  • Perangkat lunak perusahaan yang memerlukan pemrosesan bahasa alami berbasis AI dapat mendelegasikan koreksi tata bahasa dan pemahaman konteks ke NPUs sementara CPU berkoordinasi dengan GPU untuk visualisasi data.
  • Simulasi kompleks dalam penelitian ilmiah dapat dibagi di antara CPU, GPU, dan NPUs untuk menangani miliaran poin data dengan efisien.

Inovasi Perangkat Keras dan Perangkat Lunak yang Cepat

Karena kebutuhan akan penskalaan AI yang cepat, inovasi perangkat keras dan perangkat lunak dipercepat:

  • Set Instruksi Khusus: Banyak NPUs dikembangkan dengan set instruksi khusus yang sejalan dengan algoritma AI yang berkembang.
  • Kerangka AI Terpadu: Kerangka AI (misalnya, TensorFlow, PyTorch, ONNX) terus mengoptimalkan untuk backend NPU, mempermudah alur kerja pengembang.
  • Konvergensi Edge dan Cloud

    : Beban kerja AI yang sama yang pernah dibatasi untuk cloud sekarang dapat disebar di seluruh cloud GPU dan NPUs, atau langsung di perangkat edge.

Kesimpulan

Unit Pengolahan Neural (NPUs) membawa era baru perangkat keras AI yang dirancang khusus, langsung menangani tantangan yang ditimbulkan oleh pembelajaran dalam, AI generatif, dan pemrosesan data skala besar. Dengan fokus pada beban kerja paralel dan presisi rendah, NPUs memberikan kinerja, efisiensi energi, dan skalabilitas yang belum pernah terjadi sebelumnya—manfaat yang sangat penting tidak hanya untuk AI cloud canggih tetapi juga untuk perangkat konsumen sehari-hari dan aplikasi edge yang muncul.

Pentingnya mereka di masa depan AI tidak dapat dilebihkan. Ketika permintaan akan AI generatif on-device meningkat dan komputasi heterogen menjadi standar, NPUs kemungkinan akan menjadi sama penting untuk sistem AI-penggerak seperti CPU telah menjadi untuk komputasi tradisional. Apakah memungkinkan terjemahan bahasa waktu nyata di smartphone Anda atau mengatur model bahasa besar di pusat data, NPU siap untuk mengubah cara mesin belajar dan berinteraksi dengan dunia—menawarkan sekilas tentang masa depan komputasi yang lebih pintar, lebih personal, dan lebih efisien energi.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.