potongan Masa Depan AI Generatif Adalah Keunggulannya - Unite.AI
Terhubung dengan kami

Pemimpin Pikiran

Masa Depan AI Generatif Adalah Keunggulannya

mm

Diterbitkan

 on

Munculnya ChatGPT, dan AI generatif secara umum, ini merupakan momen penting dalam sejarah teknologi dan disamakan dengan awal mula Internet dan ponsel pintar. AI Generatif telah menunjukkan potensi tak terbatas dalam kemampuannya melakukan percakapan cerdas, lulus ujian, menghasilkan program/kode yang kompleks, dan membuat gambar dan video yang menarik. Meskipun GPU menjalankan sebagian besar model Gen AI di cloud – baik untuk pelatihan maupun inferensi – ini bukanlah solusi skalabel jangka panjang, terutama untuk inferensi, karena faktor-faktor yang mencakup biaya, daya, latensi, privasi, dan keamanan. Artikel ini membahas masing-masing faktor ini beserta contoh-contoh motivasi untuk memindahkan beban kerja komputasi Gen AI ke tingkat yang lebih tinggi.

Sebagian besar aplikasi berjalan pada prosesor berkinerja tinggi – baik di perangkat (misalnya ponsel cerdas, desktop, laptop) atau di pusat data. Seiring dengan meningkatnya pangsa aplikasi yang memanfaatkan AI, prosesor yang hanya memiliki CPU saja tidaklah memadai. Selain itu, perluasan beban kerja AI Generatif yang pesat mendorong permintaan eksponensial terhadap server berkemampuan AI dengan GPU yang mahal dan boros daya, yang pada gilirannya meningkatkan biaya infrastruktur. Server berkemampuan AI ini dapat berharga hingga 7X lipat dari harga server reguler dan GPU menyumbang 80% dari biaya tambahan ini.

Selain itu, server berbasis cloud mengonsumsi 500W hingga 2000W, sedangkan server berkemampuan AI mengonsumsi antara 2000W dan 8000W – 4x lebih banyak! Untuk mendukung server-server ini, pusat data memerlukan modul pendingin tambahan dan peningkatan infrastruktur – yang mungkin bahkan lebih besar daripada investasi komputasi. Pusat data sudah mengonsumsi 300 TWH per tahun, hampir 1% dari total konsumsi listrik di seluruh dunia Jika tren adopsi AI terus berlanjut, maka sebanyak 5% listrik di seluruh dunia dapat digunakan oleh pusat data pada tahun 2030. Selain itu, terdapat investasi yang belum pernah terjadi sebelumnya pada pusat data AI Generatif. Diperkirakan pusat data akan mengkonsumsi hingga $500 miliar untuk belanja modal pada tahun 2027, terutama didorong oleh kebutuhan infrastruktur AI.

Konsumsi listrik di pusat data, yang sudah mencapai 300 TwH, akan meningkat secara signifikan dengan penerapan AI generatif.

Biaya komputasi AI serta konsumsi energi akan menghambat adopsi AI Generatif secara massal. Tantangan penskalaan dapat diatasi dengan memindahkan komputasi AI ke edge dan menggunakan solusi pemrosesan yang dioptimalkan untuk beban kerja AI. Dengan pendekatan ini, manfaat lain juga diperoleh pelanggan, termasuk latensi, privasi, keandalan, serta peningkatan kemampuan.

Komputasi mengikuti data ke Edge

Sejak satu dekade lalu, ketika AI muncul dari dunia akademis, pelatihan dan inferensi model AI telah dilakukan di cloud/pusat data. Dengan banyaknya data yang dihasilkan dan dikonsumsi di edge – terutama video – maka masuk akal untuk memindahkan inferensi data ke edge sehingga meningkatkan total biaya kepemilikan (TCO) bagi perusahaan karena berkurangnya biaya jaringan dan komputasi. Meskipun biaya inferensi AI di cloud bersifat berulang, biaya inferensi di edge merupakan biaya perangkat keras yang hanya terjadi satu kali saja. Pada dasarnya, melengkapi sistem dengan prosesor Edge AI akan menurunkan biaya operasional secara keseluruhan. Seperti migrasi beban kerja AI konvensional ke Edge (misalnya peralatan, perangkat), beban kerja AI Generatif juga akan mengikuti hal yang sama. Hal ini akan memberikan penghematan yang signifikan bagi perusahaan dan konsumen.

Peralihan ke edge ditambah dengan akselerator AI yang efisien untuk menjalankan fungsi inferensi juga memberikan manfaat lain. Yang paling utama di antaranya adalah latensi. Misalnya, dalam aplikasi game, karakter non-pemain (NPC) dapat dikontrol dan ditambah menggunakan AI generatif. Dengan menggunakan model LLM yang dijalankan pada akselerator AI edge di konsol game atau PC, gamer dapat memberikan tujuan spesifik kepada karakter tersebut, sehingga mereka dapat berpartisipasi secara bermakna dalam cerita. Latensi rendah dari inferensi tepi lokal akan memungkinkan ucapan dan gerakan NPC merespons perintah dan tindakan pemain secara real-time. Hal ini akan memberikan pengalaman bermain game yang sangat mendalam dengan cara yang hemat biaya dan hemat daya.

Dalam aplikasi seperti layanan kesehatan, privasi dan keandalan sangatlah penting (misalnya, evaluasi pasien, rekomendasi obat). Data dan model Gen AI yang terkait harus berada di lokasi untuk melindungi data pasien (privasi) dan gangguan jaringan apa pun yang akan memblokir akses ke model AI di cloud dapat menjadi bencana besar. Peralatan Edge AI yang menjalankan model Gen AI yang dibuat khusus untuk setiap pelanggan perusahaan – dalam hal ini penyedia layanan kesehatan – dapat dengan mudah menyelesaikan masalah privasi dan keandalan sekaligus memberikan latensi dan biaya yang lebih rendah.

AI generatif pada perangkat edge akan memastikan latensi rendah dalam game dan menjaga data pasien serta meningkatkan keandalan layanan kesehatan.

Banyak model Gen AI yang berjalan di cloud memiliki hampir satu triliun parameter – model ini dapat secara efektif menjawab pertanyaan tujuan umum. Namun, aplikasi spesifik perusahaan memerlukan model untuk memberikan hasil yang relevan dengan kasus penggunaan. Ambil contoh asisten berbasis Gen AI yang dibuat untuk menerima pesanan di restoran cepat saji – agar sistem ini memiliki interaksi pelanggan yang lancar, model Gen AI yang mendasarinya harus dilatih tentang item menu restoran, juga mengetahui alergen dan bahan-bahannya. . Ukuran model dapat dioptimalkan dengan menggunakan superset Large Language Model (LLM) untuk melatih parameter LLM yang relatif kecil, 10-30 miliar, lalu menggunakan penyesuaian tambahan dengan data spesifik pelanggan. Model seperti ini dapat memberikan hasil dengan peningkatan akurasi dan kemampuan. Dan mengingat ukuran model yang lebih kecil, model ini dapat diterapkan secara efektif pada akselerator AI di Edge.

Generasi AI akan menang di Edge

Gen AI yang berjalan di cloud akan selalu dibutuhkan, terutama untuk aplikasi tujuan umum seperti ChatGPT dan Claude. Namun jika menyangkut aplikasi khusus perusahaan, seperti pengisian generatif Adobe Photoshop atau kopilot Github, AI Generatif di Edge bukan hanya masa depan, namun juga masa kini. Akselerator AI yang dibuat khusus adalah kunci untuk mewujudkan hal ini.

Sebagai veteran Silicon Valley, dan CEO Kinara Inc, Ravi Annavajjhala membawa lebih dari 20 tahun pengalaman yang mencakup pengembangan bisnis, pemasaran, dan teknik, membangun produk teknologi terdepan dan
membawanya ke pasar. Dalam perannya saat ini sebagai CEO Deep Vision, Ravi terus menjabat
dewan direksinya dan telah mengumpulkan $50 juta untuk mengubah prosesor Ara-1 milik perusahaan dari pra-silikon menjadi
produksi skala penuh dan untuk meningkatkan volume prosesor generasi ke-2, Ara-2. Sebelum bergabung
Deep Vision, Ravi memegang posisi kepemimpinan eksekutif di Intel dan SanDisk di mana dia memainkan peran kunci
dalam mendorong pertumbuhan pendapatan, mengembangkan kemitraan strategis, dan mengembangkan peta jalan produk
memimpin industri dengan fitur dan kemampuan mutakhir.