Kecerdasan buatan

Meta’s Llama 3.2: Mendefinisikan Kembali Kecerdasan Buatan Generatif Open-Source dengan Kemampuan On-Device dan Multimodal

Published September 27, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Peluncuran terbaru Llama 3.2 oleh Meta, iterasi terbaru dalam seri Llama dari model bahasa besar, merupakan perkembangan signifikan dalam evolusi ekosistem kecerdasan buatan generatif open-source. Peningkatan ini memperluas kemampuan Llama dalam dua dimensi. Di satu sisi, Llama 3.2 memungkinkan pemrosesan data multimodal—mengintegrasikan gambar, teks, dan lebih—membuat kemampuan AI canggih lebih mudah diakses oleh audiens yang lebih luas. Di sisi lain, itu memperluas potensi penerapannya pada perangkat edge, menciptakan peluang menarik untuk aplikasi AI waktu nyata, on-device. Dalam artikel ini, kita akan menjelajahi perkembangan ini dan implikasinya untuk masa depan penerapan AI.

Evolusi Llama

Perjalanan Meta dengan Llama dimulai pada awal 2023, dan dalam waktu itu, seri ini telah mengalami pertumbuhan dan adopsi yang pesat. Dimulai dengan Llama 1, yang terbatas untuk penggunaan nonkomersial dan hanya dapat diakses oleh lembaga penelitian tertentu, seri ini beralih ke ranah open-source dengan peluncuran Llama 2 pada 2023. Peluncuran Llama 3.1 lebih awal tahun ini, merupakan langkah besar dalam evolusi, karena memperkenalkan model open-source terbesar dengan 405 miliar parameter, yang setara dengan atau melebihi kompetitor propietary. Peluncuran terbaru, Llama 3.2, membawa ini lebih jauh dengan memperkenalkan model ringan dan fokus visi baru, membuat AI on-device dan multimodal lebih mudah diakses. Komitmen Meta terhadap keterbukaan dan modifikasi telah memungkinkan Llama menjadi model terkemuka dalam komunitas open-source. Perusahaan percaya bahwa dengan tetap berkomitmen pada transparansi dan aksesibilitas, kita dapat lebih efektif mendorong inovasi AI—tidak hanya untuk pengembang dan bisnis, tetapi untuk semua orang di seluruh dunia.

Memperkenalkan Llama 3.2

Llama 3.2 adalah versi terbaru dari seri Llama Meta yang mencakup berbagai model bahasa yang dirancang untuk memenuhi kebutuhan yang beragam. Model terbesar dan ukuran sedang, termasuk 90 dan 11 miliar parameter, dirancang untuk menangani pemrosesan data multimodal termasuk teks dan gambar. Model-model ini dapat secara efektif menafsirkan grafik, diagram, dan bentuk data visual lainnya, membuatnya cocok untuk membangun aplikasi di bidang seperti visi komputer, analisis dokumen, dan alat realitas tambahan. Model ringan, dengan 1 miliar dan 3 miliar parameter, diadopsi khusus untuk perangkat mobile. Model-model teks-saja ini unggul dalam generasi teks multibahasa dan kemampuan tool-calling, membuatnya sangat efektif untuk tugas seperti generasi yang ditingkatkan, ringkasan, dan pembuatan aplikasi agen-berbasis pribadi pada perangkat edge.

Signifikansi Llama 3.2

Peluncuran Llama 3.2 ini dapat dikenali karena kemajuan dalam dua bidang kunci.

Era Baru AI Multimodal

Llama 3.2 adalah model open-source pertama Meta yang memiliki kemampuan pemrosesan teks dan gambar. Ini merupakan perkembangan signifikan dalam evolusi kecerdasan buatan generatif open-source karena memungkinkan model untuk menganalisis dan merespons input visual bersama dengan data teks. Misalnya, pengguna sekarang dapat mengunggah gambar dan menerima analisis rinci atau modifikasi berdasarkan prompt bahasa alami, seperti mengidentifikasi objek atau menghasilkan keterangan. Mark Zuckerberg menekankan kemampuan ini selama peluncuran, menyatakan bahwa Llama 3.2 dirancang untuk “memungkinkan banyak aplikasi menarik yang memerlukan pemahaman visual”. Integrasi ini memperluas cakupan Llama untuk industri yang bergantung pada informasi multimodal, termasuk ritel, kesehatan, pendidikan, dan hiburan.

Fungsi On-Device untuk Aksesibilitas

Salah satu fitur unggulan Llama 3.2 adalah optimasinya untuk penerapan on-device, terutama di lingkungan mobile. Versi model ringan dengan 1 miliar dan 3 miliar parameter, dirancang khusus untuk berjalan pada smartphone dan perangkat edge lainnya yang ditenagai oleh perangkat keras Qualcomm dan MediaTek. Utilitas ini memungkinkan pengembang untuk membuat aplikasi tanpa memerlukan sumber daya komputasi yang luas. Selain itu, versi model ini unggul dalam pemrosesan teks multibahasa dan mendukung panjang konteks 128K token, memungkinkan pengguna untuk mengembangkan aplikasi pemrosesan bahasa alami dalam bahasa asli mereka. Selain itu, model-model ini memiliki kemampuan tool-calling, memungkinkan pengguna untuk terlibat dalam aplikasi agen, seperti mengelola undangan kalender dan perencanaan perjalanan langsung pada perangkat mereka.

Kemampuan untuk mengirimkan model AI secara lokal memungkinkan kecerdasan buatan open-source untuk mengatasi tantangan yang terkait dengan komputasi awan, termasuk masalah keterlambatan, risiko keamanan, biaya operasional tinggi, dan ketergantungan pada koneksi internet. Kemajuan ini memiliki potensi untuk mengubah industri seperti kesehatan, pendidikan, dan logistik, memungkinkan mereka untuk menggunakan AI tanpa kendala infrastruktur awan atau kekhawatiran privasi, dan dalam situasi waktu nyata. Ini juga membuka pintu bagi AI untuk mencapai wilayah dengan koneksi terbatas, mendemokratisasikan akses ke teknologi canggih.

Keunggulan Kompetitif

Meta melaporkan bahwa Llama 3.2 telah berkinerja kompetitif melawan model terkemuka dari OpenAI dan Anthropic dalam hal kinerja. Mereka mengklaim bahwa Llama 3.2 mengungguli pesaing seperti Claude 3-Haiku dan GPT-4o-mini dalam berbagai benchmark, termasuk tugas mengikuti instruksi dan ringkasan konten. Keunggulan kompetitif ini sangat penting bagi Meta karena bertujuan untuk memastikan bahwa kecerdasan buatan open-source tetap sejajar dengan model propietary dalam bidang kecerdasan buatan generatif yang berkembang pesat.

Llama Stack: Mempermudah Penerapan AI

Salah satu aspek kunci dari peluncuran Llama 3.2 adalah pengenalan Llama Stack. Suite alat ini membuatnya lebih mudah bagi pengembang untuk bekerja dengan model Llama di berbagai lingkungan, termasuk single-node, on-premises, awan, dan on-device. Llama Stack termasuk dukungan untuk aplikasi RAG dan tooling-enabled, menyediakan kerangka kerja yang fleksibel dan komprehensif untuk mengirimkan model kecerdasan buatan generatif. Dengan mempermudah proses penerapan, Meta memungkinkan pengembang untuk dengan mudah mengintegrasikan model Llama ke dalam aplikasi mereka, baik untuk awan, mobile, atau lingkungan desktop.

Ringkasan

Llama 3.2 Meta merupakan momen penting dalam evolusi kecerdasan buatan generatif open-source, menetapkan standar baru untuk aksesibilitas, fungsionalitas, dan fleksibilitas. Dengan kemampuan on-device dan pemrosesan multimodal, model ini membuka kemungkinan transformasional di berbagai industri, dari kesehatan hingga pendidikan, sambil mengatasi masalah kritis seperti privasi, keterlambatan, dan keterbatasan infrastruktur. Dengan memberdayakan pengembang untuk mengirimkan AI canggih secara lokal dan efisien, Llama 3.2 tidak hanya memperluas cakupan aplikasi AI tetapi juga mendemokratisasikan akses ke teknologi canggih pada skala global.