Terhubung dengan kami

Kecerdasan Buatan

Model Aksi Besar (LAM): Garis Depan Berikutnya dalam Interaksi yang Didukung AI

mm

Hampir setahun yang lalu, Mustafa Suleyman, salah satu pendiri DeepMind, diprediksi bahwa era AI generatif akan segera digantikan oleh sesuatu yang lebih interaktif: sistem yang mampu menjalankan tugas dengan berinteraksi dengan aplikasi perangkat lunak dan sumber daya manusia. Saat ini, kita mulai melihat visi ini terbentuk seiring perkembangan Kelinci AIsistem operasi baru yang didukung AI, R1. Sistem ini telah menunjukkan kemampuan mengesankan untuk memantau dan meniru interaksi manusia dengan aplikasi. Di jantung R1 terletak Model Aksi Besar (LAM), asisten AI tingkat lanjut yang mahir dalam memahami niat pengguna dan melaksanakan tugas atas nama mereka. Padahal sebelumnya dikenal dengan istilah lain seperti AI Interaktif dan Model Agen Besar, konsep LAM mendapatkan momentum sebagai inovasi penting dalam interaksi yang didukung AI. Artikel ini membahas detail LAM, perbedaannya dengan l tradisionalmodel bahasa besar (LLM), memperkenalkan sistem R1 Rabbit AI, dan membahas bagaimana Apple bergerak menuju pendekatan serupa LAM. Artikel ini juga membahas potensi penggunaan LAM dan tantangan yang dihadapinya.

Memahami Model Aksi Besar atau Agentik (LAM)

LAM adalah agen AI canggih yang dirancang untuk memahami niat manusia dan melaksanakan tujuan tertentu. Model-model ini unggul dalam memahami kebutuhan manusia, merencanakan tugas-tugas kompleks, dan berinteraksi dengan berbagai model, aplikasi, atau orang untuk melaksanakan rencana mereka. LAM lebih dari sekadar tugas AI sederhana seperti menghasilkan respons atau gambar; mereka adalah sistem lengkap yang dirancang untuk menangani aktivitas kompleks seperti merencanakan perjalanan, menjadwalkan janji temu, dan mengelola email. Misalnya, dalam perencanaan perjalanan, LAM akan berkoordinasi dengan aplikasi cuaca untuk prakiraan cuaca, berinteraksi dengan layanan pemesanan penerbangan untuk menemukan penerbangan yang sesuai, dan terlibat dengan sistem pemesanan hotel untuk mengamankan akomodasi. Tidak seperti banyak model AI tradisional yang hanya bergantung pada jaringan saraf, LAM menggunakan kombinasi pendekatan hibrid pemrograman neuro-simbolis. Integrasi ini pemrograman simbolis membantu dalam penalaran dan perencanaan logis, sementara jaringan saraf berkontribusi untuk mengenali pola sensorik yang kompleks. Perpaduan ini memungkinkan LAM untuk mengatasi spektrum tugas yang luas, menandainya sebagai pengembangan yang berbeda dalam interaksi yang didukung AI.

Membandingkan LAM dengan LLM

Berbeda dengan LAM, LLM adalah agen AI yang unggul dalam menafsirkan perintah pengguna dan menghasilkan respons berbasis teks, terutama membantu tugas-tugas yang melibatkan pemrosesan bahasa. Namun, cakupannya umumnya terbatas pada aktivitas yang berhubungan dengan teks. Di sisi lain, LAM memperluas kemampuan AI lebih dari sekedar bahasa, memungkinkan mereka melakukan tindakan kompleks untuk mencapai tujuan tertentu. Misalnya, meskipun LLM mungkin secara efektif membuat draf email berdasarkan instruksi pengguna, LAM melangkah lebih jauh dengan tidak hanya membuat draf tetapi juga memahami konteksnya, memutuskan respons yang tepat, dan mengelola pengiriman email.

Selain itu, LLM biasanya dirancang untuk memprediksi token berikutnya dalam rangkaian teks dan untuk menjalankan instruksi tertulis. Sebaliknya, LAM tidak hanya dilengkapi dengan pemahaman bahasa tetapi juga kemampuan untuk berinteraksi dengan berbagai aplikasi dan sistem dunia nyata seperti perangkat IoT. Mereka dapat melakukan tindakan fisik, mengontrol perangkat, dan mengelola tugas yang memerlukan interaksi dengan lingkungan eksternal, seperti membuat janji temu atau membuat reservasi. Integrasi keterampilan bahasa dengan pelaksanaan praktis memungkinkan LAM beroperasi di skenario yang lebih beragam daripada LLM.

LAM Beraksi: Kelinci R1

The Kelinci R1 berdiri sebagai contoh utama LAM dalam penggunaan praktis. Perangkat bertenaga AI ini dapat mengelola banyak aplikasi melalui satu antarmuka yang ramah pengguna. Dilengkapi dengan layar sentuh 2.88 inci, kamera berputar, dan roda gulir, R1 ditempatkan dalam sasis bulat ramping yang dibuat bekerja sama dengan Teenage Engineering. Ini beroperasi pada prosesor MediaTek 2.3GHz, didukung oleh memori 4GB dan penyimpanan 128GB.

Inti dari R1 terletak pada LAM-nya, yang secara cerdas mengawasi fungsionalitas aplikasi, dan menyederhanakan tugas-tugas kompleks seperti mengontrol musik, memesan transportasi, memesan bahan makanan, dan mengirim pesan, semuanya dari satu titik interaksi. Dengan cara ini R1 menghilangkan kerumitan berpindah antara beberapa aplikasi atau beberapa login untuk melakukan tugas-tugas ini.

LAM dalam R1 awalnya dilatih dengan mengamati interaksi manusia dengan aplikasi populer seperti Spotify dan Uber. Pelatihan ini memungkinkan LAM untuk menavigasi antarmuka pengguna, mengenali ikon, dan memproses transaksi. Pelatihan ekstensif ini memungkinkan R1 beradaptasi dengan lancar pada hampir semua aplikasi. Selain itu, mode pelatihan khusus memungkinkan pengguna untuk memperkenalkan dan mengotomatiskan tugas-tugas baru, terus memperluas jangkauan kemampuan R1 dan menjadikannya alat dinamis dalam bidang interaksi yang didukung AI.

Kemajuan Apple Menuju Kemampuan yang Terinspirasi LAM di Siri

Tim peneliti AI Apple baru-baru ini berbagi wawasan tentang upaya mereka untuk meningkatkan kemampuan Siri melalui inisiatif baru yang mirip dengan LAM. Inisiatif ini, yang diuraikan dalam makalah penelitian tentang Resolusi Referensi Sebagai Pemodelan Bahasa (ReALM), bertujuan untuk meningkatkan kemampuan Siri dalam memahami konteks percakapan, memproses konten visual di layar, dan mendeteksi aktivitas di sekitar. Pendekatan yang diadopsi ReALM dalam menangani input antarmuka pengguna (UI) ini memiliki kemiripan dengan fungsionalitas yang diamati pada Rabbit AI R1, yang menunjukkan niat Apple untuk meningkatkan pemahaman Siri terhadap interaksi pengguna.

Perkembangan ini menunjukkan Apple sedang mempertimbangkan adopsi teknologi LAM untuk menyempurnakan cara pengguna berinteraksi dengan perangkat mereka. Meskipun belum ada pengumuman eksplisit mengenai penerapan ReALM, potensi peningkatan interaksi Siri dengan aplikasi secara signifikan menunjukkan kemajuan yang menjanjikan dalam menjadikan asisten tersebut lebih intuitif dan responsif.

Potensi Penerapan LAM

LAM mempunyai potensi untuk memperluas dampaknya lebih dari sekadar meningkatkan interaksi antara pengguna dan perangkat; mereka dapat memberikan manfaat yang signifikan di berbagai industri.   

  • Layanan pelanggan: LAM dapat meningkatkan layanan pelanggan dengan menangani pertanyaan dan keluhan secara mandiri di berbagai saluran. Model ini dapat memproses kueri menggunakan bahasa alami, mengotomatiskan resolusi, dan mengelola penjadwalan, memberikan layanan yang dipersonalisasi berdasarkan riwayat pelanggan untuk meningkatkan kepuasan.
  • Kesehatan: Dalam layanan kesehatan, LAM dapat membantu mengelola perawatan pasien dengan mengatur janji temu, mengelola resep, dan memfasilitasi komunikasi antar layanan. Mereka juga berguna untuk pemantauan jarak jauh, menafsirkan data medis, dan mengingatkan staf dalam keadaan darurat, khususnya bermanfaat untuk manajemen perawatan kronis dan lanjut usia.
  • Keuangan: LAM dapat menawarkan nasihat keuangan yang dipersonalisasi dan mengelola tugas seperti penyeimbangan portofolio dan saran investasi. Mereka juga dapat memantau transaksi untuk mendeteksi dan mencegah penipuan, berintegrasi secara lancar dengan sistem perbankan untuk mengatasi aktivitas mencurigakan dengan cepat.

Tantangan LAM

Meskipun memiliki potensi yang besar, LAM menghadapi beberapa tantangan yang perlu diatasi.

  • Privasi dan Keamanan Data: Mengingat akses luas terhadap informasi pribadi dan sensitif yang dibutuhkan LAM agar dapat berfungsi, memastikan privasi dan keamanan data merupakan tantangan besar. LAM berinteraksi dengan data pribadi di berbagai aplikasi dan platform, sehingga menimbulkan kekhawatiran tentang penanganan, penyimpanan, dan pemrosesan informasi ini secara aman.
  • Masalah Etika dan Peraturan: Ketika LAM mengambil peran yang lebih otonom dalam pengambilan keputusan dan berinteraksi dengan lingkungan manusia, pertimbangan etis menjadi semakin penting. Pertanyaan tentang akuntabilitas, transparansi, dan sejauh mana pengambilan keputusan didelegasikan kepada mesin sangatlah penting. Selain itu, mungkin terdapat tantangan peraturan dalam penerapan sistem AI canggih tersebut di berbagai industri.
  • Kompleksitas Integrasi: LAM memerlukan integrasi dengan berbagai sistem perangkat lunak dan perangkat keras untuk melakukan tugas secara efektif. Integrasi ini rumit dan sulit untuk dikelola, terutama ketika mengoordinasikan tindakan di berbagai platform dan layanan, seperti pemesanan penerbangan, akomodasi, dan detail logistik lainnya secara real-time.
  • Skalabilitas dan Adaptasi: Meskipun LAM dirancang untuk beradaptasi dengan berbagai skenario dan aplikasi, meningkatkan skala solusi ini untuk menangani beragam lingkungan dunia nyata secara konsisten dan efisien masih merupakan sebuah tantangan. Memastikan LAM dapat beradaptasi terhadap perubahan kondisi dan mempertahankan kinerja di berbagai tugas dan kebutuhan pengguna sangat penting untuk keberhasilan jangka panjang mereka.

The Bottom Line

Model Aksi Besar (LAM) muncul sebagai inovasi signifikan dalam AI, tidak hanya memengaruhi interaksi perangkat tetapi juga aplikasi industri yang lebih luas. Ditunjukkan oleh Rabbit AI R1 dan dieksplorasi dalam pengembangan Apple dengan Siri, LAM sedang mempersiapkan sistem AI yang lebih interaktif dan intuitif. Model-model ini siap meningkatkan efisiensi dan personalisasi di berbagai sektor seperti layanan pelanggan, layanan kesehatan, dan keuangan.

Namun, penerapan LAM memiliki tantangan, termasuk masalah privasi data, masalah etika, kompleksitas integrasi, dan skalabilitas. Mengatasi masalah ini sangat penting seiring dengan kemajuan kita menuju adopsi teknologi LAM yang lebih luas, yang bertujuan untuk memanfaatkan kemampuan teknologi tersebut secara bertanggung jawab dan efektif. Seiring dengan terus berkembangnya LAM, potensinya untuk mentransformasi interaksi digital tetap besar, hal ini menunjukkan pentingnya LAM dalam lanskap AI di masa depan.

Dr. Tehseen Zia adalah Associate Professor Tetap di COMSATS University Islamabad, memegang gelar PhD di bidang AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Visi Komputer, ia telah memberikan kontribusi yang signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.