Kecerdasan buatan

Revolusi AI dengan ReALM Apple: Masa Depan Asisten Pintar

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Dalam lanskap yang terus berkembang dari kecerdasan buatan, Apple telah diam-diam mempelopori pendekatan yang revolusioner yang dapat meredefinisi cara kita berinteraksi dengan iPhone kita. ReALM, atau Reference Resolution sebagai Language Modeling, adalah model AI yang berjanji untuk membawa tingkat kesadaran kontekstual dan bantuan yang mulus.

Ketika dunia teknologi bergembira dengan kegembiraan atas OpenAI’s GPT-4 dan model bahasa besar lainnya (LLM), ReALM Apple mewakili pergeseran dalam pemikiran – pergeseran dari ketergantungan pada AI berbasis awan ke pendekatan yang lebih personal, on-perangkat. Tujuannya? Menciptakan asisten pintar yang benar-benar memahami Anda, dunia Anda, dan taplak yang rumit dari interaksi digital harian Anda.

Di jantung ReALM terletak kemampuan untuk menyelesaikan referensi – kata ganti yang ambigu seperti “itu,” “mereka,” atau “yang” yang manusia navigasi dengan mudah berkat petunjuk kontekstual. Bagi asisten AI, bagaimanapun, ini telah lama menjadi hambatan, menyebabkan kesalahpahaman yang frustrasi dan pengalaman pengguna yang terputus-putus.

Bayangkan skenario di mana Anda meminta Siri untuk “temukan resep sehat berdasarkan apa yang ada di kulkas saya, tetapi tahan jamur – saya tidak suka itu.” Dengan ReALM, iPhone Anda tidak hanya memahami referensi ke informasi layar (isi kulkas) tetapi juga mengingat preferensi pribadi Anda (tidak suka jamur) dan konteks yang lebih luas dari menemukan resep yang disesuaikan dengan parameter tersebut.

Tingkat kesadaran kontekstual ini adalah lompatan kuantum dari pendekatan pencocokan kata kunci dari kebanyakan asisten AI saat ini. Dengan melatih LLM untuk menyelesaikan referensi secara mulus di seluruh tiga domain utama – percakapan, layar, dan latar belakang – ReALM bertujuan untuk menciptakan teman digital yang benar-benar pintar yang terasa kurang seperti asisten suara robot dan lebih seperti perpanjangan dari proses berpikir Anda sendiri.

Domain Percakapan: Mengingat Apa yang Datang Sebelumnya

AI percakapan, ReALM menangani tantangan lama: mempertahankan koherensi dan memori di seluruh beberapa putaran dialog. Dengan kemampuan untuk menyelesaikan referensi dalam percakapan yang sedang berlangsung, ReALM akhirnya dapat memenuhi janji dari interaksi alami, bolak-balik dengan asisten digital Anda.

Bayangkan meminta Siri untuk “ingatkan saya untuk memesan tiket untuk liburan saya ketika saya dibayar pada Jumat.” Dengan ReALM, Siri tidak hanya memahami konteks dari rencana liburan Anda (potensial diperoleh dari percakapan sebelumnya atau informasi layar) tetapi juga memiliki kesadaran untuk menghubungkan “dibayar” dengan rutinitas gaji Anda yang teratur.

Tingkat kecerdasan percakapan ini terasa seperti lompatan nyata, memungkinkan dialog multi-putaran yang mulus tanpa frustrasi dari terus-menerus menjelaskan konteks atau mengulangi diri.

Domain Layar: Memberi Asisten Anda Mata

Mungkin aspek paling revolusioner dari ReALM, bagaimanapun, terletak pada kemampuan untuk menyelesaikan referensi ke entitas layar – langkah penting menuju menciptakan pengalaman pengguna yang benar-benar bebas tangan, didorong oleh suara.

Makalah penelitian Apple membahas teknik novel untuk mengkodekan informasi visual dari layar perangkat Anda ke dalam format yang dapat diproses oleh LLM. Dengan secara efektif merekonstruksi tata letak layar Anda dalam representasi berbasis teks, ReALM dapat “melihat” dan memahami hubungan spasial antara berbagai elemen layar.

Pertimbangkan skenario di mana Anda melihat daftar restoran dan meminta Siri untuk “arah ke yang di Jalan Utama.” Dengan ReALM, iPhone Anda tidak hanya memahami referensi ke lokasi tertentu tetapi juga menghubungkannya dengan entitas layar yang relevan – daftar restoran yang sesuai dengan deskripsi tersebut.

Tingkat pemahaman visual ini membuka kemungkinan dunia, dari bertindak secara mulus pada referensi dalam aplikasi dan situs web hingga integrasi dengan antarmuka AR masa depan dan bahkan memahami dan merespons objek dan lingkungan dunia nyata melalui kamera perangkat Anda.

Makalah penelitian tentang model ReALM Apple membahas detail-detail intrinsik tentang bagaimana sistem mengkodekan entitas layar dan menyelesaikan referensi di seluruh konteks yang berbeda. Berikut adalah penjelasan sederhana tentang algoritma dan contoh yang disediakan dalam makalah:

Mengkodekan Entitas Layar: Makalah tersebut menjelajahi beberapa strategi untuk mengkodekan elemen layar dalam format teks yang dapat diproses oleh Large Language Model (LLM). Salah satu pendekatan melibatkan pengelompokan objek sekitarnya berdasarkan kedekatan spasial dan menghasilkan prompt yang mencakup objek yang dikelompokkan ini. Namun, metode ini dapat menyebabkan prompt yang terlalu panjang ketika jumlah entitas meningkat.

Pendekatan akhir yang diadopsi oleh peneliti adalah memarsing layar dalam urutan atas-bawah, kiri-kanan, merepresentasikan tata letak dalam format teks. Ini dicapai melalui Algoritma 2, yang mengurutkan objek layar berdasarkan koordinat pusat, menentukan tingkat vertikal dengan mengelompokkan objek dalam margin tertentu, dan membangun parse layar dengan menggabungkan tingkat-tingkat ini dengan tab yang memisahkan objek pada baris yang sama.

Dengan menyuntikkan entitas yang relevan (nomor telepon dalam kasus ini) ke dalam representasi teks, LLM dapat memahami konteks layar dan menyelesaikan referensi sesuai.

Contoh Penyelesaian Referensi: Makalah tersebut menyediakan beberapa contoh untuk mengilustrasikan kemampuan model ReALM dalam menyelesaikan referensi di seluruh konteks yang berbeda:

a. Referensi Percakapan: Untuk permintaan seperti “Siri, temukan resep sehat berdasarkan apa yang ada di kulkas saya, tetapi tahan jamur – saya tidak suka itu,” ReALM dapat memahami konteks layar (isi kulkas), konteks percakapan (menemukan resep), dan preferensi pengguna (tidak suka jamur).

b. Referensi Latar Belakang: Dalam contoh “Siri, putar lagu yang diputar di supermarket sebelumnya,” ReALM dapat memotong dan mengidentifikasi potongan audio ambient untuk menyelesaikan referensi ke lagu tertentu.

c. Referensi Layar: Untuk permintaan seperti “Siri, ingatkan saya untuk memesan tiket untuk liburan ketika saya mendapatkan gaji pada Jumat,” ReALM dapat menggabungkan informasi dari rutinitas pengguna (hari gaji), percakapan layar atau situs web (rencana liburan), dan kalender untuk memahami dan bertindak pada permintaan.

Contoh-contoh ini menunjukkan kemampuan ReALM untuk menyelesaikan referensi di seluruh konteks percakapan, layar, dan latar belakang, memungkinkan interaksi yang lebih alami dan mulus dengan asisten pintar.

Domain Latar Belakang

Melangkah melampaui konteks percakapan dan layar saja, ReALM juga menjelajahi kemampuan untuk menyelesaikan referensi ke entitas latar belakang – peristiwa dan proses periferal yang sering tidak disadari oleh asisten AI kita saat ini.

Bayangkan skenario di mana Anda meminta Siri untuk “putar lagu yang diputar di supermarket sebelumnya.” Dengan ReALM, iPhone Anda dapat memotong dan mengidentifikasi potongan audio ambient, memungkinkan Siri untuk memutar trek yang Anda inginkan.

Tingkat kesadaran latar belakang ini terasa seperti langkah pertama menuju AI pintar yang benar-benar ubiquitous, kontekstual – teman digital yang tidak hanya memahami kata-kata Anda tetapi juga taplak yang kaya dari pengalaman harian Anda.

Janji AI On-Perangkat: Privasi dan Personalisasi

Sementara kemampuan ReALM tidak diragukan lagi impresif, mungkin kelebihan paling signifikan terletak pada komitmen Apple yang lama untuk AI on-perangkat dan privasi pengguna.

Tidak seperti model AI berbasis awan yang mengandalkan mengirim data pengguna ke server jarak jauh untuk diproses, ReALM dirancang untuk beroperasi sepenuhnya pada iPhone atau perangkat Apple lainnya. Ini tidak hanya mengatasi kekhawatiran seputar privasi data tetapi juga membuka kemungkinan baru untuk bantuan AI yang benar-benar memahami dan beradaptasi dengan Anda sebagai individu.

Dengan belajar langsung dari data perangkat Anda – percakapan, pola penggunaan aplikasi, dan bahkan input sensorik ambient – ReALM dapat menciptakan asisten digital yang hiper-pribadi yang disesuaikan dengan kebutuhan, preferensi, dan konteks unik Anda.

Tingkat personalisasi ini terasa seperti pergeseran paradigma dari pendekatan satu-ukuran-untuk-semua dari asisten AI saat ini, yang sering berjuang untuk beradaptasi dengan kekhasan dan konteks individu pengguna.

Model ReALM-250M mencapai hasil yang impresif:

- Pemahaman Percakapan: 97.8
- Pemahaman Tugas Sintetis: 99.8
- Kinerja Tugas Layar: 90.6
- Penanganan Domain Tidak Terlihat: 97.2

Pertimbangan Etis

Tentu saja, dengan tingkat personalisasi dan kesadaran kontekstual yang tinggi, datanglah sejumlah pertimbangan etis seputar privasi, transparansi, dan potensi sistem AI untuk mempengaruhi atau bahkan memanipulasi perilaku pengguna.

Ketika ReALM memperoleh pemahaman yang lebih dalam tentang kehidupan sehari-hari – dari kebiasaan makan dan pola konsumsi media hingga interaksi sosial dan preferensi pribadi – ada risiko teknologi ini digunakan dengan cara yang melanggar kepercayaan pengguna atau melintasi batasan etis.

Peneliti Apple sangat menyadari ketegangan ini, mengakui dalam makalah mereka kebutuhan untuk menemukan keseimbangan hati-hati antara menyampaikan pengalaman AI yang benar-benar membantu dan personal, serta menghormati privasi dan keagenan pengguna.

Tantangan ini tidak unik untuk Apple atau ReALM, tentu saja – ini adalah percakapan yang seluruh industri teknologi harus hadapi ketika sistem AI menjadi semakin canggih dan terintegrasi ke dalam kehidupan sehari-hari.

Menuju Pengalaman AI yang Lebih Pintar, Lebih Alami

Ketika Apple terus mendorong batas-batas AI on-perangkat dengan model seperti ReALM, janji asisten digital yang benar-benar pintar dan kontekstual terasa lebih dekat dari sebelumnya.

Bayangkan dunia di mana Siri (atau apa pun asisten AI ini mungkin disebut di masa depan) terasa kurang seperti suara yang terlepas dari awan dan lebih seperti perpanjangan dari proses berpikir Anda sendiri – mitra yang tidak hanya memahami kata-kata Anda tetapi juga taplak yang kaya dari kehidupan digital Anda, rutinitas harian, dan preferensi dan konteks unik Anda.

Dari bertindak secara mulus pada referensi dalam aplikasi dan situs web hingga memprediksi kebutuhan Anda berdasarkan lokasi, aktivitas, dan input sensorik ambient, ReALM mewakili langkah signifikan menuju pengalaman AI yang lebih alami, lebih mulus yang memburamkan garis antara dunia digital dan fisik.

Tentu saja, mewujudkan visi ini akan memerlukan lebih dari sekedar inovasi teknis – juga akan memerlukan pendekatan etis yang hati-hati terhadap pengembangan AI yang memprioritaskan privasi pengguna, transparansi, dan keagenan.

Ketika Apple terus memperbarui dan memperluas kemampuan ReALM, dunia teknologi pasti akan mengawasi dengan napas yang terengah-engah, ingin melihat bagaimana model AI yang revolusioner ini membentuk masa depan asisten pintar dan membawa era baru komputasi yang benar-benar personal dan kontekstual.

Apakah ReALM memenuhi janjinya untuk mengungguli bahkan GPT-4 yang perkasa tetap harus dilihat. Namun, satu hal yang pasti: usia asisten AI yang benar-benar memahami kita – kata-kata kita, dunia kita, dan taplak yang kaya dari kehidupan sehari-hari kita – sudah dimulai, dan inovasi terbaru Apple mungkin berada di garis depan revolusi ini.

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.

Unite.AI