Terhubung dengan kami

Kecerdasan Buatan

Dari Siri hingga ReALM: Perjalanan Apple menuju Asisten Suara yang Lebih Cerdas

mm

Sejak peluncuran Siri pada tahun 2011, Apple secara konsisten menjadi yang terdepan dalam inovasi asisten suara, beradaptasi dengan kebutuhan pengguna global. Pengenalan ReALM menandai titik penting dalam perjalanan ini, menawarkan gambaran sekilas tentang evolusi peran asisten suara dalam interaksi kita dengan perangkat. Artikel ini membahas efek ReALM pada Siri dan potensi arahan untuk asisten suara di masa depan.

Bangkitnya Asisten Suara: Kejadian Siri

Perjalanan ini dimulai ketika Apple mengintegrasikan Siri, sistem kecerdasan buatan yang canggih, ke dalam perangkatnya, mengubah cara kita berinteraksi dengan teknologi. Berasal dari teknologi yang dikembangkan oleh SRI Internasional, Siri menjadi standar emas untuk asisten yang diaktifkan dengan suara. Pengguna dapat melakukan tugas-tugas seperti pencarian internet dan penjadwalan melalui perintah suara sederhana, mendorong batas-batas antarmuka percakapan dan memicu persaingan kompetitif di pasar asisten suara.

Siri 2.0: Era Baru Asisten Suara

Saat Apple bersiap untuk merilis iOS 18 di Konferensi Pengembang Seluruh Dunia (WWDC) pada bulan Juni 2024, antisipasi semakin meningkat dalam komunitas teknologi terhadap apa yang diperkirakan akan menjadi evolusi signifikan dari Siri. Fase baru ini, disebut sebagai Siri 2.0, berjanji untuk mengedepankan kemajuan AI generatif, yang berpotensi mengubah Siri menjadi asisten virtual yang lebih canggih. Meskipun peningkatan pastinya tetap dirahasiakan, dunia teknologi dipenuhi dengan prospek Siri mencapai tingkatan baru dalam kecerdasan percakapan dan interaksi pengguna yang dipersonalisasi, memanfaatkan model pembelajaran bahasa canggih yang terlihat dalam teknologi seperti ChatGPT. Dalam konteks ini, pengenalan ReALM, model bahasa yang ringkas, menyarankan kemungkinan peningkatan yang mungkin diperkenalkan Siri 2.0 kepada penggunanya. Bagian berikut akan membahas peran ReALM dan potensi pengaruhnya sebagai langkah penting dalam kemajuan Siri yang berkelanjutan.

Mengungkap RealM

ReALM, yang merupakan singkatan dari Resolusi Referensi Sebagai Pemodelan Bahasa, adalah model bahasa khusus yang mahir dalam menguraikan referensi kontekstual dan ambigu selama percakapan, seperti “yang itu” atau “ini.” Ini menonjol karena kemampuannya memproses referensi percakapan dan visual, mengubahnya menjadi format teks. Kemampuan ini memungkinkan ReALM untuk menafsirkan dan berinteraksi dengan tata letak dan elemen layar secara mulus dalam dialog, sebuah fitur penting untuk menangani kueri secara akurat dalam konteks yang bergantung pada visual.

Arsitektur ReALM berkisar dari versi yang lebih kecil seperti ReALM-80M hingga yang lebih besar seperti ReALM-3B, dioptimalkan agar efisien secara komputasi untuk diintegrasikan ke dalam perangkat seluler. Efisiensi ini memungkinkan kinerja yang konsisten dengan pengurangan penggunaan daya dan pengurangan tekanan pada sumber daya pemrosesan, yang penting untuk memperpanjang masa pakai baterai dan memberikan waktu respons yang cepat pada berbagai perangkat.

Selain itu, desain ReALM mengakomodasi pembaruan modular, memfasilitasi integrasi kemajuan terkini dalam resolusi referensi. Pendekatan modular ini tidak hanya meningkatkan kemampuan adaptasi dan fleksibilitas model namun juga memastikan kelangsungan dan efektivitas jangka panjang, memungkinkannya memenuhi kebutuhan pengguna dan standar teknologi yang terus berkembang di berbagai perangkat.

Model ReALM vs. Bahasa

Sedangkan model bahasa tradisional seperti GPT-3.5 terutama memproses teks, ReALM mengambil rute multimodal, mirip dengan model seperti Gemini, dengan bekerja dengan teks dan visual. Berbeda dengan fungsi yang lebih luas dari GPT-3.5 dan Gemini, yang menangani tugas-tugas seperti pembuatan teks, pemahaman, dan pembuatan gambar, ReALM secara khusus ditujukan untuk menguraikan konteks percakapan dan visual. Namun, tidak seperti model multimodal seperti Gemini yang secara langsung memproses data visual dan teks, ReALM menerjemahkan konten visual layar menjadi teks, entitas anotasi, dan detail spasialnya. Konversi ini memungkinkan ReALM untuk menafsirkan konten layar secara tekstual, memfasilitasi identifikasi dan pemahaman referensi di layar yang lebih tepat.

Bagaimana ReALM Dapat Mengubah Siri?

ReALM dapat meningkatkan kemampuan Siri secara signifikan, mengubahnya menjadi asisten yang lebih intuitif dan peka konteks. Berikut dampaknya:

  • Pemahaman Kontekstual yang Lebih Baik: ReALM berspesialisasi dalam menguraikan referensi ambigu dalam percakapan, yang berpotensi meningkatkan kemampuan Siri untuk memahami pertanyaan yang bergantung pada konteks. Hal ini akan memungkinkan pengguna untuk berinteraksi dengan Siri secara lebih alami, karena Siri dapat memahami referensi seperti "putar lagu itu lagi" atau "telepon dia" tanpa detail tambahan.
  • Interaksi Layar yang Ditingkatkan: Dengan kemahirannya dalam menafsirkan tata letak layar dan elemen dalam dialog, ReALM memungkinkan Siri berintegrasi secara lebih lancar dengan konten visual perangkat. Siri kemudian dapat menjalankan perintah yang terkait dengan item di layar, seperti “buka aplikasi di sebelah Mail” atau “gulir ke bawah di halaman ini”, memperluas kegunaannya dalam berbagai tugas.
  • Personalisasi: Dengan belajar dari interaksi sebelumnya, ReALM dapat meningkatkan kemampuan Siri untuk menawarkan respons yang dipersonalisasi dan adaptif. Seiring waktu, Siri mungkin memprediksi kebutuhan dan preferensi pengguna, menyarankan atau memulai tindakan berdasarkan perilaku masa lalu dan pemahaman kontekstual, mirip dengan asisten pribadi yang berpengetahuan luas.
  • Peningkatan Aksesibilitas: Kemampuan pemahaman kontekstual dan referensi dari ReALM dapat memberikan manfaat signifikan terhadap aksesibilitas, menjadikan teknologi lebih inklusif. Siri, yang didukung oleh ReALM, dapat menafsirkan perintah yang tidak jelas atau sebagian secara akurat, memfasilitasi penggunaan perangkat yang lebih mudah dan alami bagi orang-orang dengan gangguan fisik atau penglihatan.

ReALM dan Strategi AI Apple

Peluncuran ReALM mencerminkan aspek kunci dari strategi AI Apple, yang menekankan kecerdasan pada perangkat. Perkembangan ini selaras dengan tren industri edge computing yang lebih luas, di mana data diproses secara lokal di perangkat, sehingga mengurangi latensi, menghemat bandwidth, dan mengamankan data pengguna di perangkat itu sendiri.

Proyek ReALM juga menampilkan tujuan AI Apple yang lebih luas, dengan fokus tidak hanya pada eksekusi perintah tetapi juga pada pemahaman dan prediksi yang lebih mendalam terhadap kebutuhan pengguna. ReALM mewakili langkah menuju inovasi masa depan di mana perangkat dapat memberikan dukungan yang lebih personal dan prediktif, berdasarkan pemahaman mendalam tentang kebiasaan dan preferensi pengguna.

The Bottom Line

Perkembangan Apple dari Siri hingga ReALM menyoroti evolusi berkelanjutan dalam teknologi asisten suara, dengan fokus pada peningkatan pemahaman konteks dan interaksi pengguna. ReALM menandakan peralihan ke arah bantuan suara yang lebih cerdas, personal, dan sadar privasi, selaras dengan tren industri komputasi edge untuk meningkatkan pemrosesan dan keamanan pada perangkat.

Dr. Tehseen Zia adalah Associate Professor Tetap di COMSATS University Islamabad, memegang gelar PhD di bidang AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Visi Komputer, ia telah memberikan kontribusi yang signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.