Kecerdasan buatan

Dari Niat ke Eksekusi: Bagaimana Microsoft Mengubah Large Language Models menjadi AI yang Berorientasi Tindakan

Published January 11, 2025

Updated April 3, 2026

Dr. Tehseen Zia

Large Language Models (LLMs) telah mengubah cara kita menangani pemrosesan bahasa alami. Mereka dapat menjawab pertanyaan, menulis kode, dan melakukan percakapan. Namun, mereka kurang dalam hal tugas dunia nyata. Misalnya, LLM dapat membantu Anda membeli jaket, tetapi tidak dapat melakukan pemesanan untuk Anda. Kesenjangan antara berpikir dan bertindak ini adalah keterbatasan besar. Orang tidak hanya membutuhkan informasi; mereka ingin hasil.

Untuk menjembatani kesenjangan ini, Microsoft mengubah LLMs menjadi agen AI yang berorientasi tindakan. Dengan memungkinkan mereka untuk merencanakan, memecah tugas, dan berinteraksi dengan lingkungan dunia nyata, mereka memberdayakan LLMs untuk mengelola tugas praktis secara efektif. Perubahan ini memiliki potensi untuk mendefinisikan kembali apa yang dapat dilakukan LLMs, mengubahnya menjadi alat yang mengotomatisasi alur kerja yang kompleks dan menyederhanakan tugas sehari-hari. Mari kita lihat apa yang diperlukan untuk membuat ini terjadi dan bagaimana Microsoft mendekati masalah ini.

Apa yang Dibutuhkan LLMs untuk Bertindak

Untuk melakukan tugas di dunia nyata, LLMs perlu melampaui pemahaman teks. Mereka harus berinteraksi dengan lingkungan digital dan fisik sambil beradaptasi dengan kondisi yang berubah. Berikut beberapa kemampuan yang mereka butuhkan:

Memahami Niat Pengguna

Untuk bertindak secara efektif, LLMs perlu memahami permintaan pengguna. Input seperti teks atau perintah suara sering kali tidak jelas atau tidak lengkap. Sistem harus mengisi kesenjangan menggunakan pengetahuan dan konteks permintaan. Percakapan multi-langkah dapat membantu memperhalus niat ini, memastikan AI memahami sebelum bertindak.

Mengubah Niat menjadi Tindakan

Setelah memahami tugas, LLMs harus mengubahnya menjadi langkah-langkah yang dapat dilakukan. Ini mungkin melibatkan mengklik tombol, memanggil API, atau mengontrol perangkat fisik. LLMs perlu memodifikasi tindakan mereka untuk tugas tertentu, beradaptasi dengan lingkungan, dan memecahkan tantangan yang muncul.

Beradaptasi dengan Perubahan

Tugas dunia nyata tidak selalu berjalan sesuai rencana. LLMs perlu memprediksi masalah, menyesuaikan langkah, dan menemukan alternatif ketika masalah muncul. Misalnya, jika sumber daya yang diperlukan tidak tersedia, sistem harus menemukan cara lain untuk menyelesaikan tugas. Fleksibilitas ini memastikan proses tidak terhenti ketika hal-hal berubah.

Spesialisasi dalam Tugas Tertentu

Meskipun LLMs dirancang untuk penggunaan umum, spesialisasi membuat mereka lebih efisien. Dengan fokus pada tugas tertentu, sistem ini dapat memberikan hasil yang lebih baik dengan sumber daya yang lebih sedikit. Ini sangat penting untuk perangkat dengan daya komputasi terbatas, seperti smartphone atau sistem tertanam.

Dengan mengembangkan keterampilan ini, LLMs dapat melampaui pemrosesan informasi saja. Mereka dapat mengambil tindakan yang bermakna, membuka jalan bagi AI untuk terintegrasi secara mulus ke dalam alur kerja sehari-hari.

Bagaimana Microsoft Mengubah LLMs

Pendekatan Microsoft untuk menciptakan AI yang berorientasi tindakan mengikuti proses yang terstruktur. Tujuan utama adalah untuk memungkinkan LLMs memahami perintah, merencanakan secara efektif, dan bertindak. Berikut cara mereka melakukannya:

Langkah 1: Mengumpulkan dan Mempersiapkan Data

Pada fase pertama, mereka mengumpulkan data terkait dengan kasus penggunaan tertentu: UFO Agent (dijelaskan di bawah). Data ini mencakup pertanyaan pengguna, detail lingkungan, dan tindakan tugas tertentu. Dua jenis data yang berbeda dikumpulkan pada fase ini: pertama, mereka mengumpulkan data rencana tugas yang membantu LLMs untuk menguraikan langkah-langkah tingkat tinggi yang diperlukan untuk menyelesaikan tugas. Misalnya, “Ubah ukuran font di Word” mungkin melibatkan langkah-langkah seperti memilih teks dan menyesuaikan pengaturan toolbar. Kedua, mereka mengumpulkan data tindakan tugas, yang memungkinkan LLMs untuk menerjemahkan langkah-langkah ini menjadi instruksi yang tepat, seperti mengklik tombol tertentu atau menggunakan shortcut keyboard.

Kombinasi ini memberikan model baik gambaran besar maupun instruksi rinci yang diperlukan untuk menyelesaikan tugas secara efektif.

Langkah 2: Melatih Model

Setelah data dikumpulkan, LLMs diperhalus melalui beberapa sesi pelatihan. Pada langkah pertama, LLMs dilatih untuk perencanaan tugas dengan mengajarkan mereka bagaimana memecah permintaan pengguna menjadi langkah-langkah yang dapat dilakukan. Data yang diberi label oleh ahli kemudian digunakan untuk mengajarkan mereka bagaimana menerjemahkan rencana ini menjadi tindakan spesifik. Untuk lebih meningkatkan kemampuan pemecahan masalah mereka, LLMs telah terlibat dalam proses eksplorasi self-boosting yang memungkinkan mereka untuk menangani tugas yang belum terselesaikan dan menghasilkan contoh baru untuk pembelajaran berkelanjutan. Akhirnya, pembelajaran penguatan diterapkan, menggunakan umpan balik dari keberhasilan dan kegagalan untuk lebih meningkatkan pengambilan keputusan mereka.

Langkah 3: Pengujian Offline

Setelah dilatih, model diuji dalam lingkungan yang dikontrol untuk memastikan keandalan. Metrik seperti Task Success Rate (TSR) dan Step Success Rate (SSR) digunakan untuk mengukur kinerja. Misalnya, menguji agen manajemen kalender mungkin melibatkan memverifikasi kemampuan mereka untuk menjadwalkan pertemuan dan mengirim undangan tanpa kesalahan.

Langkah 4: Integrasi ke Sistem Nyata

Setelah divalidasi, model diintegrasikan ke dalam kerangka agen. Ini memungkinkan mereka untuk berinteraksi dengan lingkungan dunia nyata, seperti mengklik tombol atau menavigasi menu. Alat seperti UI Automation APIs membantu sistem mengidentifikasi dan memanipulasi elemen antarmuka pengguna secara dinamis.

Misalnya, jika ditugaskan untuk menerapkan sorotan teks di Word, agen mengidentifikasi tombol sorot, memilih teks, dan menerapkan pemformatan. Komponen memori dapat membantu LLM untuk melacak tindakan sebelumnya, memungkinkan mereka beradaptasi dengan skenario baru.

Langkah 5: Pengujian Dunia Nyata

Langkah terakhir adalah evaluasi online. Di sini, sistem diuji dalam skenario dunia nyata untuk memastikan mereka dapat menangani perubahan yang tidak terduga dan kesalahan. Misalnya, bot dukungan pelanggan mungkin membantu pengguna melalui proses reset password sambil beradaptasi dengan input yang salah atau informasi yang hilang. Pengujian ini memastikan AI yang kuat dan siap untuk penggunaan sehari-hari.

Contoh Praktis: UFO Agent

Untuk menunjukkan bagaimana AI yang berorientasi tindakan bekerja, Microsoft mengembangkan UFO Agent. Sistem ini dirancang untuk mengeksekusi tugas dunia nyata di lingkungan Windows, mengubah permintaan pengguna menjadi tindakan yang selesai.

Intinya, UFO Agent menggunakan LLM untuk menafsirkan permintaan dan merencanakan tindakan. Misalnya, jika pengguna mengatakan, “Sorot kata ‘penting’ di dokumen ini,” agen berinteraksi dengan Word untuk menyelesaikan tugas. Ini mengumpulkan informasi kontekstual, seperti posisi elemen kontrol UI, dan menggunakan ini untuk merencanakan dan mengeksekusi tindakan.

UFO Agent bergantung pada alat seperti Windows UI Automation (UIA) API. API ini memindai aplikasi untuk elemen kontrol, seperti tombol atau menu. Untuk tugas seperti “Simpan dokumen sebagai PDF,” agen menggunakan UIA untuk mengidentifikasi tombol “File”, menemukan opsi “Simpan Sebagai”, dan mengeksekusi langkah-langkah yang diperlukan. Dengan menyusun data secara konsisten, sistem memastikan operasi yang lancar dari pelatihan hingga aplikasi dunia nyata.

Mengatasi Tantangan

Meskipun ini adalah perkembangan yang menarik, menciptakan AI yang berorientasi tindakan datang dengan tantangan. Skalabilitas adalah masalah besar. Melatih dan menerapkan model ini di berbagai tugas memerlukan sumber daya yang signifikan. Memastikan keamanan dan keandalan juga sangat penting. Model harus menyelesaikan tugas tanpa konsekuensi yang tidak diinginkan, terutama di lingkungan yang sensitif. Dan karena sistem ini berinteraksi dengan data pribadi, mempertahankan standar etika seputar privasi dan keamanan juga sangat penting.

Peta jalan Microsoft berfokus pada meningkatkan efisiensi, memperluas kasus penggunaan, dan mempertahankan standar etika. Dengan kemajuan ini, LLMs bisa mendefinisikan kembali bagaimana AI berinteraksi dengan dunia, membuat mereka lebih praktis, adaptif, dan berorientasi tindakan.

Masa Depan AI

Mengubah LLMs menjadi agen yang berorientasi tindakan bisa menjadi perubahan besar. Sistem ini dapat mengotomatisasi tugas, menyederhanakan alur kerja, dan membuat teknologi lebih mudah diakses. Kerja Microsoft pada AI yang berorientasi tindakan dan alat seperti UFO Agent hanya awal. Ketika AI terus berkembang, kita dapat mengharapkan sistem yang lebih pintar, lebih mampu, yang tidak hanya berinteraksi dengan kita – mereka menyelesaikan pekerjaan.

Dr. Tehseen Zia

Dr. Tehseen Zia adalah Profesor Asosiasi Tetap di COMSATS University Islamabad, memegang gelar PhD di AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Penglihatan Komputer, ia telah membuat kontribusi signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga telah memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.