Kecerdasan Buatan
OpenAgents: Platform Terbuka untuk Agen Bahasa di Alam Liar

Perkembangan terkini menunjukkan bahwa agen bahasa, khususnya yang dibangun pada model bahasa besar (LLM), mempunyai potensi untuk melakukan beragam tugas rumit di lingkungan yang beragam dengan menggunakan bahasa alami. Namun, fokus utama dari sebagian besar kerangka agen bahasa saat ini adalah memfasilitasi konstruksi agen bahasa pembuktian konsep. Fokus ini sering kali tidak memperhatikan desain tingkat aplikasi dan sering kali mengabaikan aksesibilitas agen ini kepada pengguna non-ahli.
Untuk menjembatani keterbatasan yang dialami oleh agen bahasa saat ini, pengembang telah menghadirkan Kerangka kerja OpenAgents, platform terbuka untuk hosting dan penerapan agen bahasa di alam liar, dan dalam berbagai tugas sehari-hari. Kerangka kerja OpenAgents dibangun berdasarkan tiga agen
- Agen Data : Membantu Analisis Data menggunakan alat data, dan bahasa kueri seperti SQL, atau bahasa pemrograman seperti Python.
- Agen Plugin : Membantu dengan menyediakan akses ke lebih dari 200+ alat API yang berguna untuk tugas sehari-hari.
- Agen Web: Membantu dalam menjelajahi web sambil menjaga anonimitas Anda.
Kerangka kerja OpenAgents menggunakan antarmuka pengguna web yang dioptimalkan untuk kegagalan umum dan respons cepat dalam upaya memungkinkan pengguna umum berinteraksi dengan fungsi agen, sekaligus menawarkan pengalaman penerapan yang lancar kepada peneliti dan pengembang pada pengaturan lokal mereka. Dapat dikatakan bahwa kerangka OpenAgents adalah upaya untuk memberikan landasan yang kuat untuk memfasilitasi evaluasi dunia nyata, dan menciptakan agen bahasa yang inovatif, efektif, dan canggih.
Dalam artikel hari ini, kita akan mempelajari lebih dalam tentang kerangka kerja OpenAgents, dan membahas kerangka kerja tersebut secara lebih rinci. Kita akan membahas cara kerja dan arsitektur kerangka kerja ini, serta membahas tantangan umum yang dihadapi dan hasilnya. Jadi mari kita mulai.
OpenAgents dan Agen Bahasa: Sebuah Pengantar
Agen bahasa, pada intinya, berasal dari agen cerdas. Agen-agen cerdas ini dikonseptualisasikan memiliki kemampuan pemecahan masalah yang otonom, serta kemampuan untuk merasakan lingkungannya, membuat keputusan, dan bertindak sesuai dengan itu. Dengan kemajuan dalam model bahasa besar, komunitas pembangunan global telah memanfaatkan konsep agen cerdas dan LLM untuk menciptakan agen bahasa. Agen-agen ini memanfaatkan pemrograman bahasa alami (NLP) untuk melakukan beragam tugas rumit di lingkungan yang beragam, dan baru-baru ini mereka menunjukkan potensi yang luar biasa.
Kerangka kerja agen bahasa saat ini, seperti Gravitas dan Chase, terutama menyediakan antarmuka konsol yang disesuaikan untuk pengembang, bersama dengan implementasi bukti konsep. Namun, mereka sering kali membatasi aksesibilitas ke khalayak yang lebih luas, terutama mereka yang tidak mahir dalam coding. Selain itu, tolok ukur agen saat ini dibuat oleh pengembang dengan persyaratan khusus untuk evaluasi deterministik, terutama dalam skenario yang memerlukan penelusuran web, pengkodean, pemanfaatan alat, atau kombinasi keduanya.
Dalam upaya mengembangkan agen bahasa dan kecerdasan yang didukung LLM untuk basis pengguna yang lebih luas, pemain mapan seperti OpenAI dan Microsoft telah menerapkan serangkaian produk yang dirancang dengan baik, termasuk Analisis Data Tingkat Lanjut, yang juga dikenal sebagai Penerjemah Kode, dan plugin browser. Meskipun agen-agen ini efektif dalam menjalankan fungsinya, mereka hanya memberikan bantuan yang terbatas kepada komunitas pembangunan. Keterbatasan ini muncul karena implementasi kode dan model logika bisnis belum bersumber terbuka, sehingga menghambat peluang bagi pengembang dan peneliti untuk mengeksplorasinya lebih jauh, serta membatasi akses gratis bagi pengguna.
Dalam upaya untuk mengatasi masalah ini, pengembang telah menemukan solusinya Agen Terbuka, sebuah platform sumber terbuka untuk menghosting dan menggunakan agen, dan saat ini dibangun di atas fondasi tiga agen internal
- Agen Data : Membantu Analisis Data menggunakan alat data, dan bahasa kueri seperti SQL, atau bahasa pemrograman seperti Python.
- Agen Plugin : Membantu dengan menyediakan akses ke lebih dari 200+ alat API yang berguna untuk tugas sehari-hari.
- Agen Web: Membantu dalam menjelajahi web sambil menjaga anonimitas Anda.
Gambar berikut menunjukkan platform OpenAgents untuk pengguna umum, pengembang, dan peneliti.
- Daripada menggunakan paket atau konsol yang berorientasi pemrogram, pengguna umum dapat berinteraksi dengan tiga agen dalam kerangka OpenAgents menggunakan antarmuka web online.
- Pengembang dapat menggunakan logika bisnis dan kode penelitian yang disediakan oleh kerangka OpenAgents untuk menyebarkan backend dan frontend dengan lancar untuk pengembangan lebih lanjut.
- Peneliti memiliki fleksibilitas untuk membangun agen bahasa baru dari awal, atau mengimplementasikan metode terkait agen menggunakan komponen & contoh bersama, dan mengevaluasi kinerjanya menggunakan UI web.
Singkatnya, kerangka OpenAgents pada awalnya dimaksudkan untuk menjadi platform holistik dan realistis untuk evaluasi agen bahasa human-in-the-loop yang memungkinkan pengguna berinteraksi dengan agen-agen ini untuk menyelesaikan beragam tugas, dan human-in-the-loop ini. interaksi agen bersama dengan umpan balik pengguna disimpan & dianalisis untuk pengembangan & evaluasi lebih lanjut.
Bagi yang belum sadar, dorongan LLM adalah proses yang memungkinkan pengembang membuat instruksi yang melindungi terhadap masukan yang merugikan atau salah, meningkatkan estetika keluaran, dan memenuhi logika backend. Selama fase pengembangan, pengembang yang bekerja pada kerangka OpenAgents menggunakan teknik prompt LLM untuk menggarisbawahi pentingnya menentukan persyaratan aplikasi secara efektif. Namun, pengembang segera mengamati bahwa penumpukan instruksi atau perintah LLM ini kadang-kadang bisa sangat besar sehingga mungkin mempengaruhi kemampuan penanganan konteks kerangka kerja LLM bersama dengan batasan token. Para pengembang juga mengamati bahwa untuk menerapkan agen-agen ini secara efektif di dunia nyata, model agen tidak hanya harus menunjukkan kinerja yang luar biasa, namun juga harus mampu menangani beragam skenario interaktif secara real-time. Meskipun kerangka agen saat ini Meskipun kinerjanya sudah tercakup, mereka sering mengabaikan pertimbangan dunia nyata terutama dalam waktu nyata yang sering kali mengaburkan potensi sebenarnya dari kerangka kerja LLM dengan mengorbankan daya tanggap atau akurasi.
Pada gambar berikut, kami membandingkan kerangka OpenAgents secara langsung dengan pekerjaan yang ada pada tolok ukur konsep agen, dan pembuatan prototipe.
OpenAgents: Desain dan Implementasi Platform
Desain atau arsitektur sistematis platform OpenAgents dapat dibagi menjadi dua komponen utama: User Interface, termasuk backend & frontend, dan Agen Bahasa, terdiri dari alat, model bahasa, dan lingkungan. Kerangka OpenAgents menyediakan antarmuka untuk komunikasi antara pengguna dan agen. Alur interaksi dalam kerangka tersebut adalah sebagai berikut.
Agen menggunakan alat yang tersedia untuk merencanakan dan mengambil tindakan yang diperlukan di lingkungan setelah mereka menerima masukan dari pengguna. Arsitektur atau desain sistematis kerangka kerja ditunjukkan pada gambar berikut.
User Interface
Pengembang kerangka OpenAgents telah mencurahkan banyak pemikiran dan upaya untuk mengembangkan tidak hanya antarmuka pengguna yang sangat fungsional namun juga ramah pengguna setelah menangani banyak agen host dan logika bisnis yang dapat digunakan kembali. Hasilnya, kerangka OpenAgents membanggakan dalam memberikan dukungan untuk beragam tugas teknis termasuk penanganan kesalahan, operasi server backend, streaming data, dan banyak lagi, dengan tujuan utama adalah membuat kerangka OpenAgents ramah pengguna, namun sangat efektif & dapat digunakan secara bersamaan.
Agen Bahasa
Dalam kerangka OpenAgents, agen bahasa memiliki tiga komponen penting: antarmuka alat, model bahasa, dan lingkungan itu sendiri. Metode prompt yang diterapkan dalam kerangka OpenAgents menciptakan proses berurutan yang dimulai dengan agen untuk diikuti Pengamatan -> Musyawarah -> Tindakan. Kerangka kerja ini juga meminta LLM untuk menghasilkan teks parsable dengan efisiensi yang ditingkatkan, dan antarmuka alat terdiri dari parser yang dapat menerjemahkan teks parsable yang dihasilkan oleh LLM menjadi tindakan yang dapat dieksekusi seperti membuat panggilan API atau membuat kode. Tindakan ini kemudian dijalankan oleh kerangka kerja dalam batas-batas lingkungan yang sesuai.
Agen OpenAgents
Inti dari OpenAgents, ada tiga agen berbeda: Agen Data yang membantu Analisis Data menggunakan alat data, dan bahasa kueri seperti SQL, atau bahasa pemrograman seperti Python, Agen Plugin bahwa membantu dengan menyediakan akses ke lebih dari 200+ alat API yang berguna untuk tugas sehari-hari, dan Agen Web yang membantu dalam menjelajahi web sambil menjaga anonimitas Anda. Agen ini memiliki keahlian domain individual yang mirip dengan plugin ChatGPT, namun tidak seperti ChatGPT, implementasi di OpenAgents murni didasarkan pada Antarmuka Pemrograman Aplikasi atau API bahasa terbuka.
Agen Data
Agen data dalam kerangka OpenAgents telah dirancang dan diterapkan sedemikian rupa untuk menangani beragam tugas terkait data yang sering dihadapi pengguna akhir. Agen data mendukung pembuatan dan eksekusi kode dalam dua bahasa pemrograman yaitu SQL dan Python, dan agen juga memiliki beberapa alat data yang dapat digunakan termasuk Profil Data untuk menyediakan informasi data dasar, Pencarian Data Kaggle untuk mencari kumpulan data, dan Alat EChart untuk merencanakan ECharts interaktif. Selain itu, kerangka OpenAgents meminta agen data untuk menggunakan alat ini secara proaktif agar dapat merespons permintaan pengguna akhir secara efektif. Selain itu, mengingat persyaratan pengkodean yang lengkap, kerangka kerja OpenAgents memilih model bahasa tertanam untuk agen data, dan bukan agen yang menghasilkan kode, melainkan alat seperti Python, ECharts, dan SQL yang menghasilkan kode. Dengan pendekatan ini, kerangka kerja ini mampu memanfaatkan kecakapan pemrograman model bahasa sepenuhnya, dan dengan demikian mengurangi beban pada agen data.
Dengan bantuan alat data ini, agen data mampu mengelola banyak permintaan yang berpusat pada data, dan melakukan visualisasi, manipulasi, dan kueri data dengan baik, sehingga melampaui batas pembuatan kode & teks. Gambar berikut menyoroti cara kerja agen data, dan alat yang tersedia untuk pengguna umum.
Agen Plugin
Agen plugin dalam kerangka OpenAgents telah dirancang oleh pengembang dengan cermat untuk memenuhi kebutuhan beragam pengguna untuk tugas sehari-hari termasuk mencari di internet, belanja online, membaca berita, atau membuat situs web & aplikasi dengan menyediakan akses ke lebih dari 200 plugin, dengan perhatian khusus dibayar untuk antarmuka pemanggilan fungsi, ping API, dan panjang respons API. Beberapa plugin yang menonjol antara lain
- Cari Google
- Wolfram Alpha
- Zapier
- Klarna
- Coursera
- Perlihatkan pada saya
- Berbicara
- Tanyakan PDF Anda
- BizTok
- Lihat
Berdasarkan kebutuhan dan persyaratannya, pengguna dapat memilih jumlah plugin yang mereka inginkan untuk digunakan oleh agen plugin, dan cara kerjanya ditunjukkan pada gambar di bawah.
Selain itu, untuk membantu pengguna dalam situasi di mana mereka tidak yakin plugin mana yang paling sesuai dengan kebutuhan mereka, kerangka OpenAgents menawarkan kepada pengguna fitur yang secara otomatis memilih plugin yang paling relevan dengan instruksi mereka.
Agen Web
Kerangka kerja OpenAgents menghadirkan agen web sebagai alat khusus yang bertugas untuk meningkatkan efisiensi dan kemampuan agen obrolan. Meskipun agen obrolan masih menggunakan antarmuka interaksi utama, agen ini menggabungkan agen web kapan pun diperlukan. Respons akhir kemudian dikirimkan ke pengguna akhir oleh agen web, dan prosesnya diilustrasikan pada gambar di bawah.
Strategi desain yang diterapkan di agen web ini terbukti memberikan manfaat besar karena agen obrolan memproses parameter penting atau memulai URL secara sistematis, sebelum ditransfer ke agen web, sehingga memastikan keselarasan yang lebih baik antara kebutuhan pengguna dan keluaran yang dihasilkan. sehingga menghasilkan komunikasi yang jelas. Selain itu, strategi ini juga memungkinkan agen web untuk mengakomodasi pertanyaan pengguna yang berlapis dan mudah beradaptasi dengan menggunakan navigasi web multi-putaran dinamis yang dipadukan dengan dialog obrolan. Oleh karena itu, dengan membatasi peran dan tanggung jawab agen chat dan multi-browsing secara jelas, kerangka kerja OpenAgents membuka jalan bagi penyempurnaan & evolusi setiap modul individual.
OpenAgents: Aplikasi Praktis dan Penerapan di Dunia Nyata
Pada bagian ini, kita akan berbicara tentang lintasan kerangka OpenAgents mulai dari teori hingga penerapan di dunia nyata serta tantangan yang dihadapi, dan pembelajaran yang diserap serta kompleksitas evaluasi yang ditangani oleh pengembang.
Menggunakan Perintah untuk Mengubah Model Bahasa Besar menjadi Aplikasi Dunia Nyata
Saat menggunakan perintah LLM untuk membangun aplikasi dunia nyata bagi pengguna akhir, kerangka OpenAgents menggunakan instruksi cepat untuk menentukan persyaratan tertentu. Tujuan dari beberapa instruksi adalah untuk memastikan output selaras dengan format tertentu, sehingga memungkinkan logika backend untuk diproses, sedangkan tujuan dari instruksi lainnya adalah untuk meningkatkan daya tarik estetika output, sedangkan sisanya melindungi kerangka kerja dari potensi kerusakan. serangan jahat.
Faktor Dunia Nyata yang Tidak Dapat Dikendalikan
Ketika pengembang menerapkan kerangka OpenAgents di dunia nyata, mereka disambut oleh serangkaian faktor dunia nyata yang tidak terkendali yang dipicu oleh infrastruktur internet, pengguna, logika bisnis, dan banyak lagi. Faktor-faktor yang tidak dapat dikendalikan ini memaksa pengembang untuk mengevaluasi kembali dan menyempurnakan beberapa asumsi berdasarkan penelitian sebelumnya, dan hal ini pada akhirnya dapat mengarah pada situasi di mana pengguna akhir mungkin tidak puas dengan respons yang dihasilkan oleh kerangka kerja tersebut.
Kompleksitas Evaluasi
Meskipun agen yang dibangun yang ditujukan langsung pada aplikasi mungkin memiliki aplikasi yang lebih luas, dan memfasilitasi evaluasi yang lebih baik, hal ini menambah kompleksitas dalam membangun aplikasi yang didukung LLM sehingga menyulitkan analisis kinerja aplikasi. Selain itu, pendekatan ini juga menambah ketidakstabilan, dan memperluas rantai sistem LLM Hal ini menyulitkan kerangka kerja untuk beradaptasi dengan berbagai komponen. Oleh karena itu, masuk akal untuk menyempurnakan desain sistem dan logika pengoperasian agen-agen ini untuk menyederhanakan prosedur, dan memastikan keluaran yang efektif.
Final Thoughts
Pada artikel ini, kita telah membahas tentang kerangka OpenAgents, sebuah platform terbuka untuk hosting dan penerapan agen bahasa di alam liar, dan dalam berbagai tugas sehari-hari. Kerangka kerja OpenAgents dibangun berdasarkan tiga agen: Agen Data, membantu Analisis Data menggunakan alat data, dan bahasa kueri seperti SQL, atau bahasa pemrograman seperti Python, Agen Plugin, membantu dengan menyediakan akses ke lebih dari 200+ alat API yang berguna untuk tugas sehari-hari, dan Agen Web membantu menjelajahi web sambil menjaga anonimitas Anda . Kerangka kerja OpenAgents menggunakan antarmuka pengguna web yang dioptimalkan untuk kegagalan umum dan respons cepat dalam upaya memungkinkan pengguna umum berinteraksi dengan fungsi agen, sekaligus menawarkan pengalaman penerapan yang lancar kepada peneliti dan pengembang pada pengaturan lokal mereka. Dengan menyediakan platform yang transparan, holistik, dan dapat diterapkan, OpenAgents bertujuan untuk membuat potensi LLM dapat diakses oleh lebih banyak pengguna tidak terbatas pada peneliti dan pengembang, namun juga pengguna akhir dengan keahlian teknis terbatas.