Alat AI 101

Di Luar ChatGPT; Agen AI: Dunia Baru Pekerja

Published August 28, 2023

Updated April 4, 2026

Aayush Mittal Mittal

Dengan kemajuan dalam deep learning, pengolahan bahasa alami (NLP), dan AI, kita berada di masa di mana agen AI dapat membentuk sebagian besar tenaga kerja global. Agen-agen AI ini, yang melampaui chatbot dan asisten suara, membentuk paradigma baru bagi industri dan kehidupan sehari-hari kita. Tapi apa yang sebenarnya dimaksud dengan hidup di dunia yang diperkaya oleh “pekerja” ini? Artikel ini menyelami lanskap yang terus berkembang ini, menilai implikasi, potensi, dan tantangan yang terletak di depan.

Ringkasan Singkat: Evolusi Pekerja AI

Sebelum memahami revolusi yang akan datang, penting untuk mengenali evolusi yang didorong AI yang telah terjadi.

Sistem Komputasi Tradisional: Dari algoritma komputasi dasar, perjalanan dimulai. Sistem ini dapat menyelesaikan tugas yang telah ditentukan sebelumnya menggunakan set aturan yang tetap.
Chatbot & Asisten Suara Awal: Ketika teknologi berkembang, antarmuka kita juga berkembang. Alat seperti Siri, Cortana, dan chatbot awal mempermudah interaksi pengguna-AI tetapi memiliki pemahaman dan kemampuan yang terbatas.
Jaringan Saraf & Pembelajaran Dalam: Jaringan saraf menandai titik balik, meniru fungsi otak manusia dan berkembang melalui pengalaman. Teknik pembelajaran dalam lebih lanjut meningkatkan ini, memungkinkan pengenalan gambar dan ucapan yang canggih.
Transformer dan Model NLP Lanjutan: Pengenalan arsitektur transformer merevolusi lanskap NLP. Sistem seperti ChatGPT oleh OpenAI, BERT, dan T5 telah memungkinkan terobosan dalam komunikasi manusia-AI. Dengan pemahaman bahasa dan konteks yang mendalam, model ini dapat melakukan percakapan yang bermakna, membuat konten, dan menjawab pertanyaan kompleks dengan akurasi yang belum pernah terjadi sebelumnya.

Masuknya Agen AI: Lebih dari Sekedar Percakapan

Lanskap AI saat ini menunjukkan sesuatu yang lebih luas daripada alat percakapan. Agen AI, melampaui fungsi obrolan, sekarang dapat melakukan tugas, belajar dari lingkungannya, membuat keputusan, dan bahkan menunjukkan kreativitas. Mereka tidak hanya menjawab pertanyaan; mereka memecahkan masalah.

Model perangkat lunak tradisional bekerja pada jalur yang jelas. Stakeholder mengungkapkan tujuan kepada manajer perangkat lunak, yang kemudian merancang rencana spesifik. Insinyur akan melaksanakan rencana ini melalui baris kode. Paradigma ‘warisan’ dari fungsionalitas perangkat lunak ini jelas, melibatkan banyak intervensi manusia.

Agen AI, bagaimanapun, beroperasi secara berbeda. Sebuah agen:

Mempunyai tujuan yang ingin dicapai.
Dapat berinteraksi dengan lingkungannya.
Merumuskan rencana berdasarkan pengamatan ini untuk mencapai tujuannya.
Mengambil tindakan yang diperlukan, menyesuaikan pendekatannya berdasarkan keadaan lingkungan yang berubah.

Apa yang benar-benar membedakan agen AI dari model tradisional adalah kemampuan mereka untuk secara otonom menciptakan rencana langkah demi langkah untuk mewujudkan tujuan. Secara esensial, sedangkan sebelumnya programmer menyediakan rencana, agen AI saat ini merancang jalur mereka sendiri.

Pertimbangkan contoh sehari-hari. Dalam desain perangkat lunak tradisional, program akan memberi tahu pengguna tentang tugas yang terlambat berdasarkan kondisi yang telah ditentukan sebelumnya. Pengembang akan menetapkan kondisi ini berdasarkan spesifikasi yang diberikan oleh manajer produk.

Dalam paradigma agen AI, agen itu sendiri menentukan kapan dan bagaimana untuk memberi tahu pengguna. Ini mengukur lingkungan (kebiasaan pengguna, keadaan aplikasi) dan memutuskan tindakan terbaik. Prosesnya menjadi lebih dinamis, lebih saat ini.

ChatGPT menandai keberangkatan dari penggunaan tradisionalnya dengan integrasi plugin, sehingga memungkinkannya untuk memanfaatkan alat eksternal untuk melakukan beberapa permintaan. Ini menjadi manifestasi awal dari konsep agen. Jika kita mempertimbangkan contoh sederhana: pengguna yang menanyakan tentang cuaca Kota New York, ChatGPT, dengan menggunakan plugin, dapat berinteraksi dengan API cuaca eksternal, menafsirkan data, dan bahkan mengoreksi jalur berdasarkan respons yang diterima.

Lanskap Saat Ini Agen AI

Agen AI, termasuk Auto-GPT, AgentGPT, dan BabyAGI, membawa kita memasuki era baru dalam alam semesta AI yang luas. Sementara ChatGPT mempopulerkan AI Generatif dengan memerlukan input manusia, visi di balik agen AI adalah untuk memungkinkan AI berfungsi secara mandiri, menuju tujuan dengan sedikit atau tanpa intervensi manusia. Potensi transformatif ini telah ditekankan oleh pertumbuhan meteorik Auto-GPT, mengumpulkan lebih dari 107.000 bintang di GitHub hanya dalam enam minggu sejak awal, pertumbuhan yang belum pernah terjadi dibandingkan dengan proyek yang sudah mapan seperti paket sains data ‘pandas’.

Agen AI vs. ChatGPT

Banyak agen AI canggih, seperti Auto-GPT dan BabyAGI, menggunakan arsitektur GPT. Fokus utama mereka adalah untuk meminimalkan kebutuhan akan intervensi manusia dalam penyelesaian tugas AI. Istilah deskriptif seperti “GPT pada loop” menggambarkan operasi model seperti AgentGPT dan BabyAGI. Mereka beroperasi dalam siklus iteratif untuk lebih memahami permintaan pengguna dan memperbaiki output mereka. Sementara itu, Auto-GPT mendorong batas lebih jauh dengan mengintegrasikan akses internet dan kemampuan eksekusi kode, secara signifikan memperluas jangkauan pemecahan masalahnya.

Inovasi dalam Agen AI

Memori Jangka Panjang: LLM tradisional memiliki memori yang terbatas, hanya menyimpan segmen interaksi terbaru. Untuk tugas komprehensif, mengingat seluruh percakapan atau bahkan percakapan sebelumnya menjadi sangat penting. Untuk mengatasi ini, agen AI telah mengadopsi alur kerja penyematan, mengubah percakapan teks menjadi array numerik, menawarkan solusi untuk keterbatasan memori.
Kemampuan Membrowse Web: Untuk tetap diperbarui dengan peristiwa terbaru, Auto-GPT telah dipersenjatai dengan kemampuan browsing, menggunakan API Pencarian Google. Ini telah memicu debat dalam komunitas AI mengenai cakupan pengetahuan AI.
Menjalankan Kode: Melampaui generasi kode, Auto-GPT dapat mengeksekusi kode shell dan Python. Kemampuan tak tertandingi ini memungkinkannya untuk berantarmuka dengan perangkat lunak lain, sehingga memperluas domain operasionalnya.

Diagram ini memvisualisasikan arsitektur sistem AI yang ditenagai oleh Model Bahasa Besar dan Agen.

Input: Sistem menerima data dari sumber yang beragam: perintah pengguna langsung, database terstruktur, konten web, dan sensor lingkungan waktu nyata.
LLM & Agen: Di inti, LLM memproses input ini, berkolaborasi dengan agen khusus seperti Auto-GPT untuk rantai pemikiran, AgentGPT untuk tugas khusus web, BabyAGI untuk tindakan khusus tugas, dan HuggingGPT untuk pemrosesan berbasis tim.
Output: Setelah diproses, informasi diubah menjadi format yang ramah pengguna dan kemudian diteruskan ke perangkat yang dapat bertindak atau mempengaruhi lingkungan sekitar.
Komponen Memori: Sistem menyimpan informasi, baik sementara maupun permanen, melalui cache jangka pendek dan database jangka panjang.
Lingkungan: Ini adalah realm eksternal, yang mempengaruhi sensor dan dipengaruhi oleh tindakan sistem.

Agen AI Lanjutan: Auto-GPT, BabyAGI dan Lainnya

AutoGPT dan AgentGPT

AutoGPT, sebuah anak perusahaan yangilis di GitHub pada Maret 2023, adalah aplikasi Python yang sangat cerdas yang memanfaatkan kekuatan GPT, model generatif transformatif OpenAI. Apa yang membedakan Auto-GPT dari pendahulunya adalah otonominya -ancang untuk melakukan tugas dengan bimbingan manusia minimal dan memiliki kemampuan unik untuk memulai prompt secara mandiri. Pengguna hanya perlu mendefinisikan tujuan utama, dan Auto-GPT menciptakan prompt yang diperlukan untuk mencapai tujuan tersebut, membuatnya menjadi lompatan revolusioner menuju kecerdasan umum buatan (AGI) yang sebenarnya.

Dengan fitur yang meliputi koneksi internet, manajemen memori, dan kemampuan penyimpanan file menggunakan GPT-3.5, alat ini sangat terampil dalam menangani spektrum tugas yang luas, dari tugas konvensional seperti penyusunan email hingga tugas yang rumit yang biasanya memerlukan keterlibatan manusia yang jauh lebih banyak.

Di sisi lain, AgentGPT, juga dibangun di kerangka GPT, adalah antarmuka pengguna yang tidak memerlukan keahlian coding ekstensif untuk pengaturan dan penggunaan. AgentGPT memungkinkan pengguna untuk mendefinisikan tujuan AI, yang kemudian dipecah menjadi tugas yang dapat dikelola.

Antarmuka Agen GPT

Lebih lanjut, AgentGPT menonjol karena fleksibilitasnya. Ini tidak terbatas pada pembuatan chatbot. Platform ini memperluas kemampuannya untuk membuat aplikasi yang beragam seperti bot Discord dan bahkan terintegrasi dengan lancar dengan Auto-GPT. Pendekatan ini memastikan bahwa bahkan mereka yang tidak memiliki latar belakang coding yang luas dapat melakukan tugas seperti coding otonom penuh, generasi teks, terjemahan bahasa, dan pemecahan masalah.

LangChain adalah kerangka kerja yang menghubungkan Model Bahasa Besar (LLM) dengan berbagai alat dan menggunakan agen, sering kali dipersepsikan sebagai ‘Bot’, untuk menentukan dan menjalankan tugas tertentu dengan memilih alat yang tepat. Agen-agen ini terintegrasi dengan lancar dengan sumber daya eksternal, sementara basis data vektor di LangChain menyimpan data tidak terstruktur, memfasilitasi pengambilan informasi yang cepat untuk LLM.

BabyAGI

Lalu, ada BabyAGI, agen yang sederhana namun kuat. Untuk memahami kemampuan BabyAGI, bayangkan seorang manajer proyek digital yang secara otonom menciptakan, mengatur, dan menjalankan tugas dengan fokus tajam pada tujuan yang diberikan. Sementara sebagian besar platform AI didorong oleh pengetahuan pra-terlatih, BabyAGI menonjol karena kemampuannya untuk beradaptasi dan belajar dari pengalaman. Ini memiliki kemampuan yang mendalam untuk membedakan umpan balik dan, seperti manusia, memutuskan berdasarkan trial dan error.

Yang paling mencolok, kekuatan dasar BabyAGI bukan hanya adaptabilitasnya tetapi juga kemampuannya untuk menjalankan kode untuk tujuan tertentu. Ini bersinar dalam domain yang kompleks, seperti perdagangan cryptocurrency, robotika, dan mengemudi otonom, membuatnya menjadi alat yang serbaguna dalam berbagai aplikasi.

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.