Terhubung dengan kami

Etika

Peneliti MIT Mengembangkan Model AI Berbasis Keingintahuan untuk Meningkatkan Pengujian Keamanan Chatbot

mm

Dalam beberapa tahun terakhir, model bahasa besar (LLM) dan Obrolan AI telah menjadi sangat lazim, mengubah cara kita berinteraksi dengan teknologi. Sistem canggih ini dapat menghasilkan respons mirip manusia, membantu berbagai tugas, dan memberikan wawasan berharga.

Namun, seiring dengan semakin canggihnya model ini, kekhawatiran mengenai keamanan dan potensi menghasilkan konten berbahaya semakin mengemuka. Untuk memastikan penerapan chatbot AI yang bertanggung jawab, pengujian menyeluruh dan tindakan pengamanan sangat penting.

Keterbatasan Metode Pengujian Keamanan Chatbot Saat Ini

Saat ini, metode utama untuk menguji keamanan chatbot AI adalah proses yang disebut tim merah. Hal ini melibatkan penguji manusia yang membuat perintah yang dirancang untuk memperoleh respons tidak aman atau beracun dari chatbot. Dengan memaparkan model pada berbagai masukan yang berpotensi bermasalah, pengembang bertujuan untuk mengidentifikasi dan mengatasi setiap kerentanan atau perilaku yang tidak diinginkan. Namun, pendekatan berbasis manusia ini mempunyai keterbatasan.

Mengingat besarnya kemungkinan masukan pengguna, hampir tidak mungkin bagi penguji manusia untuk mencakup semua skenario potensial. Bahkan dengan pengujian ekstensif, mungkin ada kesenjangan dalam perintah yang digunakan, sehingga chatbot rentan menghasilkan respons yang tidak aman ketika dihadapkan pada masukan baru atau tidak terduga. Selain itu, sifat manual dari tim merah menjadikannya proses yang memakan waktu dan sumber daya yang intensif, terutama karena model bahasa terus berkembang dalam ukuran dan kompleksitas.

Untuk mengatasi keterbatasan ini, para peneliti telah beralih ke teknik otomatisasi dan pembelajaran mesin untuk meningkatkan efisiensi dan efektivitas pengujian keamanan chatbot. Dengan memanfaatkan kekuatan AI itu sendiri, mereka bertujuan untuk mengembangkan metode yang lebih komprehensif dan terukur untuk mengidentifikasi dan memitigasi potensi risiko yang terkait dengan model bahasa besar.

Pendekatan Pembelajaran Mesin Berbasis Keingintahuan pada Tim Merah

Para peneliti dari Improbable AI Lab di MIT dan MIT-IBM Watson AI Lab mengembangkan sebuah pendekatan inovatif untuk meningkatkan proses tim merah menggunakan pembelajaran mesin. Metode mereka melibatkan pelatihan model bahasa besar tim merah yang terpisah untuk secara otomatis menghasilkan beragam perintah yang dapat memicu lebih banyak respons yang tidak diinginkan dari chatbot yang sedang diuji.

Kunci dari pendekatan ini terletak pada penanaman rasa keingintahuan pada model tim merah. Dengan mendorong model untuk mengeksplorasi petunjuk baru dan fokus pada menghasilkan masukan yang menimbulkan respons beracun, para peneliti bertujuan untuk mengungkap spektrum potensi kerentanan yang lebih luas. Eksplorasi yang didorong oleh rasa ingin tahu ini dicapai melalui kombinasi teknik pembelajaran penguatan dan sinyal penghargaan yang dimodifikasi.

Model yang didorong oleh rasa ingin tahu menggabungkan bonus entropi, yang mendorong model tim merah untuk menghasilkan permintaan yang lebih acak dan beragam. Selain itu, penghargaan baru diperkenalkan untuk memberi insentif pada model agar menciptakan perintah yang berbeda secara semantik dan leksikal dari yang dihasilkan sebelumnya. Dengan memprioritaskan kebaruan dan keragaman, model ini didorong untuk mengeksplorasi wilayah yang belum dipetakan dan mengungkap risiko tersembunyi.

Untuk memastikan petunjuk yang dihasilkan tetap koheren dan naturalistik, para peneliti juga menyertakan bonus bahasa dalam tujuan pelatihan. Bonus ini membantu mencegah model tim merah menghasilkan teks yang tidak masuk akal atau tidak relevan yang dapat mengelabui pengklasifikasi toksisitas agar memberikan skor tinggi.

Pendekatan yang didorong oleh rasa ingin tahu telah menunjukkan keberhasilan luar biasa dalam mengungguli penguji manusia dan metode otomatis lainnya. Hal ini menghasilkan lebih banyak variasi permintaan berbeda dan menimbulkan respons yang semakin beracun dari chatbot yang diuji. Khususnya, metode ini bahkan mampu mengungkap kerentanan pada chatbot yang telah menjalani pengamanan ekstensif yang dirancang oleh manusia, sehingga menyoroti keefektifannya dalam mengungkap potensi risiko.

Implikasinya terhadap Masa Depan Keamanan AI

Pengembangan tim merah yang didorong oleh rasa ingin tahu menandai langkah maju yang signifikan dalam memastikan keamanan dan keandalan model bahasa besar dan chatbot AI. Ketika model-model ini terus berkembang dan menjadi lebih terintegrasi ke dalam kehidupan kita sehari-hari, sangatlah penting untuk memiliki metode pengujian yang kuat yang dapat mengimbangi perkembangan pesatnya.

Pendekatan yang didorong oleh rasa ingin tahu menawarkan cara yang lebih cepat dan efektif untuk melakukan penjaminan kualitas pada model AI. Dengan mengotomatiskan pembuatan perintah yang beragam dan baru, metode ini dapat secara signifikan mengurangi waktu dan sumber daya yang diperlukan untuk pengujian, sekaligus meningkatkan cakupan potensi kerentanan. Skalabilitas ini sangat berharga dalam lingkungan yang berubah dengan cepat, dimana model mungkin memerlukan pembaruan dan pengujian ulang secara berkala.

Selain itu, pendekatan yang didorong oleh rasa ingin tahu membuka kemungkinan baru untuk menyesuaikan proses pengujian keamanan. Misalnya, dengan menggunakan model bahasa besar sebagai pengklasifikasi toksisitas, pengembang dapat melatih pengklasifikasi tersebut menggunakan dokumen kebijakan khusus perusahaan. Hal ini akan memungkinkan model tim merah menguji kepatuhan chatbot terhadap pedoman organisasi tertentu, memastikan tingkat penyesuaian dan relevansi yang lebih tinggi.

Seiring dengan kemajuan AI, pentingnya kerja sama yang didorong oleh rasa ingin tahu dalam memastikan sistem AI yang lebih aman tidak bisa dilebih-lebihkan. Dengan secara proaktif mengidentifikasi dan mengatasi potensi risiko, pendekatan ini berkontribusi pada pengembangan chatbot AI yang lebih tepercaya dan andal yang dapat diterapkan di berbagai domain.

Alex McFarland adalah jurnalis dan penulis AI yang mengeksplorasi perkembangan terkini dalam kecerdasan buatan. Dia telah berkolaborasi dengan banyak startup dan publikasi AI di seluruh dunia.