Kecerdasan buatan

Masalah Kotak Hitam dalam LLM: Tantangan dan Solusi yang Muncul

mm
black box model LLM

Pembelajaran mesin, sebuah subset dari AI, melibatkan tiga komponen: algoritma, data pelatihan, dan model yang dihasilkan. Sebuah algoritma, pada dasarnya sebuah set prosedur, belajar mengidentifikasi pola dari sejumlah besar contoh (data pelatihan). Hasil dari pelatihan ini adalah model pembelajaran mesin. Misalnya, sebuah algoritma yang dilatih dengan gambar anjing akan menghasilkan model yang dapat mengidentifikasi anjing dalam gambar.

Kotak Hitam dalam Pembelajaran Mesin

Dalam pembelajaran mesin, salah satu dari tiga komponen—algoritma, data pelatihan, atau model—dapat menjadi kotak hitam. Sementara algoritma seringkali diketahui secara umum, pengembang mungkin memilih untuk menyembunyikan model atau data pelatihan untuk melindungi kekayaan intelektual. Kekaburan ini membuatnya sulit untuk memahami proses pengambilan keputusan AI.

Sistem kotak hitam AI adalah sistem yang internalnya tidak transparan atau tidak terlihat oleh pengguna. Pengguna dapat memasukkan data dan menerima output, tetapi logika atau kode yang menghasilkan output tetap tersembunyi. Ini adalah karakteristik umum dalam banyak sistem AI, termasuk model generatif lanjutan seperti ChatGPT dan DALL-E 3.

LLM seperti GPT-4 menyajikan tantangan signifikan: internalnya sebagian besar tidak transparan, membuatnya “kotak hitam”. Kekaburan ini tidak hanya merupakan teka-teki teknis; itu menimbulkan kekhawatiran keamanan dan etika nyata. Misalnya, jika kita tidak dapat memahami bagaimana sistem ini mencapai kesimpulan, dapatkah kita mempercayainya dalam bidang kritis seperti diagnosis medis atau penilaian keuangan?

Menggali Teknik LIME dan SHAP

Interpretasi dalam model pembelajaran mesin (ML) dan pembelajaran dalam (DL) membantu kita melihat ke dalam internal yang tidak transparan dari model lanjutan ini. Local Interpretable Model-agnostic Explanations (LIME) dan SHapley Additive exPlanations (SHAP) adalah dua teknik interpretasi yang umum digunakan.

Interpretability

Interpretability

LIME, misalnya, memecahkan kompleksitas dengan membuat model surrogat yang lebih sederhana, lokal, yang mengapproximasi perilaku model asli di sekitar input tertentu. Dengan melakukan ini, LIME membantu memahami bagaimana fitur individu mempengaruhi prediksi model yang kompleks, pada dasarnya memberikan ‘penjelasan lokal’ untuk mengapa model membuat keputusan tertentu. Ini sangat berguna untuk pengguna non-teknis, karena itu menerjemahkan proses pengambilan keputusan yang rumit dari model menjadi istilah yang lebih dapat dipahami.

Model-Agnostic Interpretability of Machine Learning

Model-Agnostic Interpretability of Machine Learning (LIME) Source

SHAP, di sisi lain, mengambil inspirasi dari teori permainan, khususnya konsep nilai Shapley. Ini memberikan nilai ‘kepentingan’ pada setiap fitur, menunjukkan seberapa banyak setiap fitur menyumbang pada perbedaan antara prediksi aktual dan prediksi baseline (prediksi rata-rata di seluruh input). Kelebihan SHAP terletak pada konsistensinya dan kemampuannya untuk memberikan perspektif global – tidak hanya menjelaskan prediksi individu tetapi juga memberikan wawasan ke model secara keseluruhan. Ini sangat berharga dalam model pembelajaran dalam, di mana lapisan yang terhubung dan parameter yang banyak sering membuat proses prediksi tampak seperti perjalanan melalui labirin. SHAP mendemistifikasi ini dengan mengkuantifikasi kontribusi setiap fitur, menawarkan peta yang lebih jelas dari jalur pengambilan keputusan model.

SHAP

SHAP (Source)

Kedua LIME dan SHAP telah muncul sebagai alat penting dalam ranah AI dan ML, mengatasi kebutuhan kritis akan transparansi dan kepercayaan. Ketika kita terus mengintegrasikan AI lebih dalam ke berbagai sektor, kemampuan untuk menafsirkan dan memahami model ini menjadi tidak hanya kebutuhan teknis tetapi persyaratan fundamental untuk pengembangan AI yang etis dan bertanggung jawab. Teknik-teknik ini mewakili langkah signifikan dalam membongkar kompleksitas model ML dan DL, mengubahnya dari ‘kotak hitam’ yang tidak dapat dipahami menjadi sistem yang dapat dipahami, keputusan dan perilakunya dapat dipercaya dan dimanfaatkan secara efektif.

Skala dan Kompleksitas LLM

Skala model ini menambah kompleksitasnya. Ambil GPT-3, misalnya, dengan 175 miliar parameter, dan model yang lebih baru memiliki triliunan. Setiap parameter berinteraksi dalam cara yang rumit dalam jaringan neural, menyumbang kemampuan yang muncul yang tidak dapat diprediksi dengan memeriksa komponen individu saja. Skala dan kompleksitas ini membuatnya hampir mustahil untuk sepenuhnya memahami logika internalnya, mempresentasikan hambatan dalam mendiagnosis bias atau perilaku yang tidak diinginkan dalam model ini.

Tradeoff: Skala vs. Interpretasi

Mengurangi skala LLM dapat meningkatkan interpretasi tetapi dengan biaya kemampuan lanjutannya. Skala adalah yang memungkinkan perilaku yang model yang lebih kecil tidak dapat capai. Ini mempresentasikan tradeoff inheren antara skala, kemampuan, dan interpretasi.

Dampak Masalah Kotak Hitam LLM

1. Pengambilan Keputusan yang Rusak

Kekaburan dalam proses pengambilan keputusan LLM seperti GPT-3 atau BERT dapat menyebabkan bias dan kesalahan yang tidak terdeteksi. Dalam bidang seperti kesehatan atau keadilan, di mana keputusan memiliki konsekuensi jauh, ketidakmampuan untuk memeriksa LLM untuk keabsahan etika dan logika adalah kekhawatiran utama. Misalnya, diagnosis medis LLM yang bergantung pada data yang sudah ketinggalan zaman atau bias dapat membuat rekomendasi yang berbahaya. Demikian pula, LLM dalam proses perekrutan mungkin tidak sengaja memperkuat bias gender. Sifat kotak hitam ini tidak hanya menyembunyikan kelemahan tetapi juga dapat memperkuatnya, memerlukan pendekatan proaktif untuk meningkatkan transparansi.

2. Keterbatasan Adaptasi dalam Konteks yang Beragam

Kurangnya wawasan ke internal LLM membatasi adaptabilitasnya. Misalnya, LLM perekrutan mungkin tidak efektif dalam mengevaluasi kandidat untuk peran yang menghargai keterampilan praktis daripada kualifikasi akademis, karena ketidakmampuannya untuk menyesuaikan kriteria evaluasi. Demikian pula, LLM medis mungkin bergelut dengan diagnosis penyakit langka karena ketidakseimbangan data. Keterbatasan ini menyoroti kebutuhan akan transparansi untuk mengkalibrasi ulang LLM untuk tugas dan konteks tertentu.

3. Bias dan Kesenjangan Pengetahuan

Pengolahan data pelatihan LLM tunduk pada keterbatasan yang diberlakukan oleh algoritma dan arsitektur model. Misalnya, LLM medis mungkin menunjukkan bias demografis jika dilatih pada dataset yang tidak seimbang. Juga, kemampuan LLM dalam topik khusus bisa menyesatkan, menyebabkan output yang salah dengan kepercayaan diri yang berlebihan. Mengatasi bias dan kesenjangan pengetahuan ini memerlukan lebih dari sekadar data tambahan; itu membutuhkan pemeriksaan mekanika pengolahan model.

4. Akuntabilitas Hukum dan Etika

Sifat tidak transparan LLM menciptakan area abu-abu hukum mengenai tanggung jawab atas kerusakan yang disebabkan oleh keputusan mereka. Jika LLM dalam pengaturan medis memberikan saran yang salah yang menyebabkan kerusakan pasien, menentukan akuntabilitas menjadi sulit karena kekaburan model. Ketidakpastian hukum ini mempresentasikan risiko bagi entitas yang menggelar LLM dalam bidang sensitif, menekankan kebutuhan akan tata kelola dan transparansi yang jelas.

5. Masalah Kepercayaan dalam Aplikasi yang Sensitif

Untuk LLM yang digunakan dalam bidang kritis seperti kesehatan dan keuangan, kurangnya transparansi melemahkan kepercayaan mereka. Pengguna dan regulator perlu memastikan bahwa model ini tidak memiliki bias atau membuat keputusan berdasarkan kriteria yang tidak adil. Memverifikasi tidak adanya bias dalam LLM memerlukan pemahaman tentang proses pengambilan keputusan mereka, menekankan pentingnya penjelasan untuk penerapan etis.

6. Risiko dengan Data Pribadi

LLM memerlukan data pelatihan yang luas, yang mungkin termasuk informasi pribadi yang sensitif. Sifat kotak hitam model ini menimbulkan kekhawatiran tentang bagaimana data ini diproses dan digunakan. Misalnya, LLM medis yang dilatih pada catatan pasien menimbulkan pertanyaan tentang privasi dan penggunaan data. Memastikan bahwa data pribadi tidak disalahgunakan atau dieksploitasi memerlukan proses pengolahan data yang transparan dalam model ini.

Solusi yang Muncul untuk Interpretasi

Untuk mengatasi tantangan ini, teknik baru sedang dikembangkan. Ini termasuk metode aproksimasi kontrafaktual (CF). Metode pertama melibatkan meminta LLM untuk mengubah konsep teks tertentu sambil menjaga konsep lain tetap konstan. Pendekatan ini, meskipun efektif, sangat memakan sumber daya pada waktu inferensi.

Pendekatan kedua melibatkan menciptakan ruang embedding khusus yang dipandu oleh LLM selama pelatihan. Ruang ini sejalan dengan grafik kausal dan membantu mengidentifikasi kecocokan yang mengapproximasi CF. Metode ini memerlukan lebih sedikit sumber daya pada waktu uji dan telah terbukti efektif dalam menjelaskan prediksi model, bahkan dalam LLM dengan miliaran parameter.

Pendekatan ini menyoroti pentingnya penjelasan kausal dalam sistem NLP untuk memastikan keamanan dan membangun kepercayaan. Aproksimasi kontrafaktual menyediakan cara untuk membayangkan bagaimana teks tertentu akan berubah jika konsep tertentu dalam proses generatif berbeda, membantu dalam estimasi efek kausal praktis dari konsep tingkat tinggi pada model NLP.

Penyelaman Dalam: Metode Penjelasan dan Kausalitas dalam LLM

Alat Probing dan Fitur Penting

Probing adalah teknik yang digunakan untuk memecahkan apa yang direpresentasikan dalam model internal. Ini dapat dilakukan dengan pengawasan atau tanpa pengawasan dan bertujuan untuk menentukan apakah konsep tertentu dikodekan di tempat tertentu dalam jaringan. Meskipun efektif sampai batas tertentu, probe tidak dapat memberikan penjelasan kausal, seperti yang ditunjukkan oleh Geiger et al. (2021).

Alat fitur penting, bentuk lain dari metode penjelasan, seringkali fokus pada fitur input, meskipun beberapa metode berbasis gradien memperluas ini ke status tersembunyi. Contoh adalah Metode Gradien Terintegrasi, yang menawarkan interpretasi kausal dengan mengeksplorasi input baseline (kontrafaktual, CF). Meskipun utilitasnya, metode ini masih bergelut untuk menghubungkan analisis mereka dengan konsep dunia nyata di luar sifat input sederhana.

Metode Berbasis Intervensi

Metode berbasis intervensi melibatkan modifikasi input atau representasi internal untuk mempelajari efek pada perilaku model. Metode ini dapat menciptakan keadaan kontrafaktual untuk mengestimasi efek kausal, tetapi mereka sering menghasilkan input atau keadaan jaringan yang tidak masuk akal kecuali jika dikontrol dengan baik. Model Proxy Kausal (CPM), terinspirasi oleh konsep S-learner, adalah pendekatan baru dalam ranah ini, meniru perilaku model yang dijelaskan di bawah input kontrafaktual. Namun, kebutuhan akan penjelas yang berbeda untuk setiap model adalah keterbatasan besar.

Mengapproximasi Kontrafaktual

Kontrafaktual secara luas digunakan dalam pembelajaran mesin untuk augmentasi data, melibatkan gangguan pada faktor atau label yang berbeda. Ini dapat dihasilkan melalui penyuntingan manual, penggantian kata kunci heuristik, atau penulisan teks otomatis. Sementara penyuntingan manual akurat, itu juga sangat memakan sumber daya. Metode berbasis kata kunci memiliki keterbatasan, dan pendekatan generatif menawarkan keseimbangan antara kelancaran dan cakupan.

Penjelasan yang Setia

Kesetiaan dalam penjelasan merujuk pada menggambarkan dengan akurat alasan yang mendasari model. Tidak ada definisi kesetiaan yang diterima secara universal, sehingga karakterisasinya melalui berbagai metrik seperti Sensitivitas, Konsistensi, Kesepakatan Fitur Penting, Keandalan, dan Simulabilitas. Sebagian besar metode ini fokus pada penjelasan tingkat fitur dan sering mengacaukan korelasi dengan kausalitas. Tujuan kami adalah memberikan penjelasan konsep tingkat tinggi, memanfaatkan literatur kausalitas untuk mengusulkan kriteria yang intuitif: Order-Kesetiaan.

Kami telah menyelami kompleksitas inheren LLM, memahami sifat ‘kotak hitam’ dan tantangan signifikan yang ditimbulkannya. Dari risiko pengambilan keputusan yang rusak dalam bidang sensitif seperti kesehatan dan keuangan hingga dilema etika yang mengelilingi bias dan keadilan, kebutuhan akan transparansi dalam LLM tidak pernah lebih jelas.

Masa depan LLM dan integrasi mereka ke dalam kehidupan sehari-hari dan proses pengambilan keputusan kritis bergantung pada kemampuan kita untuk membuat model ini tidak hanya lebih maju tetapi juga lebih dapat dipahami dan akuntabel. Pengejaran interpretasi dan penjelasan bukan hanya upaya teknis tetapi aspek fundamental dalam membangun kepercayaan pada sistem AI. Ketika LLM menjadi lebih terintegrasi ke dalam masyarakat, tuntutan akan transparansi akan tumbuh, tidak hanya dari praktisi AI tetapi dari setiap pengguna yang berinteraksi dengan sistem ini.

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah memimpin saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.