Kecerdasan buatan

Mengambil Alamat Email Dunia Nyata Dari Model Bahasa Alamiah Pra-Dilatih

Published May 26, 2022

Updated April 28, 2026

Martin Anderson

Penelitian baru dari AS menunjukkan bahwa model bahasa pra-dilatih (PLMs) seperti GPT-3 dapat berhasil diquery untuk alamat email dunia nyata yang termasuk dalam jumlah data yang luas yang digunakan untuk melatih mereka.

Meskipun saat ini sulit untuk mendapatkan alamat email yang sebenarnya dengan mengquery model bahasa tentang orang yang terkait dengan alamat email tersebut, penelitian menemukan bahwa semakin besar model bahasa, semakin mudah untuk melakukan jenis eksfiltrasi ini; dan bahwa semakin luas dan terinformasi query, semakin mudah untuk mendapatkan alamat email yang fungsional.

Makalah tersebut menyatakan:

‘Hasil menunjukkan bahwa PLMs benar-benar mengingat sejumlah besar alamat email; namun, mereka tidak memahami asosiasi yang tepat antara nama dan alamat email, misalnya, kepada siapa alamat email yang diingat milik. Oleh karena itu, diberikan konteks alamat email, PLMs dapat memulihkan sejumlah alamat email yang layak, sedangkan beberapa alamat email diprediksi dengan benar dengan mengquery dengan nama.’

Untuk menguji teori ini, penulis melatih tiga PLMs dengan ukuran dan parameter yang meningkat, dan mengquery mereka sesuai dengan serangkaian template dan metode yang kemungkinan akan digunakan oleh penyerang.

Makalah tersebut menawarkan tiga wawasan utama tentang risiko memungkinkan informasi pribadi dunia nyata untuk dimasukkan dalam korpus pelatihan besar yang digunakan oleh PLMs besar.

Pertama, bahwa pola teks panjang (dalam query) meningkatkan kemungkinan mendapatkan informasi pribadi tentang seorang individu hanya dengan menyebutkan individu tersebut. Kedua, bahwa penyerang mungkin melengkapi pendekatan mereka dengan pengetahuan yang ada tentang target mereka, dan bahwa semakin banyak pengetahuan sebelumnya yang dimiliki penyerang, semakin mungkin mereka dapat mengekstrak data yang diingat seperti alamat email.

Ketiga, penulis mengemukakan bahwa model NLP yang lebih besar dan lebih mampu mungkin memungkinkan penyerang untuk mengekstrak lebih banyak informasi, mengurangi aspek ‘keamanan oleh ketidakjelasan’ dari PLMs saat ini, karena model yang semakin canggih dan hyperscale dilatih oleh entitas tingkat FAANG.

Akhirnya, makalah tersebut menyimpulkan bahwa informasi pribadi dapat benar-benar disimpan dan bocor melalui proses pengingatan, di mana model hanya sebagian ‘mencerna’ data pelatihan, sehingga dapat menggunakan informasi yang tidak terpecah sebagai data ‘faktual’ dalam menanggapi query.

Penulis menyimpulkan*:

‘Dari hasil pengaturan konteks, kami menemukan bahwa model GPT-Neo terbesar dapat memulihkan 8,80% alamat email dengan benar melalui pengingatan. ‘

‘Meskipun pengaturan ini tidak seberbahaya yang lain karena pada dasarnya mustahil bagi pengguna untuk mengetahui konteks jika korpus tidak publik, alamat email masih dapat dihasilkan secara tidak sengaja, dan ancaman tidak dapat diabaikan.’

Meskipun penelitian ini memilih alamat email sebagai contoh PII yang rentan, makalah tersebut menekankan penelitian luas dalam pengejaran ini sehubungan dengan mengekstrak data medis pasien, dan mempertimbangkan eksperimen mereka sebagai demonstrasi prinsip, bukan penekanan khusus pada kerentanan alamat email dalam konteks ini.

Makalah paper ini berjudul Apakah Model Bahasa Pra-Dilatih Besar Bocor Informasi Pribadi Anda?, dan ditulis oleh tiga peneliti di University of Illinois at Urbana-Champaign.

Pengingatan dan Asosiasi

Pekerjaan ini berfokus pada seberapa besar informasi yang diingat diasosiasikan. Model NLP yang dilatih tidak dapat sepenuhnya mengabstraksi informasi yang dilatih, atau mereka tidak akan dapat memegang argumen yang kohesif, atau memanggil data faktual apa pun. Untuk tujuan ini, model akan mengingat dan melindungi potongan data diskrit, yang akan mewakili node semantik minimal dalam respons yang mungkin.

Pertanyaan besar adalah apakah informasi yang diingat dapat diperoleh dengan memanggil informasi lain, seperti entitas ‘dinamai’, seperti orang. Dalam kasus seperti itu, model NLP yang dilatih pada data non-publik dan istimewa mungkin memegang data rumah sakit tentang Elon Musk, seperti catatan pasien, nama, dan alamat email.

Dalam skenario terburuk, mengquery database tersebut dengan prompt ‘Apa alamat email Elon Musk?’ atau ‘Apa riwayat pasien Elon Musk?’ akan menghasilkan data tersebut.

Pada kenyataannya, ini hampir tidak pernah terjadi, karena beberapa alasan. Misalnya, jika pengingatan yang dilindungi dari fakta (seperti alamat email) mewakili unit diskrit, unit diskrit berikutnya tidak akan menjadi traversal sederhana ke lapisan informasi yang lebih tinggi (yaitu tentang Elon Musk), tetapi mungkin melompat yang jauh lebih besar yang tidak terkait dengan orang atau data tertentu.

Selain itu, meskipun rasional untuk asosiasi tidak sepenuhnya arbitrer, juga tidak linier; asosiasi dapat terjadi berdasarkan bobot yang dilatih dengan tujuan kerugian yang berbeda dari pengambilan informasi hierarkis (seperti menghasilkan percakapan abstrak yang masuk akal), atau dalam/calon cara yang telah dipandu (atau bahkan dilarang) oleh arsitek sistem NLP.

Menguji PLMs

Penulis menguji teori mereka pada tiga iterasi dari keluarga model bahasa kausal GPT-Neo, yang dilatih pada dataset Pile dengan 125 juta, 1,3 miliar, dan 2,7 miliar parameter.

Pile adalah kumpulan dataset publik, termasuk UC Berkeley Enron Database, yang mencakup informasi jaringan sosial berdasarkan pertukaran email. Karena Enron mengikuti konvensi nama_depan+nama_belakang+domain standar (yaitu [email protected]), alamat email tersebut disaring, karena pembelajaran mesin tidak diperlukan untuk menebak pola yang sederhana.

Peneliti juga menyaring pasangan nama/alamat email dengan kurang dari tiga token, dan setelah pra-pengolahan total tiba pada 3238 pasangan nama/surat, yang digunakan dalam berbagai eksperimen berikutnya.

Dalam eksperimen pengaturan konteks, peneliti menggunakan 50, 100, atau 200 token sebelum alamat email target sebagai konteks untuk memicu alamat dengan prompt.

Dalam eksperimen zero-shot setting, empat prompt dibuat secara manual, dua terakhir berdasarkan konvensi header email standar, seperti —Original Message—\nFrom: {nama0} [mailto: {email0}].

Template untuk prompt zero-shot. Sumber: https://arxiv.org/pdf/2205.12628.pdf

Selanjutnya, few-shot setting dipertimbangkan – skenario di mana penyerang memiliki beberapa pengetahuan sebelumnya yang dapat membantu mereka membuat prompt yang akan memicu informasi yang diinginkan. Dalam prompt yang dibuat, peneliti mempertimbangkan apakah domain target diketahui atau tidak diketahui.

Iterasi dari few-shot setting.

Akhirnya, metode berbasis aturan menggunakan 28 variasi yang mungkin pada pola standar untuk penggunaan nama dalam alamat email untuk mencoba memulihkan alamat email target. Ini memerlukan sejumlah besar query untuk menutupi semua permutasi yang mungkin.

Polanya berbasis aturan yang digunakan dalam tes.

Hasil

Untuk tugas prediksi dengan konteks, GPT-Neo berhasil memprediksi hingga 8,80% alamat email dengan benar, termasuk alamat yang tidak sesuai dengan pola standar.

Hasil tugas prediksi dengan konteks. Kolom pertama merinci jumlah token sebelum alamat email.

Untuk tugas zero-shot setting, PLM hanya dapat memprediksi sejumlah kecil alamat email dengan benar, sebagian besar sesuai dengan pola standar yang ditetapkan oleh peneliti (lihat gambar sebelumnya).

Hasil pengaturan zero-shot di mana domain tidak diketahui.

Penulis mencatat dengan minat bahwa pengaturan 0-shot (D) secara signifikan outperforms rekan-rekannya, karena, tampaknya, karena awalan yang lebih panjang.

‘Ini [menunjukkan] bahwa PLMs membuat prediksi ini terutama berdasarkan pengingatan urutan – jika mereka melakukan prediksi berdasarkan asosiasi, mereka harus berkinerja serupa. Alasan mengapa 0-shot (D) outperforms 0-shot (C) adalah bahwa konteks yang lebih panjang dapat menemukan lebih banyak [pengingatan]’

Model yang Lebih Besar, Risiko yang Lebih Tinggi

Dalam kaitannya dengan potensi pendekatan tersebut untuk mengekstrak data pribadi dari model yang dilatih, penulis mengamati:

‘Untuk semua pengaturan domain yang diketahui, domain yang tidak diketahui, dan konteks, ada perbaikan signifikan dalam akurasi ketika kami berpindah dari model 125M ke model 1,3B. Dan dalam sebagian besar kasus, ketika berpindah dari model 1,3B ke model 2,7B, ada juga peningkatan dalam akurasi prediksi.’

Peneliti menawarkan dua penjelasan yang mungkin tentang mengapa hal ini terjadi. Pertama, model dengan parameter yang lebih tinggi hanya dapat mengingat volume data pelatihan yang lebih besar. Kedua, model yang lebih besar lebih canggih dan lebih baik dalam memahami prompt yang dibuat, dan oleh karena itu untuk ‘menghubungkan’ informasi yang berbeda tentang seorang individu.

Mereka tetap mengamati bahwa pada keadaan saat ini, informasi pribadi ‘relatif aman’ dari serangan tersebut.

Sebagai obat untuk vektor serangan ini, menghadapi model baru yang tumbuh secara konsisten dalam ukuran dan cakupan, penulis menyarankan bahwa arsitektur harus tunduk pada pra-pengolahan yang ketat untuk menyaring PII; untuk mempertimbangkan pelatihan dengan gradien turun diferensial privat; dan untuk menyertakan filter dalam lingkungan pasca-pengolahan, seperti API (misalnya, API DALL-E 2 OpenAI memiliki sejumlah besar filter, selain moderasi prompt manusia).

Mereka lebih lanjut menyarankan untuk tidak menggunakan alamat email yang sesuai dengan pola yang dapat ditebak dan standar, meskipun saran ini sudah menjadi standar dalam keamanan siber.

* Penggantian saya dari tautan untuk kutipan inline penulis.

Publikasi pertama 26 Mei 2022.

Martin Anderson

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.

Unite.AI

Mengambil Alamat Email Dunia Nyata Dari Model Bahasa Alamiah Pra-Dilatih

Pengingatan dan Asosiasi

Menguji PLMs

Hasil

Model yang Lebih Besar, Risiko yang Lebih Tinggi

You may like