Connect with us

Trí tuệ nhân tạo

Truy xuất Địa chỉ Email Thực tế từ Mô hình Ngôn ngữ Tự nhiên Được Đào tạo Trước

mm

Nghiên cứu mới từ Mỹ chỉ ra rằng các mô hình ngôn ngữ được đào tạo trước (PLMs) như GPT-3 có thể được truy vấn thành công để lấy địa chỉ email thực tế đã được bao gồm trong lượng dữ liệu khổng lồ được sử dụng để đào tạo chúng.

Mặc dù hiện tại khó có thể lấy được địa chỉ email thực sự bằng cách truy vấn mô hình ngôn ngữ về người mà địa chỉ email liên quan, nghiên cứu cho thấy rằng mô hình ngôn ngữ càng lớn, càng dễ thực hiện loại exfiltration này; và càng có thông tin và thông minh trong truy vấn, càng dễ lấy được địa chỉ email hoạt động.

Bài báo tuyên bố:

‘Kết quả chứng minh rằng PLMs thực sự ghi nhớ một số lượng lớn địa chỉ email; tuy nhiên, chúng không hiểu rõ mối quan hệ giữa tên và địa chỉ email, ví dụ như địa chỉ email thuộc về ai. Do đó, với ngữ cảnh của địa chỉ email, PLMs có thể phục hồi một số lượng địa chỉ email đáng kể, trong khi chỉ một số ít địa chỉ email được dự đoán chính xác bằng cách truy vấn với tên.’

Để kiểm tra lý thuyết, các tác giả đã đào tạo ba PLMs với kích thước và tham số tăng dần, và truy vấn chúng theo một tập hợp các mẫu và phương pháp mà một kẻ tấn công có thể sử dụng.

Bài báo cung cấp ba thông tin chính về rủi ro cho phép thông tin cá nhân thực tế được bao gồm trong tập dữ liệu đào tạo khổng lồ mà các PLMs lớn phụ thuộc.

Thứ nhất, rằng các mẫu văn bản dài (trong truy vấn) tăng khả năng lấy thông tin riêng tư về một cá nhân chỉ bằng cách đặt tên cho cá nhân đó. Thứ hai, rằng kẻ tấn công có thể tăng cường phương pháp của họ với kiến thức hiện có về mục tiêu của họ, và càng có kiến thức trước về mục tiêu, càng có khả năng họ sẽ có thể lấy được dữ liệu đã ghi nhớ như địa chỉ email.

Thứ ba, các tác giả cho rằng các mô hình NLP lớn hơn và mạnh mẽ hơn có thể cho phép kẻ tấn công lấy được nhiều thông tin hơn, giảm thiểu khía cạnh “bảo mật bằng sự mờ hồ” của các PLMs hiện tại, khi các mô hình càng lớn và phức tạp hơn được đào tạo bởi các thực thể như FAANG.

Cuối cùng, bài báo kết luận rằng thông tin cá nhân có thể được giữ lại và bị rò rỉ thông qua quá trình ghi nhớ, nơi một mô hình chỉ部分 “tiêu hóa” dữ liệu đào tạo, để nó có thể sử dụng thông tin không bị phá vỡ đó như dữ liệu “thực tế” trong phản hồi với truy vấn.

Các tác giả kết luận*:

‘Từ kết quả của việc thiết lập ngữ cảnh, chúng tôi phát hiện ra rằng mô hình GPT-Neo lớn nhất có thể phục hồi 8,80% địa chỉ email chính xác thông qua ghi nhớ.

‘Mặc dù thiết lập này không nguy hiểm như những thiết lập khác vì nó基本上 không thể cho người dùng biết ngữ cảnh nếu tập dữ liệu không công khai, địa chỉ email vẫn có thể được tạo ra một cách tình cờ, và mối đe dọa không thể bị bỏ qua.’

Mặc dù nghiên cứu chọn địa chỉ email làm ví dụ về thông tin cá nhân có thể dễ bị tổn thương, bài báo nhấn mạnh nghiên cứu rộng rãi về việc này liên quan đến lấy dữ liệu y tế của bệnh nhân, và coi các thí nghiệm của họ là một minh họa nguyên tắc, chứ không phải là một điểm nổi bật cụ thể về sự dễ bị tổn thương của địa chỉ email trong ngữ cảnh này.

Bài báo này có tiêu đề Liệu Các Mô hình Ngôn ngữ Lớn Được Đào tạo Trước Có Đang Rò rỉ Thông tin Cá nhân Của Bạn?, và được viết bởi ba nhà nghiên cứu tại Đại học Illinois tại Urbana-Champaign.

Ghi nhớ và Liên kết

Công việc tập trung vào mức độ mà thông tin được ghi nhớ được liên kết. Một mô hình NLP được đào tạo không thể hoàn toàn trừu tượng hóa thông tin mà nó được đào tạo, hoặc nó sẽ không thể duy trì một lập luận hợp lý, hoặc triệu hồi bất kỳ dữ liệu thực tế nào.

Câu hỏi lớn là liệu thông tin được ghi nhớ có thể được lấy ra bằng cách triệu hồi các loại thông tin khác, chẳng hạn như một thực thể được đặt tên, như một người. Trong trường hợp như vậy, một mô hình NLP được đào tạo trên dữ liệu không công khai và đặc quyền có thể giữ dữ liệu bệnh viện về Elon Musk, chẳng hạn như hồ sơ bệnh nhân, tên và địa chỉ email.

Trong kịch bản tồi tệ nhất, việc truy vấn cơ sở dữ liệu như vậy với lời nhắc ‘Địa chỉ email của Elon Musk là gì?’ hoặc ‘Lịch sử bệnh của Elon Musk là gì?’ sẽ cho ra những điểm dữ liệu đó.

Trên thực tế, điều này hầu như không bao giờ xảy ra, vì một số lý do. Ví dụ, nếu một ghi nhớ được bảo vệ của một sự kiện (chẳng hạn như một địa chỉ email) đại diện cho một đơn vị rời rạc, đơn vị rời rạc tiếp theo sẽ không phải là một bước nhảy đơn giản lên một lớp thông tin cao hơn (tức là về Elon Musk), mà có thể là một bước nhảy lớn hơn không liên quan đến bất kỳ người hoặc điểm dữ liệu cụ thể nào.

Ngoài ra, mặc dù lý do cho sự liên kết không phải là tùy ý, nhưng cũng không phải là tuyến tính; sự liên kết có thể xảy ra dựa trên trọng số được đào tạo với các mục tiêu mất mát khác nhau so với việc thu hồi thông tin phân cấp đơn giản (chẳng hạn như tạo ra cuộc trò chuyện trừu tượng hợp lý), hoặc theo cách được hướng dẫn (hoặc thậm chí cấm) bởi các kiến trúc sư của hệ thống NLP.

Thử nghiệm PLMs

Các tác giả đã thử nghiệm lý thuyết của họ trên ba phiên bản của mô hình ngôn ngữ nhân quả GPT-Neo được đào tạo trên tập dữ liệu Pile với 125 triệu, 1,3 tỷ và 2,7 tỷ tham số.

Pile là một tập hợp của các tập dữ liệu công khai, bao gồm Cơ sở dữ liệu Enron của Đại học California, Berkeley, bao gồm thông tin mạng xã hội dựa trên trao đổi email. Vì Enron tuân theo một quy ước tên đầu + tên cuối + miền tiêu chuẩn (tức là tên_đầu.tên_cuố[email protected]), các địa chỉ email như vậy đã được lọc ra, vì học máy không cần thiết để đoán một mẫu dễ đoán như vậy.

Các nhà nghiên cứu cũng lọc ra các cặp tên / email có ít hơn ba token, và sau khi xử lý trước tổng thể, họ đã đến 3238 cặp tên / email, được sử dụng trong các thí nghiệm tiếp theo.

Trong thiết lập ngữ cảnh, các nhà nghiên cứu đã sử dụng 50, 100 hoặc 200 token trước địa chỉ email mục tiêu làm ngữ cảnh để lấy địa chỉ với lời nhắc.

Trong thiết lập không có shot, bốn lời nhắc đã được tạo thủ công, hai lời nhắc cuối cùng dựa trên quy ước tiêu đề email chuẩn, chẳng hạn như —Original Message—\nFrom: {name0} [mailto: {email0}].

Mẫu lời nhắc không có shot. Nguồn: https://arxiv.org/pdf/2205.12628.pdf

Mẫu lời nhắc không có shot. Nguồn: https://arxiv.org/pdf/2205.12628.pdf

Tiếp theo, một thiết lập có shot đã được xem xét – một kịch bản trong đó kẻ tấn công có một số kiến thức trước có thể giúp họ tạo ra lời nhắc sẽ lấy thông tin mong muốn. Trong lời nhắc được tạo, các nhà nghiên cứu xem xét liệu miền mục tiêu có được biết hay không.

Các lần lặp lại của thiết lập có shot.

Các lần lặp lại của thiết lập có shot.

Cuối cùng, phương pháp dựa trên quy tắc sử dụng 28 biến thể có thể xảy ra về các mẫu tiêu chuẩn cho sử dụng tên trong địa chỉ email để cố gắng lấy lại địa chỉ email mục tiêu. Điều này đòi hỏi một số lượng lớn các truy vấn để bao gồm tất cả các phép biến thể có thể.

Mẫu dựa trên quy tắc được sử dụng trong các thử nghiệm.

Mẫu dựa trên quy tắc được sử dụng trong các thử nghiệm.

Kết quả

Đối với nhiệm vụ dự đoán với ngữ cảnh, GPT-Neo thành công trong việc dự đoán tới 8,80% địa chỉ email chính xác, bao gồm cả địa chỉ không tuân theo các mẫu tiêu chuẩn.

Kết quả của nhiệm vụ dự đoán với ngữ cảnh. Cột đầu tiên chi tiết số token trước địa chỉ email.

Kết quả của nhiệm vụ dự đoán với ngữ cảnh. Cột đầu tiên chi tiết số token trước địa chỉ email.

Đối với nhiệm vụ thiết lập không có shot, PLM chỉ có thể dự đoán đúng một số nhỏ địa chỉ email, chủ yếu tuân theo các mẫu tiêu chuẩn được đặt ra bởi các nhà nghiên cứu (xem hình ảnh trước).

Kết quả của thiết lập không có shot nơi miền không được biết.

Kết quả của thiết lập không có shot nơi miền không được biết.

Các tác giả lưu ý với sự quan tâm rằng thiết lập 0-shot (D) đáng chú ý vượt trội so với các thiết lập khác, có vẻ như là do tiền tố dài hơn.

‘Điều này [chỉ ra] rằng PLMs đang thực hiện những dự đoán này chủ yếu dựa trên ghi nhớ của các chuỗi – nếu chúng đang thực hiện dự đoán dựa trên liên kết, chúng nên hoạt động tương tự. Lý do tại sao 0-shot (D) vượt trội so với 0-shot (C) là vì ngữ cảnh dài hơn có thể khám phá ra nhiều [ghi nhớ] hơn’

Mô hình Lớn hơn, Rủi ro Cao hơn

Về khả năng của các phương pháp này để lấy thông tin cá nhân từ các mô hình được đào tạo, các tác giả quan sát:

‘Đối với tất cả các thiết lập miền đã biết, miền không được biết và ngữ cảnh, có một sự cải thiện đáng kể về độ chính xác khi chúng tôi thay đổi từ mô hình 125M sang mô hình 1,3B. Và trong hầu hết các trường hợp, khi thay đổi từ mô hình 1,3B sang mô hình 2,7B, cũng có một sự tăng lên về độ chính xác dự đoán.’

Các nhà nghiên cứu đưa ra hai giải thích có thể về lý do tại sao điều này xảy ra. Thứ nhất, các mô hình có tham số cao hơn đơn giản là có thể ghi nhớ một lượng lớn dữ liệu đào tạo hơn. Thứ hai, các mô hình lớn hơn là tinh vi hơn và hiểu được lời nhắc được tạo ra tốt hơn, và do đó có thể ‘kết nối’ thông tin khác nhau về một người.

Họ lưu ý rằng tại trạng thái hiện tại của nghệ thuật, thông tin cá nhân ‘đ相 đối an toàn’ khỏi các cuộc tấn công như vậy.

Làm biện pháp khắc phục chống lại vector tấn công này, trước những mô hình mới đang phát triển một cách nhất quán về kích thước và phạm vi, các tác giả khuyên rằng kiến trúc nên được xử lý trước một cách nghiêm ngặt để lọc ra thông tin cá nhân; để xem xét đào tạo với độ riêng tư gradient descent; và bao gồm các bộ lọc trong bất kỳ môi trường xử lý sau, chẳng hạn như một API (ví dụ, API DALL-E 2 của OpenAI có một số lượng lớn các bộ lọc, ngoài việc kiểm duyệt lời nhắc của con người).

Họ cũng khuyên không nên sử dụng địa chỉ email tuân theo các mẫu tiêu chuẩn và có thể đoán được, mặc dù lời khuyên này đã là chuẩn mực trong an ninh mạng.

 

* Thay thế của tôi cho các chú thích trong dòng của tác giả bằng các liên kết.

Được xuất bản lần đầu tiên vào ngày 26 tháng 5 năm 2022.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]