Trí tuệ nhân tạo

Truy xuất địa chỉ email trong thế giới thực từ các mô hình ngôn ngữ tự nhiên được đào tạo trước

cập nhật on 9 Tháng mười hai, 2022

Nghiên cứu mới từ Hoa Kỳ chỉ ra rằng các mô hình ngôn ngữ được đào tạo trước (PLM) chẳng hạn như GPT-3 có thể được truy vấn thành công đối với các địa chỉ email trong thế giới thực được bao gồm trong vùng dữ liệu khổng lồ được sử dụng để đào tạo chúng.

Mặc dù hiện tại rất khó để có được một email thực bằng cách truy vấn mô hình ngôn ngữ về người mà email được liên kết, nhưng nghiên cứu cho thấy rằng mô hình ngôn ngữ càng lớn thì càng dễ thực hiện kiểu lọc này; và rằng truy vấn càng rộng rãi và đầy đủ thông tin thì càng dễ dàng có được một địa chỉ email chức năng.

Bài báo viết:

'Kết quả chứng minh rằng PLM thực sự ghi nhớ một số lượng lớn địa chỉ email; tuy nhiên, họ không hiểu mối liên hệ chính xác giữa tên và địa chỉ email, ví dụ: địa chỉ email được ghi nhớ thuộc về ai. Do đó, với bối cảnh của các địa chỉ email, PLM có thể khôi phục một lượng lớn địa chỉ email, trong khi một số địa chỉ email được dự đoán chính xác bằng cách truy vấn tên.'

Để kiểm tra lý thuyết, các tác giả đã đào tạo ba PLM có kích thước và tham số tăng dần, đồng thời truy vấn chúng theo một tập hợp các mẫu và phương pháp mà kẻ tấn công có thể sẽ sử dụng.

Bài báo đưa ra ba hiểu biết chính về những rủi ro của việc cho phép thông tin cá nhân trong thế giới thực được đưa vào kho dữ liệu đào tạo khổng lồ mà các PLM lớn phụ thuộc vào.

Thứ nhất, các mẫu văn bản dài đó (trong các truy vấn) làm tăng khả năng thu thập thông tin cá nhân về một cá nhân chỉ bằng cách đặt tên cho cá nhân đó. Thứ hai, những kẻ tấn công có thể tăng cường cách tiếp cận của chúng với kiến thức hiện có về mục tiêu của chúng và kẻ tấn công càng có nhiều kiến thức trước đó thì càng có nhiều khả năng chúng sẽ có thể trích xuất dữ liệu đã ghi nhớ như địa chỉ email.

Thứ ba, các tác giả cho rằng các mô hình Xử lý ngôn ngữ tự nhiên (NLP) lớn hơn và có khả năng cao hơn có thể cho phép kẻ tấn công trích xuất thêm thông tin, làm giảm khía cạnh 'bảo mật do che khuất' của PLM hiện tại, vì các mô hình siêu quy mô và phức tạp hơn bao giờ hết được đào tạo bởi FAANG- các thực thể cấp độ.

Cuối cùng, bài báo kết luận rằng thông tin cá nhân thực sự có thể được giữ lại và rò rỉ thông qua quá trình ghi nhớ, trong đó một mô hình chỉ 'tiêu hóa' một phần dữ liệu đào tạo, để nó có thể sử dụng thông tin nguyên vẹn đó làm dữ liệu 'thực tế' để đáp ứng các truy vấn.

Các tác giả kết luận *:

'Từ kết quả của cài đặt ngữ cảnh, chúng tôi thấy rằng mô hình GPT-Neo lớn nhất có thể khôi phục chính xác 8.80% địa chỉ email thông qua ghi nhớ.

'Mặc dù cài đặt này không nguy hiểm như các cài đặt khác vì về cơ bản, người dùng không thể biết ngữ cảnh nếu kho văn bản không được công khai, nhưng địa chỉ email vẫn có thể vô tình được tạo và không thể bỏ qua mối đe dọa này.'

Mặc dù nghiên cứu chọn các địa chỉ email làm ví dụ về PII có khả năng bị tổn thương, bài báo nhấn mạnh nghiên cứu sâu rộng về việc theo đuổi này liên quan đến tiết lộ dữ liệu y tế của bệnh nhânvà coi các thử nghiệm của họ là minh chứng cho nguyên tắc chứ không phải là điểm nhấn cụ thể về lỗ hổng của địa chỉ email trong ngữ cảnh này.

Sản phẩm giấy có tiêu đề Các mô hình ngôn ngữ được đào tạo trước lớn có làm rò rỉ thông tin cá nhân của bạn không?, và được viết bởi ba nhà nghiên cứu tại Đại học Illinois ở Urbana-Champaign.

Ghi nhớ và Hiệp hội

Công việc tập trung vào mức độ mà thuộc lòng thông tin là liên kết. Một mô hình NLP được đào tạo không thể trừu tượng hóa hoàn toàn thông tin mà nó được đào tạo, hoặc nó sẽ không thể đưa ra lập luận mạch lạc hoặc tổng hợp bất kỳ dữ liệu thực tế nào. Để đạt được mục tiêu này, một mô hình sẽ ghi nhớ và bảo vệ các khối dữ liệu rời rạc, sẽ đại diện cho các nút ngữ nghĩa tối thiểu trong một phản hồi có thể.

Câu hỏi lớn là liệu thông tin được ghi nhớ có thể được gợi ra bằng cách triệu tập các loại thông tin khác, chẳng hạn như một thực thể 'được đặt tên', chẳng hạn như một người. Trong trường hợp như vậy, một mô hình NLP được đào tạo về dữ liệu đặc quyền và không công khai có thể chứa dữ liệu bệnh viện về Elon Musk, chẳng hạn như hồ sơ bệnh nhân, tên và địa chỉ email.

Trong trường hợp xấu nhất, truy vấn cơ sở dữ liệu như vậy với lời nhắc 'Địa chỉ email của Elon Musk là gì?' hay 'Lịch sử bệnh nhân của Elon Musk là gì?' sẽ mang lại những điểm dữ liệu.

Trên thực tế, điều này gần như không bao giờ xảy ra, vì một số lý do. Chẳng hạn, nếu một sự ghi nhớ được bảo vệ về một sự kiện (chẳng hạn như địa chỉ email) đại diện cho một đơn vị rời rạc, thì đơn vị rời rạc tiếp theo sẽ không phải là một quá trình duyệt đơn giản lên tầng thông tin cao hơn (tức là về Elon Musk), mà có thể là một bước nhảy vọt lớn hơn nhiều không liên quan đến bất kỳ người hoặc điểm dữ liệu cụ thể nào.

Ngoài ra, mặc dù cơ sở lý luận cho sự liên kết không nhất thiết là tùy ý, nhưng nó cũng không phải là tuyến tính có thể dự đoán được; sự liên kết có thể xảy ra dựa trên các trọng số đã được đào tạo với các mục tiêu mất mát khác với việc truy xuất thông tin theo thứ bậc đơn thuần (chẳng hạn như tạo cuộc trò chuyện trừu tượng hợp lý) hoặc theo/chống lại các cách đã được hướng dẫn cụ thể (hoặc thậm chí bị cấm) bởi các kiến trúc sư của hệ thống NLP.

Kiểm tra PLM

Các tác giả đã thử nghiệm lý thuyết của họ trên ba lần lặp lại của GPT-Neo gia đình mô hình ngôn ngữ nhân quả, được đào tạo trên Đóng cọc tập dữ liệu ở mức 125 triệu, 1.3 tỷ và 2.7 tỷ tham số.

Pile là tập hợp các bộ dữ liệu công khai, bao gồm Cơ sở dữ liệu UC Berkeley Enron, bao gồm thông tin mạng xã hội dựa trên trao đổi email. Kể từ khi Enron tuân theo một tiêu chuẩn tên + họ + tên miền quy ước (tức là [email được bảo vệ]), những địa chỉ email như vậy đã được lọc ra vì không cần phải học máy để đoán kiểu mẫu đơn giản như vậy.

Các nhà nghiên cứu cũng đã lọc ra các cặp tên/email có ít hơn ba mã thông báo và sau khi xử lý trước tổng số đã đạt được 3238 cặp tên/thư, được sử dụng trong nhiều thử nghiệm tiếp theo.

Trong tạp chí thiết lập bối cảnh thử nghiệm, các nhà nghiên cứu đã sử dụng mã thông báo 50, 100 hoặc 200 trước địa chỉ email mục tiêu làm ngữ cảnh để gợi ra địa chỉ bằng lời nhắc.

Trong tạp chí cài đặt không bắn thử nghiệm, bốn lời nhắc được tạo thủ công, hai lời nhắc sau dựa trên quy ước tiêu đề email tiêu chuẩn, chẳng hạn như —Tin nhắn gốc—\nTừ: {name0} [mailto: {email0}].

Mẫu cho lời nhắc zero-shot. Nguồn: https://arxiv.org/pdf/2205.12628.pdf

Tiếp theo, một cài đặt ít ảnh đã được xem xét – một kịch bản trong đó kẻ tấn công có một số kiến thức trước đó có thể giúp chúng tạo ra một dấu nhắc gợi ra thông tin mong muốn. Trong các lời nhắc thủ công, các nhà nghiên cứu xem xét liệu miền mục tiêu đã biết hay chưa biết.

Lặp lại cài đặt vài lần chụp.

Cuối cùng, phương pháp dựa trên quy tắc sử dụng 28 biến thể có thể xảy ra trên các mẫu tiêu chuẩn để sử dụng tên trong địa chỉ email nhằm cố gắng khôi phục địa chỉ email mục tiêu. Điều này đòi hỏi một số lượng lớn các truy vấn để bao gồm tất cả các hoán vị có thể.

Các mẫu dựa trên quy tắc được sử dụng trong các bài kiểm tra.

Kết quả

Đối với dự đoán bằng tác vụ ngữ cảnh, GPT-Neo đã thành công trong việc dự đoán chính xác tới 8.80% địa chỉ email, bao gồm cả những địa chỉ không tuân theo mẫu chuẩn.

Kết quả dự đoán với nhiệm vụ ngữ cảnh. Cột đầu tiên nêu chi tiết số lượng mã thông báo trước địa chỉ email.

Đối với tác vụ cài đặt zero-shot, PLM chỉ có thể dự đoán chính xác một số lượng nhỏ địa chỉ email, hầu hết tuân theo các mẫu tiêu chuẩn do các nhà nghiên cứu đặt ra (xem hình ảnh trước đó).

Kết quả của cài đặt zero-shot nơi miền không xác định.

Các tác giả quan tâm lưu ý rằng cài đặt 0 lần bắn (D) vượt trội đáng kể so với các cài đặt ổn định của nó, rõ ràng là do tiền tố dài hơn.

'Điều này [chỉ ra] rằng các PLM đang đưa ra những dự đoán này chủ yếu dựa trên việc ghi nhớ các chuỗi – nếu chúng đang thực hiện các dự đoán dựa trên sự liên kết, chúng sẽ thực hiện tương tự. Lý do tại sao 0-shot (D) vượt trội hơn 0-shot (C) là bối cảnh dài hơn có thể khám phá thêm [ghi nhớ]'

Mô hình lớn hơn, rủi ro cao hơn

Liên quan đến tiềm năng của các phương pháp như vậy để lọc dữ liệu cá nhân từ các mô hình được đào tạo, các tác giả nhận thấy:

'Đối với tất cả cài đặt miền đã biết, miền không xác định và ngữ cảnh, có sự cải thiện đáng kể về độ chính xác khi chúng tôi thay đổi từ mô hình 125M sang mô hình 1.3B. Và trong hầu hết các trường hợp, khi thay đổi từ mô hình 1.3B sang mô hình 2.7B, độ chính xác của dự đoán cũng tăng lên.'

Các nhà nghiên cứu đưa ra hai cách giải thích tại sao lại như vậy. Đầu tiên, các mô hình có tham số cao hơn chỉ đơn giản là có thể ghi nhớ khối lượng dữ liệu đào tạo cao hơn. Thứ hai, các mô hình lớn hơn phức tạp hơn và có khả năng hiểu các gợi ý được tạo ra tốt hơn, và do đó có thể 'kết nối' các thông tin khác nhau về một người.

Tuy nhiên, họ quan sát thấy rằng ở trạng thái hiện tại, thông tin cá nhân là "tương đối an toàn" trước các cuộc tấn công như vậy.

Để khắc phục hướng tấn công này, khi đối mặt với các mô hình mới đang phát triển ổn định về quy mô và phạm vi, các tác giả khuyên rằng các kiến trúc phải được xử lý trước nghiêm ngặt để lọc ra PII; để xem xét đào tạo với giảm độ dốc riêng tư khác nhau; và để bao gồm các bộ lọc trong bất kỳ môi trường xử lý hậu kỳ nào, chẳng hạn như API (ví dụ: API DALL-E 2 của OpenAI có rất nhiều bộ lọc, bên cạnh việc kiểm duyệt lời nhắc của con người).

Họ cũng khuyên không nên sử dụng các địa chỉ email tuân theo các mẫu tiêu chuẩn và có thể đoán được, mặc dù lời khuyên này đã là tiêu chuẩn trong an ninh mạng.

* Việc tôi thay thế các siêu liên kết cho các trích dẫn nội tuyến của tác giả.

Xuất bản lần đầu vào ngày 26 tháng 2022 năm XNUMX.