Góc của Anderson
Bảo vệ lời nhắc khỏi rò rỉ dữ liệu LLM

Ý kiến Một IBM NeurIPS 2024 thú vị nộp hồ sơ từ cuối năm 2024 đã xuất hiện trở lại trên Arxiv tuần trước. Nó đề xuất một hệ thống có thể tự động can thiệp để bảo vệ người dùng khỏi việc gửi thông tin cá nhân hoặc thông tin nhạy cảm vào tin nhắn khi họ đang trò chuyện với Mô hình ngôn ngữ lớn (LLM) như ChatGPT.

Các ví dụ mô phỏng được sử dụng trong nghiên cứu người dùng để xác định cách mọi người muốn tương tác với dịch vụ can thiệp nhanh chóng. Nguồn: https://arxiv.org/pdf/2502.18509
Các mô hình minh họa ở trên được các nhà nghiên cứu của IBM sử dụng trong một nghiên cứu nhằm kiểm tra khả năng gây trở ngại của người dùng đối với loại 'nhiễu' này.
Mặc dù có rất ít thông tin chi tiết về việc triển khai GUI, chúng ta có thể cho rằng chức năng đó có thể được tích hợp vào plugin trình duyệt giao tiếp với một khuôn khổ LLM 'tường lửa' cục bộ; hoặc một ứng dụng có thể được tạo ra để có thể kết nối trực tiếp vào (ví dụ) API OpenAI, về cơ bản là tái tạo lại ứng dụng có thể tải xuống của OpenAI chương trình độc lập dành cho ChatGPT, nhưng có thêm biện pháp bảo vệ.
Tuy nhiên, bản thân ChatGPT sẽ tự động kiểm duyệt các phản hồi cho những lời nhắc mà nó cho là chứa thông tin quan trọng, chẳng hạn như thông tin chi tiết về ngân hàng:

ChatGPT từ chối trả lời các lời nhắc có chứa thông tin bảo mật quan trọng, chẳng hạn như thông tin chi tiết về ngân hàng (các thông tin chi tiết trong lời nhắc ở trên là hư cấu và không có chức năng). Nguồn: https://chatgpt.com/
Tuy nhiên, ChatGPT có thái độ khoan dung hơn nhiều đối với các loại thông tin cá nhân khác nhau – ngay cả khi việc phổ biến thông tin đó theo bất kỳ cách nào có thể không vì lợi ích tốt nhất của người dùng (trong trường hợp này có lẽ vì nhiều lý do liên quan đến công việc và việc tiết lộ):

Ví dụ trên chỉ là hư cấu, nhưng ChatGPT không ngần ngại tham gia vào cuộc trò chuyện của người dùng về một chủ đề nhạy cảm có thể gây ra rủi ro về danh tiếng hoặc thu nhập (ví dụ trên hoàn toàn là hư cấu).
Trong trường hợp trên, có lẽ tốt hơn nên viết: 'Chẩn đoán bệnh bạch cầu có ý nghĩa như thế nào đối với khả năng viết và khả năng vận động của một người?'
Dự án IBM xác định và diễn giải lại những yêu cầu như vậy từ quan điểm "cá nhân" sang quan điểm "chung chung".

Sơ đồ cho hệ thống IBM, sử dụng LLM cục bộ hoặc phương pháp tiếp cận dựa trên NLP để xác định tài liệu nhạy cảm trong các lời nhắc tiềm năng.
Điều này giả định rằng tài liệu được thu thập bởi các LLM trực tuyến, trong giai đoạn đầu của quá trình công chúng nhiệt tình áp dụng trò chuyện AI, sẽ không bao giờ được đưa vào các mô hình tiếp theo hoặc các khuôn khổ quảng cáo sau này có thể khai thác các truy vấn tìm kiếm dựa trên người dùng để cung cấp tiềm năng quảng cáo mục tiêu.
Mặc dù hiện nay chưa có hệ thống hoặc sự sắp xếp nào như vậy tồn tại, nhưng chức năng đó cũng chưa có vào thời điểm Internet mới ra đời vào đầu những năm 1990; kể từ đó, chia sẻ thông tin liên miền để nuôi quảng cáo cá nhân hóa đã dẫn đến những vụ bê bối khác nhau, Cũng như hoang tưởng.
Do đó, lịch sử cho thấy rằng sẽ tốt hơn nếu khử trùng các dữ liệu đầu vào của LLM ngay bây giờ, trước khi dữ liệu đó tích tụ thành khối lượng lớn và trước khi các bài nộp dựa trên LLM của chúng tôi xuất hiện trong các cơ sở dữ liệu và/hoặc mô hình tuần hoàn vĩnh viễn hoặc các cấu trúc và lược đồ dựa trên thông tin khác.
Nhớ tôi không
Một yếu tố chống lại việc sử dụng lời nhắc LLM 'chung chung' hoặc đã được khử trùng là, thành thật mà nói, khả năng tùy chỉnh LLM chỉ dành cho API đắt tiền như ChatGPT khá hấp dẫn, ít nhất là ở trình độ hiện tại – nhưng điều này có thể dẫn đến việc tiết lộ thông tin cá nhân trong thời gian dài.
Tôi thường yêu cầu ChatGPT giúp tôi xây dựng các tập lệnh Windows PowerShell và tệp BAT để tự động hóa các quy trình, cũng như các vấn đề kỹ thuật khác. Để đạt được mục đích này, tôi thấy hữu ích khi hệ thống ghi nhớ vĩnh viễn các chi tiết về phần cứng mà tôi có sẵn; năng lực kỹ thuật hiện tại của tôi (hoặc thiếu kỹ năng); và nhiều yếu tố môi trường và quy tắc tùy chỉnh khác:

ChatGPT cho phép người dùng phát triển 'bộ nhớ đệm' các ký ức sẽ được áp dụng khi hệ thống xem xét phản hồi cho các lời nhắc trong tương lai.
Không thể tránh khỏi, điều này sẽ giữ thông tin về tôi được lưu trữ trên các máy chủ bên ngoài, tùy thuộc vào các điều khoản và điều kiện có thể thay đổi theo thời gian, mà không có bất kỳ đảm bảo nào rằng OpenAI (mặc dù có thể là bất kỳ nhà cung cấp LLM lớn nào khác) sẽ tôn trọng các điều khoản họ đặt ra.
Tuy nhiên, nhìn chung, khả năng xây dựng bộ nhớ đệm trong ChatGPT hữu ích nhất vì cửa sổ chú ý hạn chế của LLM nói chung; nếu không có nhúng (cá nhân hóa) dài hạn, người dùng sẽ cảm thấy khó chịu khi họ đang trò chuyện với một thực thể đang bị Chứng hay quên Anterograde.
Thật khó để nói liệu các mô hình mới hơn cuối cùng có đủ hiệu suất để cung cấp các phản hồi hữu ích mà không cần bộ nhớ đệm hay không. tạo GPT tùy chỉnh được lưu trữ trực tuyến.
Mất trí nhớ tạm thời
Mặc dù người ta có thể biến các cuộc trò chuyện ChatGPT thành 'tạm thời', nhưng sẽ hữu ích nếu có lịch sử trò chuyện làm tài liệu tham khảo có thể được chắt lọc, khi có thời gian, thành một bản ghi cục bộ mạch lạc hơn, có thể trên một nền tảng ghi chú; nhưng trong mọi trường hợp, chúng ta không thể biết chính xác điều gì xảy ra với các cuộc trò chuyện 'bị loại bỏ' này (mặc dù OpenAI tiểu bang (chúng sẽ không được sử dụng để đào tạo, không có thông tin nào cho biết chúng sẽ bị hủy), dựa trên cơ sở hạ tầng ChatGPT. Tất cả những gì chúng tôi biết là các cuộc trò chuyện sẽ không còn xuất hiện trong lịch sử trò chuyện khi "Trò chuyện tạm thời" được bật trong ChatGPT.
Nhiều tranh cãi gần đây cho thấy các nhà cung cấp dựa trên API như OpenAI không nhất thiết phải chịu trách nhiệm bảo vệ quyền riêng tư của người dùng, bao gồm cả việc phát hiện ghi nhớ mới nổi, biểu thị rằng các LLM lớn hơn có nhiều khả năng ghi nhớ một số ví dụ đào tạo đầy đủ hơn và làm tăng nguy cơ tiết lộ dữ liệu cụ thể của người dùng – trong số những sự cố công khai khác đã thuyết phục được nhiều công ty lớn, chẳng hạn như Samsung, Để cấm LLM sử dụng nội bộ công ty.
Nghĩ khác
Sự căng thẳng giữa tiện ích cực đại và rủi ro tiềm ẩn rõ ràng của LLM sẽ cần một số giải pháp sáng tạo – và đề xuất của IBM có vẻ là một khuôn mẫu cơ bản thú vị theo hướng này.

Ba cải tiến dựa trên IBM cân bằng giữa tiện ích và quyền riêng tư dữ liệu. Ở dải thấp nhất (màu hồng), chúng ta thấy một lời nhắc nằm ngoài khả năng xử lý có ý nghĩa của hệ thống.
Phương pháp tiếp cận của IBM chặn các gói tin gửi đi đến LLM ở cấp độ mạng và viết lại chúng khi cần thiết trước khi bản gốc có thể được gửi đi. Các tích hợp GUI phức tạp hơn được thấy ở đầu bài viết chỉ minh họa cho hướng tiếp cận như vậy có thể đi đến đâu, nếu được phát triển.
Tất nhiên, nếu không có đủ sự chủ động, người dùng có thể không hiểu rằng họ đang nhận được phản hồi cho một bản sửa đổi nhỏ so với bản gốc. Sự thiếu minh bạch này tương đương với việc tường lửa của hệ điều hành chặn quyền truy cập vào một trang web hoặc dịch vụ mà không thông báo cho người dùng, khiến họ có thể nhầm lẫn khi tìm kiếm các nguyên nhân khác gây ra sự cố.
Lời nhắc như nghĩa vụ bảo mật
Triển vọng về 'can thiệp kịp thời' tương tự như bảo mật hệ điều hành Windows, vốn đã phát triển từ một tập hợp các sản phẩm thương mại (có thể cài đặt tùy chọn) vào những năm 1990 thành một bộ công cụ phòng thủ mạng không tùy chọn và được thực thi nghiêm ngặt, đi kèm theo cài đặt Windows và cần phải nỗ lực để tắt hoặc giảm cường độ.
Nếu quá trình khử trùng nhanh chóng phát triển như tường lửa mạng đã làm trong 30 năm qua, đề xuất của bài báo IBM có thể đóng vai trò là bản thiết kế cho tương lai: triển khai LLM hoàn toàn cục bộ trên máy của người dùng để lọc các lời nhắc gửi đến các API LLM đã biết. Hệ thống này tất nhiên sẽ cần tích hợp các khung GUI và thông báo, trao quyền kiểm soát cho người dùng – trừ khi các chính sách quản trị ghi đè lên nó, như thường xảy ra trong môi trường kinh doanh.
Các nhà nghiên cứu đã tiến hành phân tích phiên bản mã nguồn mở của Chia sẻGPT tập dữ liệu để hiểu mức độ thường xuyên quyền riêng tư theo ngữ cảnh bị vi phạm trong các tình huống thực tế.
Llama-3.1-405B-Hướng dẫn được sử dụng như một mô hình "thẩm phán" để phát hiện các vi phạm về tính toàn vẹn ngữ cảnh. Từ một tập hợp lớn các cuộc hội thoại, một tập hợp con các cuộc hội thoại một lượt được phân tích dựa trên độ dài. Sau đó, mô hình thẩm phán đánh giá ngữ cảnh, thông tin nhạy cảm và sự cần thiết phải hoàn thành nhiệm vụ, từ đó xác định các cuộc hội thoại tiềm ẩn vi phạm tính toàn vẹn ngữ cảnh.
Một tập hợp con nhỏ hơn trong số các cuộc trò chuyện này, chứng minh hành vi vi phạm quyền riêng tư theo ngữ cảnh rõ ràng, đã được phân tích sâu hơn.
Bản thân khuôn khổ được triển khai bằng cách sử dụng các mô hình nhỏ hơn các tác nhân trò chuyện thông thường như ChatGPT, để cho phép triển khai cục bộ thông qua Ollama.

Sơ đồ hệ thống can thiệp kịp thời.
Ba LLM được đánh giá là Mixtral-8x7B-Hướng dẫn-v0.1; Llama-3.1-8B-Hướng dẫn; Và DeepSeek-R1-Chưng cất-Llama-8B.
Lời nhắc của người dùng được xử lý bởi khung theo ba giai đoạn: nhận dạng ngữ cảnh; phân loại thông tin nhạy cảm; Và ghi lại.
Hai phương pháp được triển khai để phân loại thông tin nhạy cảm: năng động và cấu trúc phân loại: phân loại động xác định các chi tiết thiết yếu dựa trên việc sử dụng chúng trong một cuộc trò chuyện cụ thể; phân loại có cấu trúc cho phép chỉ định danh sách các thuộc tính nhạy cảm được xác định trước luôn được coi là không thiết yếu. Mô hình sẽ định dạng lại lời nhắc nếu phát hiện ra các chi tiết nhạy cảm không thiết yếu bằng cách xóa hoặc diễn đạt lại chúng để giảm thiểu rủi ro về quyền riêng tư trong khi vẫn duy trì khả năng sử dụng.
Quy định của nhà
Mặc dù phân loại có cấu trúc như một khái niệm không được minh họa rõ ràng trong bài báo của IBM, nhưng nó gần giống nhất với phương pháp 'Định nghĩa dữ liệu riêng tư' trong Lời nhắc riêng tư sáng kiến này cung cấp một chương trình độc lập có thể tải xuống, có khả năng viết lại lời nhắc – mặc dù không có khả năng can thiệp trực tiếp ở cấp độ mạng như cách tiếp cận của IBM (thay vào đó, người dùng phải sao chép và dán lời nhắc đã sửa đổi).

Tệp thực thi Private Prompts cho phép lập danh sách các lựa chọn thay thế cho văn bản do người dùng nhập.
Trong hình ảnh trên, chúng ta có thể thấy rằng người dùng Private Prompts có thể lập trình các thay thế tự động cho các trường hợp thông tin nhạy cảm. Trong cả hai trường hợp, đối với Private Prompts và phương pháp IBM, có vẻ như không có khả năng người dùng đủ tỉnh táo và hiểu biết cá nhân để quản lý danh sách như vậy thực sự cần sản phẩm này – mặc dù nó có thể được xây dựng theo thời gian khi các sự cố xảy ra.
Trong vai trò quản trị viên, phân loại có cấu trúc có thể hoạt động như tường lửa áp đặt hoặc mạng kiểm duyệt đối với nhân viên; và trong mạng gia đình, với một số điều chỉnh khó khăn, nó có thể trở thành bộ lọc mạng nội bộ cho tất cả người dùng mạng; nhưng xét cho cùng, phương pháp này có thể được cho là thừa, vì người dùng có thể thiết lập đúng cách cũng có thể tự kiểm duyệt hiệu quả ngay từ đầu.
Ý kiến của ChatGPT
Kể từ khi ChatGPT gần đây ra mắt công cụ nghiên cứu sâu Đối với người dùng trả phí, tôi đã sử dụng tính năng này để yêu cầu ChatGPT xem xét các tài liệu liên quan và đưa ra quan điểm "hoài nghi" về bài báo của IBM. Tôi nhận được phản hồi mang tính phòng thủ và chế giễu nhất mà hệ thống từng đưa ra khi được yêu cầu đánh giá hoặc phân tích một ấn phẩm mới:

ChatGPT-4o đánh giá thấp dự án IBM.
'Nếu người dùng không tin tưởng OpenAI, Google hoặc Anthropic sẽ xử lý dữ liệu của họ một cách có trách nhiệm,' ChatGPT đưa ra giả thuyết. 'Tại sao họ lại tin tưởng một lớp phần mềm của bên thứ ba nằm giữa họ và AI? Bản thân lớp trung gian này lại trở thành một điểm yếu mới - có khả năng ghi nhật ký, xử lý sai, hoặc thậm chí làm rò rỉ dữ liệu trước khi dữ liệu đến được LLM. Sẽ chẳng giải quyết được gì nếu nó chỉ tạo ra một thực thể khác để khai thác dữ liệu người dùng.'
Sự phản đối này có vẻ ích kỷ và không áp dụng được, xét đến lịch sử lâu đời của các dự án nguồn mở thực sự mang lại lợi ích cho người dùng cuối thông qua những nỗ lực lâu dài của các nhà phát triển và cộng tác viên cộng đồng; và xét đến tiềm năng ngày càng tăng của các thiết bị di động để chạy – và thậm chí đào tạo – LLM nhẹ. Chắc chắn trong trường hợp này, trường hợp sử dụng không quá khắt khe.
Tiếp theo, ChatGPT tự tin bỏ lỡ mục đích của việc sử dụng một LLM nhẹ để giám sát dữ liệu đầu vào cho một LLM thương mại không thể chạy trên máy cục bộ (vì LLM quá lớn và việc cho phép truy cập cục bộ là quá rủi ro đối với công ty tạo ra nó):
'Lọc quyền riêng tư hiệu quả đòi hỏi phải hiểu đầu vào trước khi quyết định xóa những gì. Nếu một bên trung gian đủ thông minh để nhận ra dữ liệu nhạy cảm (tên, địa chỉ, thông tin tài chính), thì bên đó đã xử lý và phân tích dữ liệu đó rồi—có nghĩa là bên đó phải lưu trữ hoặc kiểm tra chính thứ mà bên đó phải xóa.
'Điều này dẫn đến một nghịch lý: a) Một bộ lọc ngu ngốc (thay thế regex cơ bản) sẽ không hiệu quả và bỏ qua những rủi ro riêng tư tinh vi. b) Một bộ lọc thông minh (trình viết lại chạy bằng LLM) phải xử lý toàn bộ dữ liệu đầu vào, khiến nó nguy hiểm như LLM ban đầu.
'Nếu bạn tin tưởng người trung gian đủ để đọc và viết lại thông tin đầu vào của mình, tại sao không tin tưởng vào chính LLM?'
Câu trả lời cho câu hỏi cuối cùng ở đây là LLM cục bộ được dự định hoàn toàn nằm ở phía người dùng và chắc chắn là mã nguồn mở, với nhu cầu tối thiểu hoặc không cần truy cập mạng. Một phiên bản thương mại tương đương, dù có ý định tốt lúc đầu, cuối cùng cũng sẽ dễ bị ảnh hưởng bởi các thay đổi của công ty và các điều khoản dịch vụ, trong khi một giấy phép mã nguồn mở phù hợp sẽ ngăn chặn loại này 'tham nhũng không thể tránh khỏi'.
ChatGPT lập luận thêm rằng đề xuất của IBM "phá vỡ ý định của người dùng", vì nó có thể diễn giải lại lời nhắc thành một phương án thay thế, ảnh hưởng đến tiện ích của nó. Tuy nhiên, đây là một vấn đề rộng hơn nhiều trong việc vệ sinh kịp thờivà không dành riêng cho trường hợp sử dụng cụ thể này.
Cuối cùng (bỏ qua đề xuất sử dụng LLM cục bộ 'thay thế', đây chính xác là điều mà bài báo của IBM đề xuất), ChatGPT cho rằng phương pháp của IBM gây ra rào cản cho việc áp dụng do 'sự cản trở của người dùng' khi triển khai các phương pháp cảnh báo và chỉnh sửa vào cuộc trò chuyện.
Ở đây, ChatGPT có thể đúng; nhưng nếu áp lực đáng kể xuất hiện do các sự cố công khai tiếp theo hoặc nếu lợi nhuận ở một khu vực địa lý bị đe dọa bởi quy định ngày càng tăng (và công ty từ chối chỉ bỏ hẳn vùng bị ảnh hưởng), lịch sử công nghệ tiêu dùng cho thấy rằng các biện pháp bảo vệ cuối cùng sẽ không còn là tùy chọn nữa dù sao.
Kết luận
Chúng ta không thể thực sự mong đợi OpenAI có thể triển khai các biện pháp bảo vệ theo kiểu được đề xuất trong bài báo của IBM và trong khái niệm cốt lõi đằng sau nó; ít nhất là không hiệu quả.
Và chắc chắn là không trên toàn cầu; giống như Apple khối một số tính năng của iPhone ở Châu Âu và LinkedIn đã các quy tắc khác nhau để khai thác dữ liệu của người dùng ở các quốc gia khác nhau, có lý khi cho rằng bất kỳ công ty AI nào cũng sẽ mặc định áp dụng các điều khoản và điều kiện có lợi nhất mà bất kỳ quốc gia cụ thể nào mà công ty đó hoạt động đều có thể chấp nhận được – trong mỗi trường hợp, phải đánh đổi quyền riêng tư về dữ liệu của người dùng nếu cần thiết.
Lần đầu tiên xuất bản vào thứ năm, ngày 27 tháng 2025 năm XNUMX
Cập nhật Thứ năm, ngày 27 tháng 2025 năm 15 47:11:XNUMX vì liên kết liên quan đến Apple không chính xác – MA