El ángulo de Anderson
Protección de los mensajes de aviso ante fugas de datos de LLM

Opinión Un interesante IBM NeurIPS 2024 enviarlo a consideración desde finales de 2024 resurgió en Arxiv la semana pasadaPropone un sistema que puede intervenir automáticamente para proteger a los usuarios de enviar información personal o confidencial en un mensaje cuando están manteniendo una conversación con un modelo de lenguaje grande (LLM) como ChatGPT.

Ejemplos de maquetas utilizadas en un estudio de usuarios para determinar las formas en que las personas preferirían interactuar con un servicio de intervención rápida. Fuente: https://arxiv.org/pdf/2502.18509
Las maquetas que se muestran arriba fueron utilizadas por los investigadores de IBM en un estudio para probar la posible fricción del usuario ante este tipo de "interferencia".
Aunque se dan pocos detalles sobre la implementación de la GUI, podemos suponer que dicha funcionalidad podría incorporarse en un complemento del navegador. comunicado con un marco LLM de 'cortafuegos' local; o que se podría crear una aplicación que pueda conectarse directamente a (por ejemplo) la API de OpenAI, recreando efectivamente el propio archivo descargable de OpenAI. programa independiente para ChatGPT, pero con protecciones adicionales.
Dicho esto, ChatGPT censura automáticamente las respuestas a los mensajes que percibe que contienen información crítica, como datos bancarios:

ChatGPT se niega a interactuar con mensajes que contengan información de seguridad considerada crítica, como detalles bancarios (los detalles en el mensaje anterior son ficticios y no funcionales). Fuente: https://chatgpt.com/
Sin embargo, ChatGPT es mucho más tolerante con respecto a diferentes tipos de información personal, incluso si difundir dicha información de cualquier manera podría no ser lo mejor para el usuario (en este caso, quizás por varias razones relacionadas con el trabajo y la divulgación):

El ejemplo anterior es ficticio, pero ChatGPT no duda en entablar una conversación con el usuario sobre un tema delicado que constituye un riesgo potencial para la reputación o las ganancias (el ejemplo anterior es totalmente ficticio).
En el caso anterior, quizás hubiera sido mejor escribir: ¿Cuál es la importancia del diagnóstico de leucemia en la capacidad de una persona para escribir y en su movilidad?
El proyecto de IBM identifica y reinterpreta dichas solicitudes desde una postura “personal” a una “genérica”.

Esquema para el sistema IBM, que utiliza LLM locales o heurísticas basadas en NLP para identificar material sensible en indicaciones potenciales.
Esto supone que el material recopilado por los LLM en línea, en esta etapa naciente de la adopción entusiasta del chat de IA por parte del público, nunca se incorporará ni a los modelos posteriores ni a los marcos publicitarios posteriores que podrían explotar las consultas de búsqueda basadas en el usuario para proporcionar información potencial. publicidad dirigida.
Aunque no se sabe que exista un sistema o un mecanismo de ese tipo en la actualidad, tampoco estaba disponible esa funcionalidad en los albores de la adopción de Internet a principios de los años 1990; desde entonces, intercambio de información entre dominios Alimentar la publicidad personalizada ha llevado a diversos escándalos, así como las paranoia.
Por lo tanto, la historia sugiere que sería mejor desinfectar las entradas de avisos de LLM ahora, antes de que dichos datos se acumulen en volumen y antes de que nuestros envíos basados en LLM terminen en bases de datos y/o modelos cíclicos permanentes, u otras estructuras y esquemas basados en información.
Recordarme?
Un factor que pesa en contra del uso de indicaciones LLM "genéricas" o desinfectadas es que, francamente, la posibilidad de personalizar una costosa LLM solo de API como ChatGPT es bastante atractiva, al menos en el estado actual de la técnica, pero esto puede involucrar la exposición a largo plazo de información privada.
Con frecuencia solicito a ChatGPT que me ayude a formular scripts de Windows PowerShell y archivos BAT para automatizar procesos, así como otros asuntos técnicos. Para ello, me resulta útil que el sistema memorice de forma permanente detalles sobre el hardware que tengo disponible; mis competencias técnicas existentes (o la falta de ellas); y varios otros factores ambientales y reglas personalizadas:

ChatGPT permite al usuario desarrollar un 'caché' de recuerdos que se aplicarán cuando el sistema considere respuestas a indicaciones futuras.
Inevitablemente, esto mantiene información sobre mí almacenada en servidores externos, sujeta a términos y condiciones que pueden evolucionar con el tiempo, sin ninguna garantía de que OpenAI (aunque podría ser cualquier otro proveedor importante de LLM) Respetar los términos que ellos establecen.
En general, sin embargo, la capacidad de crear un caché de memorias en ChatGPT es más útil debido a la ventana de atención limitada de los LLM en general; sin incrustaciones a largo plazo (personalizadas), el usuario siente, frustrantemente, que está conversando con una entidad que sufre de Amnesia de antergrado.
Es difícil decir si los modelos más nuevos llegarán a tener el rendimiento suficiente para proporcionar respuestas útiles sin necesidad de almacenar en caché las memorias, o crear GPT personalizados que se almacenan en línea.
Amnesia temporal
Aunque se pueden hacer que las conversaciones de ChatGPT sean "temporales", es útil tener el historial del chat como referencia que se puede destilar, cuando el tiempo lo permita, en un registro local más coherente, tal vez en una plataforma de toma de notas; pero en cualquier caso no podemos saber exactamente qué sucede con estos chats "descartados" (aunque OpenAI afirma No se usarán para entrenamiento ni se indica que se destruyan), según la infraestructura de ChatGPT. Solo sabemos que los chats ya no aparecen en nuestro historial cuando se activa la opción "Chats temporales" en ChatGPT.
Varias controversias recientes indican que los proveedores basados en API como OpenAI no necesariamente deberían estar a cargo de proteger la privacidad del usuario, incluido el descubrimiento de memorización emergente, lo que significa que los estudiantes con un LLM más alto tienen más probabilidades de memorizar algunos ejemplos de capacitación en su totalidad, lo que aumenta el riesgo de divulgación de datos específicos del usuario – entre otros incidentes públicos que han persuadido a una multitud de grandes empresas, como Samsung, a un Prohibir los LLM para uso interno de la empresa.
Piensa diferente
Esta tensión entre la utilidad extrema y el riesgo potencial manifiesto de los LLM requerirá algunas soluciones ingeniosas, y la propuesta de IBM parece ser un modelo básico interesante en esta línea.

Tres reformulaciones basadas en IBM que equilibran la utilidad con la privacidad de los datos. En la banda más baja (rosa), vemos un mensaje que supera la capacidad del sistema para desinfectar de forma significativa.
El enfoque de IBM intercepta los paquetes salientes hacia un LLM a nivel de red y los reescribe según sea necesario antes de que se pueda enviar el original. Las integraciones de GUI más elaboradas que se ven al comienzo del artículo son solo un ejemplo de hacia dónde podría llegar este enfoque, si se desarrollara.
Por supuesto, sin suficiente autonomía, el usuario podría no comprender que está recibiendo una respuesta a una reformulación ligeramente modificada de su envío original. Esta falta de transparencia equivale a que el firewall de un sistema operativo bloquee el acceso a un sitio web o servicio sin informar al usuario, quien podría entonces buscar erróneamente otras causas del problema.
Los avisos como pasivos de seguridad
La perspectiva de una "intervención rápida" es una buena analogía con la seguridad del sistema operativo Windows, que ha evolucionado desde un mosaico de productos comerciales (instalados opcionalmente) en la década de 1990 a un conjunto de herramientas de defensa de red no opcionales y de aplicación rígida que vienen de manera estándar con una instalación de Windows y que requieren cierto esfuerzo para desactivarlas o desintensificarlas.
Si la desinfección de mensajes instantáneos evoluciona como lo hicieron los cortafuegos de red en los últimos 30 años, la propuesta del documento de IBM podría servir como modelo para el futuro: implementar un LLM completamente local en la máquina del usuario para filtrar los mensajes salientes dirigidos a las API de LLM conocidas. Este sistema, naturalmente, necesitaría integrar marcos de interfaz gráfica de usuario y notificaciones, lo que daría control a los usuarios, a menos que las políticas administrativas lo anulen, como ocurre a menudo en los entornos empresariales.
Los investigadores realizaron un análisis de una versión de código abierto del CompartirGPT Conjunto de datos para comprender con qué frecuencia se viola la privacidad contextual en escenarios del mundo real.
Llama-3.1-405B-Instruir Se empleó como modelo de "juez" para detectar violaciones de la integridad contextual. De un amplio conjunto de conversaciones, se analizó un subconjunto de conversaciones de un solo turno según su duración. El modelo de juez evaluó el contexto, la información sensible y la necesidad de completar la tarea, lo que permitió identificar conversaciones con posibles violaciones de la integridad contextual.
Se analizó más a fondo un subconjunto más pequeño de estas conversaciones, que demostraron violaciones definitivas de la privacidad contextual.
El marco en sí se implementó utilizando modelos que son más pequeños que los agentes de chat típicos, como ChatGPT, para permitir la implementación local a través de Ollama.

Esquema del sistema de intervención inmediata.
Los tres LLM evaluados fueron Mixtral-8x7B-Instrucciones-v0.1; Llama-3.1-8B-Instruir; y DeepSeek-R1-Destilar-Llama-8B.
El marco procesa las solicitudes de usuario en tres etapas: identificación de contexto; clasificación de información sensible; y reformulación.
Se implementaron dos enfoques para la clasificación de información confidencial: lugar de trabajo dinámico estructurado Clasificación: la clasificación dinámica determina los detalles esenciales en función de su uso dentro de una conversación específica; la clasificación estructurada permite especificar una lista predefinida de atributos sensibles que siempre se consideran no esenciales. El modelo reformula el mensaje si detecta detalles sensibles no esenciales, ya sea eliminándolos o reformulándolos para minimizar los riesgos de privacidad y, al mismo tiempo, mantener la usabilidad.
Reglas del hogar
Aunque la clasificación estructurada como concepto no está bien ilustrada en el documento de IBM, es más parecida al método de "Definiciones de datos privados" del Avisos privados iniciativa, que proporciona un programa independiente descargable que puede reescribir los mensajes, aunque sin la capacidad de intervenir directamente a nivel de red, como lo hace el enfoque de IBM (en su lugar, el usuario debe copiar y pegar los mensajes modificados).

El ejecutable Private Prompts permite una lista de sustituciones alternativas para el texto ingresado por el usuario.
En la imagen anterior, podemos ver que el usuario de Private Prompts puede programar sustituciones automáticas para instancias de información confidencial. En ambos casos, para Private Prompts y el método de IBM, parece poco probable que un usuario con suficiente presencia de ánimo y perspicacia personal para preparar una lista de este tipo realmente necesite este producto, aunque podría desarrollarse con el tiempo a medida que se acumulen incidentes.
En un rol de administrador, la clasificación estructurada podría funcionar como un firewall impuesto o una red de censura para los empleados; y en una red doméstica podría, con algunos ajustes difíciles, convertirse en un filtro de red doméstica para todos los usuarios de la red; pero en última instancia, este método podría decirse que es redundante, ya que un usuario que pudiera configurarlo correctamente también podría autocensurarse de manera efectiva en primer lugar.
La opinión de ChatGPT
Dado que ChatGPT lanzó recientemente su herramienta de investigación profunda Para los usuarios de pago, usé esta función para pedirle a ChatGPT que revisara la literatura relacionada y me diera una opinión cínica sobre el artículo de IBM. Recibí la respuesta más defensiva y burlona que el sistema jamás ha dado al solicitarle que evaluara o analizara una nueva publicación:

ChatGPT-4o tiene una baja opinión del proyecto IBM.
"Si los usuarios no confían en que OpenAI, Google o Anthropic gestionen sus datos de manera responsable", Postulaciones de ChatGPT. ¿Por qué confiarían en una capa de software de terceros que se interpone entre ellos y la IA? El propio intermediario se convierte en un nuevo punto de fallo, con el potencial de registrar, manipular o incluso filtrar datos antes de que lleguen al LLM. No soluciona nada si simplemente crea otra entidad para explotar los datos del usuario.
Esta objeción parece interesada y no aplicable, dada la larga historia de proyectos de código abierto que benefician genuinamente a los usuarios finales a través de los esfuerzos concertados a largo plazo de los desarrolladores y colaboradores de la comunidad, y dado el creciente potencial de los dispositivos móviles para ejecutar (e incluso entrenar) LLM livianos. Ciertamente, en este caso de uso no es demasiado exigente.
A continuación, ChatGPT pasa por alto con seguridad el objetivo de que un LLM liviano supervise la entrada de un LLM comercial que no podría ejecutarse en una máquina local (porque el LLM es demasiado grande y permitir el acceso local es demasiado riesgoso para la empresa que lo fabrica):
'Para que un filtrado de privacidad sea eficaz, es necesario comprender la información de entrada antes de decidir qué eliminar. Si un intermediario es lo suficientemente inteligente como para reconocer datos confidenciales (nombres, direcciones, detalles financieros), entonces ya está procesando y analizando esos datos, lo que significa que tiene que almacenar o examinar precisamente lo que se supone que debe borrar.
'Esto introduce una paradoja: a) Un filtro tonto (sustitución básica de expresiones regulares) será ineficaz y no detectará riesgos sutiles para la privacidad. b) Un filtro inteligente (reescritor con tecnología LLM) tiene que procesar la entrada completa, lo que lo hace tan peligroso como el LLM original.
'Si confías lo suficiente en el intermediario para leer y reescribir tus entradas, ¿por qué no confiar también en el LLM mismo?'
La respuesta a la última pregunta es que la licencia LLM local está pensada para que esté completamente del lado del usuario y sea inevitablemente de código abierto, con una necesidad mínima o nula de acceso a la red. Una versión comercial equivalente, por bien intencionada que sea al principio, acabaría siendo vulnerable a los cambios corporativos y a los cambios en los términos del servicio, mientras que una licencia de código abierto adecuada evitaría este tipo de problemas. 'corrupción inevitable'.
ChatGPT argumentó además que la propuesta de IBM "rompe la intención del usuario", ya que podría reinterpretar un mensaje en una alternativa que afecte su utilidad. Sin embargo, esto es un Un problema mucho más amplio en la desinfección rápida, y no es específico de este caso de uso particular.
Para cerrar (ignorando su sugerencia de utilizar LLM locales "en su lugar", que es exactamente lo que el documento de IBM realmente propone), ChatGPT opinó que el método de IBM representa una barrera para la adopción debido a la "fricción del usuario" de implementar métodos de advertencia y edición en un chat.
En este caso, ChatGPT puede tener razón, pero si surge una presión significativa debido a más incidentes públicos, o si las ganancias en una zona geográfica se ven amenazadas por una creciente regulación (y la empresa se niega a hacerlo), Abandonar por completo la región afectada), la historia de la tecnología de consumo sugiere que las salvaguardas eventualmente ya no es opcional de todos modos.
Conclusión
No podemos esperar de manera realista que OpenAI implemente alguna vez salvaguardas del tipo que se propone en el documento de IBM y en el concepto central detrás de él; al menos no de manera efectiva.
Y ciertamente no a nivel mundial; al igual que Apple bloques ciertas funciones del iPhone en Europa y LinkedIn tiene diferentes reglas Para explotar los datos de sus usuarios en diferentes países, es razonable sugerir que cualquier empresa de IA adoptará los términos y condiciones más rentables que sean tolerables para cualquier nación en particular en la que opere, en cada caso, a expensas del derecho del usuario a la privacidad de los datos, según sea necesario.
Publicado por primera vez el jueves 27 de febrero de 2025
Actualizado el jueves 27 de febrero de 2025 a las 15:47:11 debido a un enlace incorrecto relacionado con Apple – MA