Ángulo de Anderson

Recuperación de direcciones de correo electrónico del mundo real de modelos de lenguaje preentrenados

Publicado el 26 de mayo de 2022

Actualizado el 24 de mayo de 2026

Por

Martin Anderson

Nueva investigación en EE. UU. indica que los modelos de lenguaje preentrenados (PLMs) como GPT-3 pueden ser consultados con éxito para obtener direcciones de correo electrónico del mundo real que se incluyeron en los vastos conjuntos de datos utilizados para entrenarlos.

Aunque actualmente es difícil obtener un correo electrónico real consultando el modelo de lenguaje sobre la persona asociada con el correo electrónico, el estudio encontró que cuanto mayor es el modelo de lenguaje, más fácil es realizar este tipo de exfiltración; y que cuanto más extensa y informada sea la consulta, más fácil es obtener una dirección de correo electrónico funcional.

El artículo establece:

‘Los resultados demuestran que los PLMs verdaderamente memorizan una gran cantidad de direcciones de correo electrónico; sin embargo, no entienden las asociaciones exactas entre nombres y direcciones de correo electrónico, por ejemplo, a quién pertenece la dirección de correo electrónico memorizada. Por lo tanto, dado el contexto de las direcciones de correo electrónico, los PLMs pueden recuperar una cantidad decente de direcciones de correo electrónico, mientras que pocas direcciones de correo electrónico son predichas correctamente al consultar con nombres.’

Para probar la teoría, los autores entrenaron tres PLMs de tamaño y parámetros crecientes, y los consultaron según un conjunto de plantillas y métodos que un atacante probablemente utilizaría.

El artículo ofrece tres ideas clave sobre los riesgos de permitir que la información personal del mundo real se incluya en los grandes conjuntos de entrenamiento en los que dependen los grandes PLMs.

En primer lugar, que los patrones de texto largos (en consultas) aumentan la posibilidad de obtener información privada sobre un individuo solo por nombrar a ese individuo. En segundo lugar, que los atacantes pueden aumentar su enfoque con conocimientos existentes sobre su objetivo, y que cuanto más conocimiento previo tenga un atacante, más probable es que pueda exfiltrar datos memorizados como direcciones de correo electrónico.

En tercer lugar, los autores postulan que los modelos de lenguaje natural más grandes y capaces pueden permitir que un atacante extraiga más información, reduciendo el aspecto de ‘seguridad por oscuridad’ de los PLMs actuales, ya que se entrenan modelos más sofisticados y de mayor escala por entidades de nivel FAANG.

Finalmente, el artículo concluye que la información personal puede ser retenida y filtrada a través del proceso de memorización, donde un modelo solo parcialmente ‘digesta’ los datos de entrenamiento, para que pueda utilizar esa información no rota como ‘datos faktuales’ en respuesta a consultas.

Los autores concluyen*:

‘A partir de los resultados de la configuración de contexto, encontramos que el modelo GPT-Neo más grande puede recuperar el 8,80% de las direcciones de correo electrónico correctamente a través de la memorización.

‘Aunque esta configuración no es tan peligrosa como otras, ya que es básicamente imposible para los usuarios conocer el contexto si el corpus no es público, la dirección de correo electrónico aún puede ser generada accidentalmente, y la amenaza no puede ser ignorada.’

Aunque el estudio elige las direcciones de correo electrónico como un ejemplo de información personal potencialmente vulnerable, el artículo enfatiza la investigación extensa en esta búsqueda en relación con exfiltrar datos médicos de pacientes, y consideran sus experimentos como una demostración de principio, en lugar de un resaltado específico de la vulnerabilidad de las direcciones de correo electrónico en este contexto.

El artículo se titula ¿Están filtrando los grandes modelos de lenguaje preentrenados su información personal?, y está escrito por tres investigadores de la Universidad de Illinois en Urbana-Champaign.

Memorización y Asociación

El trabajo se centra en la medida en que la información memorizada está asociada. Un modelo de lenguaje natural entrenado no puede abstraer completamente la información sobre la que se entrenó, o no podría sostener un argumento coherente, o invocar ningún dato factual en absoluto. Con este fin, un modelo memorizará y protegerá trozos discretos de datos, que representarán nodos semánticos mínimos en una posible respuesta.

La gran pregunta es si la información memorizada puede ser invocada mediante la invocación de otros tipos de información, como una ‘entidad nombrada’, como una persona. En tal caso, un modelo de lenguaje natural entrenado en datos no públicos y privilegiados puede contener datos de hospital sobre Elon Musk, como registros de paciente, un nombre y una dirección de correo electrónico.

En el peor escenario, consultar dicha base de datos con la consulta ‘¿Cuál es la dirección de correo electrónico de Elon Musk?’ o ‘¿Cuál es la historia clínica de Elon Musk?’ produciría esos datos.

En efecto, esto casi nunca sucede, por varias razones. Por ejemplo, si una memorización protegida de un hecho (como una dirección de correo electrónico) representa una unidad discreta, la siguiente unidad discreta no será un simple salto a una capa de información más alta (es decir, sobre Elon Musk), sino que puede ser un salto mucho mayor que no esté relacionado con ninguna persona o dato en particular.

Además, aunque la razón para la asociación no es necesariamente arbitraria, tampoco es linealmente predecible; la asociación puede ocurrir en función de pesos que se entrenaron con diferentes objetivos de pérdida que la recuperación de información jerárquica (como generar conversación abstracta plausible), o en formas (o en contra de formas) que han sido específicamente guiadas (o incluso prohibidas) por los arquitectos del sistema de lenguaje natural.

Pruebas de PLMs

Los autores probaron su teoría en tres iteraciones de la familia de modelos de lenguaje causal GPT-Neo, entrenados en el conjunto de datos Pile con 125 millones, 1.300 millones y 2.700 millones de parámetros.

El Pile es una recopilación de conjuntos de datos públicos, incluyendo la base de datos Enron de la Universidad de California en Berkeley, que incluye información de redes sociales basada en intercambios de correo electrónico. Dado que Enron siguió una convención estándar nombre+apellido+dominio (es decir, [email protected]), dichas direcciones de correo electrónico se filtraron, porque no se necesita aprendizaje automático para adivinar un patrón tan sencillo.

Los investigadores también filtraron pares de nombre/correo electrónico con menos de tres tokens, y después del procesamiento total llegaron a 3238 pares de nombre/correo electrónico, que se utilizaron en varios experimentos posteriores.

En el experimento de configuración de contexto, los investigadores utilizaron los 50, 100 o 200 tokens anteriores a la dirección de correo electrónico objetivo como contexto para invocar la dirección con una consulta.

En el experimento de configuración de disparo cero, se crearon cuatro consultas de forma manual, las dos últimas basadas en convenciones estándar de encabezados de correo electrónico, como —Mensaje original—\nDe: {nombre0} [mailto: {email0}].

Plantillas para consultas de disparo cero. Fuente: https://arxiv.org/pdf/2205.12628.pdf

A continuación, se consideró un escenario de pocos disparos – un escenario en el que el atacante tiene algún conocimiento previo que puede ayudarlo a crear una consulta que invocará la información deseada. En las consultas creadas, los investigadores consideran si el dominio objetivo es conocido o desconocido.

Iteraciones del escenario de pocos disparos.

Finalmente, el método basado en reglas utiliza 28 variaciones probables de patrones estándar para el uso de nombres en direcciones de correo electrónico para intentar recuperar la dirección de correo electrónico objetivo. Esto requiere un gran número de consultas para cubrir todas las permutaciones posibles.

Patrones basados en reglas utilizados en las pruebas.

Resultados

Para la tarea de predicción con contexto, GPT-Neo logra predecir hasta el 8,80% de las direcciones de correo electrónico correctamente, incluyendo direcciones que no siguen patrones estándar.

Resultados de la tarea de predicción con contexto. La primera columna detalla el número de tokens anteriores a la dirección de correo electrónico.

Para la tarea de configuración de disparo cero, el PLM solo pudo predecir correctamente un pequeño número de direcciones de correo electrónico, la mayoría de las cuales seguían patrones estándar establecidos por los investigadores (ver imagen anterior).

Resultados de configuraciones de disparo cero donde el dominio es desconocido.

Los autores observan con interés que la configuración de disparo cero (D) sobresale notablemente en su rendimiento, debido aparentemente a un prefijo más largo.

‘Esto [indica] que los PLMs están haciendo estas predicciones principalmente en función de la memorización de las secuencias – si están haciendo predicciones en función de la asociación, deberían rendir de manera similar. La razón por la que la configuración de disparo cero (D) supera a la configuración de disparo cero (C) es que el contexto más largo puede descubrir más [memorización]’

Modelos más grandes, mayor riesgo

En cuanto al potencial de estos enfoques para exfiltrar datos personales de modelos entrenados, los autores observan:

‘Para todas las configuraciones de dominio conocido, dominio desconocido y contexto, hay una mejora significativa en la precisión cuando cambiamos del modelo de 125M al modelo de 1,3 mil millones. Y en la mayoría de los casos, cuando cambiamos del modelo de 1,3 mil millones al modelo de 2,7 mil millones, también hay un aumento en la precisión de la predicción.’

Los investigadores ofrecen dos explicaciones posibles sobre por qué esto es así. En primer lugar, los modelos con más parámetros simplemente pueden memorizar un mayor volumen de datos de entrenamiento. En segundo lugar, los modelos más grandes son más sofisticados y mejor equipados para entender las consultas creadas, y por lo tanto para ‘conectar’ la información dispar sobre una persona.

Sin embargo, observan que en el estado actual de la técnica, la información personal está ‘relativamente segura’ contra estos ataques.

Como remedio contra este vector de ataque, frente a nuevos modelos que crecen consistentemente en tamaño y alcance, los autores aconsejan que las arquitecturas estén sujetas a un procesamiento previo riguroso para filtrar la información personal; considerar el entrenamiento con gradiente descendente con diferenciación privada; y incluir filtros en cualquier entorno de procesamiento posterior, como una API (por ejemplo, la API DALL-E 2 de OpenAI cuenta con una gran cantidad de filtros, además de la moderación humana de consultas).

También aconsejan en contra del uso de direcciones de correo electrónico que sigan patrones predecibles y estándar, aunque este consejo ya es estándar en la ciberseguridad.

* Mi sustitución de hipervínculos por las citas en línea de los autores.

Publicado por primera vez el 26 de mayo de 2022.

Martin Anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.

Unite.AI

Recuperación de direcciones de correo electrónico del mundo real de modelos de lenguaje preentrenados

Memorización y Asociación

Pruebas de PLMs

Resultados

Modelos más grandes, mayor riesgo

You may like