Inteligencia Artificial
Análisis de 25 años de políticas de privacidad con aprendizaje automático

Un estudio reciente utilizó técnicas de análisis de aprendizaje automático para trazar un gráfico de la legibilidad, utilidad, extensión y complejidad de más de 50,000 políticas de privacidad en sitios web populares durante un período de 25 años, de 1996 a 2021. La investigación concluye que el lector promedio necesitaría dedicar 400 horas de lectura anual (más de una hora al día) para comprender el creciente número de palabras, el lenguaje confuso y el uso impreciso del lenguaje que caracterizan las políticas de privacidad modernas de algunos de los sitios web más frecuentados.
El informe dice:
'La longitud media de una póliza casi se ha duplicado en los últimos diez años, con 2159 palabras en marzo de 2011 y 4191 palabras en marzo de 2021, y casi se ha cuadruplicado desde 2000 (1146 palabras).'

El recuento medio de palabras y oraciones entre el corpus estudiado, durante un período de 25 años. Fuente: https://arxiv.org/pdf/2201.08739.pdf
Si bien el aumento de la longitud se disparó con la entrada en vigor del RGPD y la Ley de Privacidad del Consumidor de California (CCPA), el artículo desestima estas variaciones, considerándolas «pequeñas magnitudes del efecto», que parecen insignificantes en comparación con la tendencia general a largo plazo. No obstante, se identifica el RGPD como una posible causa del creciente lenguaje impreciso en las políticas (véase más adelante).
Asumiendo una velocidad de lectura de 250 palabras por minuto, el documento sostiene que la política de privacidad promedio ahora tarda 17 minutos en leerse, mientras que las políticas más populares (es decir, políticas asociadas con un gran número de usuarios) tardan 23 minutos en completarse.
La política más larga en el conjunto de datos, de Microsoft, requiere 152 minutos para consumirse, según la investigación, que aprovechó una serie de variantes en Google Modelo de lenguaje BERT.

Crecimiento en la tasa de horas anuales necesarias para leer políticas de privacidad modernas, asumiendo que el lector visita 1462 sitios web únicos por año.
El documento atribuye gran parte del reciente aumento de la verbosidad y la ambigüedad en las políticas de privacidad como una reacción a los intentos de imponer regulaciones durante las últimas dos décadas, pero también al uso engañoso de los requisitos de cumplimiento normativo como excusa para aumentar sigilosamente el alcance y opacidad de las políticas de privacidad.
'En general, nuestros resultados muestran que las recientes regulaciones de privacidad no han mejorado sustancialmente la privacidad de los usuarios en línea, sino que han conducido a políticas de privacidad más infladas que describen prácticas de datos cada vez más invasivas.'
Aunque varios artículos sobre procesamiento del lenguaje natural (PNL) han abordado la legibilidad y otros aspectos de las políticas de privacidad en los últimos años, el autor cree que este es el primer proyecto de este tipo que proporciona una visión tan amplia del desarrollo de políticas en las últimas décadas.
La se titula Políticas de privacidad a través de las edades: contenido y legibilidad de las políticas de privacidad 1996–2021, y proviene de Isabel Wagner en el Instituto de Tecnología Cibernética de la Universidad De Montfort en el Reino Unido.
Lenguaje elíptico
El informe también sugiere que el número promedio de "palabras ofuscadoras" (es decir, aceptable, importante, principalmente, y otras palabras que no brindan un significado definitivo) en las políticas de privacidad aumentó de manera constante hasta 2018, pero luego se disparó de una mediana de 227 alrededor de marzo de 2018 a 304 en junio de 2020.
El autor sostiene que este aumento es atribuible a los efectos del RGPD, y el documento encuentra que más de dos tercios (72 %) de las oraciones en las políticas de privacidad estudiadas contenían al menos una palabra ofuscante.
Legibilidad
A través de tres medidas comunes de dificultad de lectura, el estudio encontró que “Las políticas de privacidad se han vuelto cada vez más difíciles de leer a lo largo de los años”. Los autores estiman que el 41 % de las pólizas vigentes disponibles en 2021 tenían una mediana Facilidad de lectura de Flesch (FRE, más alto es mejor) de solo 31.8, con el autor observando 'Esta puntuación indica un texto muy difícil que es mejor comprendido por graduados universitarios'.
Al mismo tiempo, sólo 6.7% de las pólizas lograron una puntuación FRE superior a 45 (que, según señala el informe, es el estándar de lectura requerido para las pólizas de seguro en el estado de Florida).
Conciencia de cambio de política
El trabajo también aborda hasta qué punto las políticas de privacidad incluyen detalles sobre cómo se notificará eventualmente al potencial otorgante del consentimiento en caso de actualizaciones posteriores, lo que puede afectar la voluntad del usuario de mantener el acuerdo.
El autor observa:
'En 2021, el 73% de las políticas incluyen una declaración sobre el cambio de política. De estos, el 34% afirma que los cambios se anunciarán mediante un aviso en la política de privacidad, el 37% publicará un aviso en el sitio web y el 22% enviará un aviso personal (las políticas restantes dejan el tipo de notificación sin especificar).
“Como resultado, es poco probable que la mayoría de los usuarios se den cuenta de los cambios en las políticas de privacidad.
Además, a los usuarios prácticamente no se les ofrece ninguna opción significativa cuando cambian las políticas. De las políticas que notifican al usuario sobre los cambios, solo el 12 % ofrece una nueva opción de aceptación, mientras que el 34 % no ofrece ninguna opción y el 54 % no la especifica.

Los hallazgos del documento sobre los métodos descritos para notificar a los usuarios sobre cambios de políticas.
Elección limitada con respecto al seguimiento
Según el estudio, se ofrece una gama mucho mayor de mecanismos en las políticas de privacidad para acceder a la información de la cuenta del usuario que para acceder a los datos del perfil del usuario. Los datos de perfil se pueden crear y actualizar a través de mecanismos automatizados y no obvios, mientras que los datos de la cuenta de usuario no solo los otorga explícitamente el usuario, sino que también están obligados a ser editables según las regulaciones de varias jurisdicciones.
Elección del consumidor sobre el consentimiento de cookies en las políticas de privacidad (un tema que ha atraído Debate acalorado Discusion subida de tono desde la llegada de GDPR promulgó cientos de miles de ventanas emergentes de consentimiento de cookies para instancias de la UE de sitios web internacionales y europeos) generalmente se aborda en las políticas, pero oculta una capa más importante de datos menos accesibles *:
'[Las] opciones con respecto a las cookies son insuficientes para proteger a los usuarios de todo seguimiento porque rara vez se ofrecen mecanismos de elección o control para información de la computadora, identificadores de dispositivos y identificadores personales, que permiten rastrear a los usuarios a través de huellas dactilares.

Un marcado contraste en el nivel de control disponible otorgado por las políticas de privacidad entre los datos de perfil (que pueden obtenerse por medios implícitos o sigilosos) y los datos de la cuenta de usuario (donde el RGPD, la Ley de Privacidad del Consumidor de California (CCPA) exige con frecuencia cierta medida de control). ), y mecanismos nacionales y regionales similares).
Fecha
Para obtener los datos para el estudio, el autor rastreó los sitios web en busca de enlaces a sus políticas de privacidad, y con frecuencia encontró necesario ampliar el alcance más allá del resultado inicial, debido a la cantidad de políticas no integrales que se vinculan con otras políticas (cada una de que tiene el potencial de cambiar ya sea en conjunto con o independientemente de la política matriz o relacionada).
La Wayback Machine se usó para obtener políticas históricas, aunque era necesario al considerar los resultados para tener en cuenta las políticas cuyo rastreo o archivado se había bloqueado a través de un archivo de configuración robots.txt (un pequeño archivo de texto que contiene instrucciones para los agentes de indexación de rastreo web con respecto a las páginas y otros). entidades que no deberían incluir en un índice público).
Una instantánea por mes fue obtenida de Wayback Machine por su API CDX para cada política aplicable identificable y continua, utilizando Firefox bajo Selenium. El proyecto no consideró realizar el reconocimiento óptico de caracteres en políticas que solo están disponibles en formato PDF, que se limitó a la cantidad (mucho mayor) de políticas HTML disponibles.
Un resultado interesante del proyecto es que la claridad y legibilidad de los sitios web pornográficos ha mejorado durante el periodo estudiado, posiblemente en previsión de las crecientes demandas de mayor regulación y claridad. Para recopilar estos documentos, fue necesario obtenerlos mediante rastreos adicionales desde direcciones IP residenciales, debido a los protocolos de bloqueo de contenido de la universidad.
Inicialmente se obtuvieron 1,068,683 documentos, lo que equivale a 120,265 documentos únicos que contienen una media de 39.1 artículos o cláusulas de póliza y 4.4 textos de póliza únicos por cada vínculo.
Solo inglés
Como es común en estudios recientes similares, el proyecto no pudo abordar las políticas de privacidad que no están en inglés, que se descartaron durante la etapa de limpieza de datos utilizando el PYCLD2 Pack
Para distinguir las políticas de privacidad de otros tipos de material, el proyecto utilizó un clasificador desarrollado en 2019 como una iniciativa conjunta de la Universidad de Wisconsin y la École Polytechnique Fédérale de Lausanne.

Arquitectura del clasificador IS-POLICY. Fuente: https://arxiv.org/pdf/1809.08396.pdf
Aunque el clasificador IS-POLICY se entrenó en el mismo corpus de 1,000 documentos que en el artículo de origen, el autor tuvo que obtener nuevos documentos que no eran de política para el entrenamiento, ya que las fuentes originales no estaban disponibles.
Después de la filtración, los datos se redujeron a 56,416 políticas de privacidad únicas.
* La cita en línea del artículo se convierte aquí en un hipervínculo; el cambio a cursiva se realiza desde el artículo.
Publicado por primera vez el 31 de enero de 2022.












