Ángulo de Anderson
Casi el 80% de los conjuntos de datos de entrenamiento pueden ser un peligro legal para la inteligencia artificial empresarial

Un reciente artículo de investigación de LG AI Research sugiere que los conjuntos de datos supuestamente “abiertos” utilizados para entrenar modelos de inteligencia artificial pueden ofrecer una falsa sensación de seguridad, encontrando que casi cuatro de cada cinco conjuntos de datos de inteligencia artificial etiquetados como “comercialmente utilizables” contienen en realidad riesgos legales ocultos.
Estos riesgos van desde la inclusión de material con derechos de autor no divulgados hasta términos de licencia restrictivos enterrados en las dependencias de un conjunto de datos. Si los hallazgos del artículo son precisos, las empresas que confían en conjuntos de datos públicos pueden necesitar reconsiderar sus actuales tuberías de inteligencia artificial, o arriesgarse a una exposición legal posterior.
Los investigadores proponen una solución radical y potencialmente controvertida: agentes de cumplimiento basados en inteligencia artificial capaces de escanear y auditar historias de conjuntos de datos más rápido y con mayor precisión que los abogados humanos.
El artículo establece:
‘Este artículo aboga por que el riesgo legal de los conjuntos de datos de entrenamiento de inteligencia artificial no puede determinarse únicamente mediante la revisión de los términos de licencia de nivel superficial; un análisis exhaustivo y de extremo a extremo de la redistribución del conjunto de datos es esencial para garantizar el cumplimiento.
‘Dado que dicho análisis está más allá de las capacidades humanas debido a su complejidad y escala, los agentes de inteligencia artificial pueden cubrir esta brecha realizándolo con mayor velocidad y precisión. Sin automatización, los riesgos legales críticos siguen en gran medida sin examinarse, poniendo en peligro el desarrollo ético de la inteligencia artificial y el cumplimiento regulatorio.’
‘Instamos a la comunidad de investigación de inteligencia artificial a reconocer el análisis legal de extremo a extremo como un requisito fundamental y a adoptar enfoques impulsados por la inteligencia artificial como el camino viable hacia el cumplimiento de los conjuntos de datos a escala.’
Al examinar 2,852 conjuntos de datos populares que parecían comercialmente utilizables según sus licencias individuales, el sistema automatizado de los investigadores encontró que solo 605 (alrededor del 21%) eran en realidad legalmente seguros para la comercialización una vez que se rastrearon todos sus componentes y dependencias.
El nuevo artículo se titula No confíes en las licencias que ves: el cumplimiento de los conjuntos de datos requiere un seguimiento de ciclo de vida a gran escala impulsado por la inteligencia artificial, y proviene de ocho investigadores de LG AI Research.
Derechos y equivocaciones
Los autores resaltan los desafíos que enfrentan las empresas que avanzan en el desarrollo de la inteligencia artificial en un panorama legal cada vez más incierto, a medida que la mentalidad académica anterior de “uso justo” en torno al entrenamiento de conjuntos de datos da paso a un entorno fragmentado donde las protecciones legales son poco claras y el refugio seguro ya no está garantizado.
Como señaló una publicación recientemente, las empresas están volviéndose cada vez más defensivas sobre las fuentes de sus datos de entrenamiento. El autor Adam Buick comenta*:
‘[Mientras que] OpenAI reveló las principales fuentes de datos para GPT-3, el artículo que presentó GPT-4 reveló solo que los datos en los que se había entrenado el modelo eran una mezcla de ‘datos públicamente disponibles (como datos de Internet) y datos con licencia de proveedores de terceros’.
‘Las motivaciones detrás de este alejamiento de la transparencia no han sido articuladas en detalle por los desarrolladores de inteligencia artificial, que en muchos casos no han dado ninguna explicación en absoluto.’
‘Por su parte, OpenAI justificó su decisión de no revelar más detalles sobre GPT-4 en base a preocupaciones sobre ‘el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala’, sin más explicación dentro del informe.’
La transparencia puede ser un término engañoso o simplemente un error; por ejemplo, el modelo generativo Firefly de Adobe, entrenado en datos de stock que Adobe tenía derecho a explotar, supuestamente ofreció a los clientes garantías sobre la legalidad de su uso del sistema. Más tarde, algunos evidencia emergió de que el conjunto de datos de Firefly se había “enriquecido” con datos potencialmente con derechos de autor de otras plataformas.
Como discutimos anteriormente esta semana, hay iniciativas en crecimiento diseñadas para asegurar el cumplimiento de las licencias en los conjuntos de datos, incluyendo una que solo raspará videos de YouTube con licencias Creative Commons flexibles.
El problema es que las licencias en sí pueden ser erróneas o concedidas por error, como parece indicar la nueva investigación.
Examinando conjuntos de datos de código abierto
Es difícil desarrollar un sistema de evaluación como el de los autores cuando el contexto está cambiando constantemente. Por lo tanto, el artículo establece que el sistema de marco de cumplimiento de datos NEXUS se basa en ‘varios precedentes y fundamentos legales en este momento’.
NEXUS utiliza un agente impulsado por la inteligencia artificial llamado AutoCompliance para el cumplimiento de datos automatizado. AutoCompliance consta de tres módulos clave: un módulo de navegación para la exploración web; un módulo de respuesta a preguntas (QA) para la extracción de información; y un módulo de puntuación para la evaluación del riesgo legal.

AutoCompliance comienza con una página web proporcionada por el usuario. La inteligencia artificial extrae detalles clave, busca recursos relacionados, identifica términos de licencia y dependencias, y asigna una puntuación de riesgo legal. Fuente: https://arxiv.org/pdf/2503.02784
Estos módulos están impulsados por modelos de inteligencia artificial afinados, incluyendo el modelo EXAONE-3.5-32B-Instruct, entrenado en datos sintéticos y etiquetados por humanos. AutoCompliance también utiliza una base de datos para almacenar resultados en caché y mejorar la eficiencia.
AutoCompliance comienza con una URL de conjunto de datos proporcionada por el usuario y la trata como la entidad raíz, buscando sus términos de licencia y dependencias, y trazando recursivamente conjuntos de datos vinculados para construir un gráfico de dependencia de licencia. Una vez que se han mapeado todas las conexiones, calcula puntuaciones de cumplimiento y asigna clasificaciones de riesgo.
El marco de cumplimiento de datos descrito en el nuevo trabajo identifica varios† tipos de entidades involucradas en el ciclo de vida de los datos, incluyendo conjuntos de datos, que forman la entrada principal para el entrenamiento de la inteligencia artificial; software de procesamiento de datos y modelos de inteligencia artificial, que se utilizan para transformar y utilizar los datos; y proveedores de servicios de plataforma, que facilitan el manejo de los datos.
El sistema evalúa holísticamente los riesgos legales considerando estas diversas entidades y sus interdependencias, moviéndose más allá de la evaluación rutinaria de las licencias de los conjuntos de datos para incluir un ecosistema más amplio de los componentes involucrados en el desarrollo de la inteligencia artificial.

El cumplimiento de los datos evalúa el riesgo legal en todo el ciclo de vida de los datos. Asigna puntuaciones en función de los detalles del conjunto de datos y de 14 criterios, clasificando entidades individuales y agregando el riesgo a lo largo de las dependencias.
Entrenamiento y métricas
Los autores extrajeron las URLs de los 1,000 conjuntos de datos más descargados en Hugging Face, muestreando aleatoriamente 216 artículos para constituir un conjunto de prueba.
El modelo EXAONE se afinó en el conjunto de datos personalizado de los autores, con el módulo de navegación y el módulo de respuesta a preguntas utilizando datos sintéticos, y el módulo de puntuación utilizando datos etiquetados por humanos.
Las etiquetas de verdad se crearon con la ayuda de cinco expertos legales capacitados durante al menos 31 horas en tareas similares. Estos expertos humanos identificaron manualmente dependencias y términos de licencia para 216 casos de prueba, luego agregaron y refinaron sus hallazgos a través de la discusión.
Con el sistema AutoCompliance entrenado y calibrado por humanos probado contra ChatGPT-4o y Perplexity Pro, se descubrieron notablemente más dependencias dentro de los términos de licencia:

Precisión en la identificación de dependencias y términos de licencia para 216 conjuntos de datos de evaluación.
El artículo establece:
‘AutoCompliance supera significativamente a todos los demás agentes y al experto humano, logrando una precisión del 81.04% y 95.83% en cada tarea. En contraste, ChatGPT-4o y Perplexity Pro muestran una precisión relativamente baja para las tareas de Fuente y Licencia, respectivamente.’
‘Estos resultados resaltan el desempeño superior de AutoCompliance, demostrando su eficacia en manejar ambas tareas con una precisión notable, mientras también indican una brecha de desempeño sustancial entre los modelos basados en la inteligencia artificial y el experto humano en estos dominios.’
En términos de eficiencia, el enfoque de AutoCompliance tardó solo 53.1 segundos en ejecutarse, en comparación con 2,418 segundos para la evaluación humana equivalente en las mismas tareas.
Además, el costo de la evaluación fue de $0.29 USD, en comparación con $207 USD para los expertos humanos. Sin embargo, se debe tener en cuenta que esto se basa en alquilar un nodo GCP a2-megagpu-16gpu mensualmente a una tasa de $14,225 por mes, lo que significa que este tipo de eficiencia en el costo se relaciona principalmente con una operación a gran escala.
Investigación de conjuntos de datos
Para el análisis, los investigadores seleccionaron 3,612 conjuntos de datos combinando los 3,000 conjuntos de datos más descargados de Hugging Face con 612 conjuntos de datos de la Iniciativa de Procedencia de Datos de 2023.
El artículo establece:
‘A partir de las 3,612 entidades objetivo, identificamos un total de 17,429 entidades únicas, donde 13,817 entidades aparecieron como dependencias directas o indirectas de las entidades objetivo.
‘Para nuestro análisis empírico, consideramos que una entidad y su gráfico de dependencia de licencia tienen una estructura de una sola capa si la entidad no tiene dependencias y una estructura de múltiples capas si tiene una o más dependencias.’
‘De los 3,612 conjuntos de datos objetivo, 2,086 (57.8%) tenían estructuras de múltiples capas, mientras que los otros 1,526 (42.2%) tenían estructuras de una sola capa sin dependencias.’
Los conjuntos de datos con derechos de autor solo pueden redistribuirse con autoridad legal, que puede provenir de una licencia, excepciones de la ley de derechos de autor o términos contractuales. La redistribución no autorizada puede llevar a consecuencias legales, incluyendo infracción de derechos de autor o violaciones contractuales. Por lo tanto, la identificación clara de la no conformidad es esencial.

Violaciones de distribución encontradas bajo el Criterio 4.4. del Cumplimiento de Datos del artículo.
El estudio encontró 9,905 casos de redistribución no conforme de conjuntos de datos, divididos en dos categorías: el 83.5% estaba explícitamente prohibido por los términos de licencia, lo que hace que la redistribución sea una clara violación legal; y el 16.5% involucraba conjuntos de datos con condiciones de licencia conflictivas, donde la redistribución estaba permitida en teoría pero no cumplía con los términos requeridos, creando un riesgo legal posterior.
Los autores admiten que los criterios de riesgo propuestos en NEXUS no son universales y pueden variar según la jurisdicción y la aplicación de la inteligencia artificial, y que las mejoras futuras deberían centrarse en adaptarse a las regulaciones globales cambiantes y en refinar la revisión legal impulsada por la inteligencia artificial.
Conclusión
Este es un artículo prolijo y en gran medida poco amigable, pero aborda quizás el factor más importante que retrasa la adopción actual de la inteligencia artificial en la industria: la posibilidad de que los datos aparentemente “abiertos” sean reclamados posteriormente por diversas entidades, individuos y organizaciones.
Bajo la DMCA, las violaciones pueden conllevar multas masivas en cada caso. Donde las violaciones pueden ascender a millones, como en los casos descubiertos por los investigadores, la posible responsabilidad legal es verdaderamente significativa.
Además, las empresas que pueden probarse que se han beneficiado de los datos de upstream no pueden (como de costumbre) alegar ignorancia como excusa, al menos en el influyente mercado de EE. UU. Tampoco tienen actualmente herramientas realistas con las que penetrar las implicaciones laberínticas enterradas en los acuerdos de licencia de conjuntos de datos de código abierto.
El problema al formular un sistema como NEXUS es que sería lo suficientemente desafiante calibrarlo en una base por estado dentro de los EE. UU., o en una base por nación dentro de la UE; la perspectiva de crear un marco global verdadero (una especie de “Interpol para la procedencia de los conjuntos de datos”) se ve obstaculizada no solo por las motivaciones contradictorias de los gobiernos diversos involucrados, sino también por el hecho de que tanto estos gobiernos como el estado de sus leyes actuales en este respecto están cambiando constantemente.
* Mi sustitución de hipervínculos por las citas de los autores.
† Se prescriben seis tipos en el artículo, pero los dos últimos no están definidos.
Publicado por primera vez el viernes 7 de marzo de 2025












