Inteligencia artificial
Conjuntos de datos de inteligencia artificial extraídos de la web y privacidad: Por qué CommonPool merece una mirada

Inteligencia Artificial (AI) se ha convertido en parte de la vida cotidiana. Es visible en chatbots médicos que guían a los pacientes y en herramientas generativas que asisten a artistas, escritores y desarrolladores. Estos sistemas parecen avanzados, pero dependen de un recurso esencial: los datos.
La mayoría de los datos utilizados para entrenar sistemas de AI provienen de Internet. Programas automatizados recopilan grandes volúmenes de texto, imágenes y audio de plataformas en línea. Estas colecciones forman la base de modelos bien conocidos como GPT-4, Stable Diffusion y muchos otros. Sin embargo, esta vasta colección plantea preocupaciones no resueltas sobre privacidad, propiedad y consentimiento informado.
El mercado de conjuntos de datos de entrenamiento refleja la escala de esta actividad. Actualmente, el valor global de los conjuntos de datos de AI se estima en 3.2 mil millones de dólares. Según las proyecciones, puede crecer a 16.3 mil millones de dólares para 2034, con una tasa de crecimiento anual del 20,5%. Detrás de estas cifras se esconde un desafío importante. Una parte significativa del material recopilado se obtiene sin permiso explícito. A menudo contiene datos personales, obras con derechos de autor y otro contenido sensible que nunca estuvo destinado a sistemas de aprendizaje automático.
En respuesta a estos problemas, se están explorando enfoques alternativos para la gobernanza de los datos. Un ejemplo es CommonPool, lanzado en abril de 2023 como parte de la referencia DataComp. Es un conjunto de datos grande de 12.8 mil millones de pares de imagen-texto diseñado para la investigación de inteligencia artificial multimodal. A diferencia de los esfuerzos de extracción tradicionales, aplica métodos de filtrado, enfatiza la transparencia y incluye la participación de la comunidad en su desarrollo. Aunque sigue siendo objeto de debate, CommonPool indica un intento de construir prácticas más responsables y auditables para los datos de entrenamiento de AI. Estas iniciativas destacan la necesidad de estándares éticos en el futuro de la inteligencia artificial.
El papel de los datos extraídos de la web en el avance de la inteligencia artificial
Los datos son centrales para la AI, y el rendimiento del sistema está estrechamente vinculado a la cantidad y variedad de información disponible para el entrenamiento. En los últimos años, la extracción de la web se ha convertido en un método estándar para ensamblar grandes conjuntos de datos a escala. Al recopilar contenido en línea accesible públicamente, investigadores y desarrolladores han obtenido vastos y diversos recursos de datos.
Un ejemplo popular es Common Crawl, que para 2025 ha almacenado petabytes de texto recopilados a través de crawls mensuales de más de 250 terabytes cada uno. Este conjunto de datos se utiliza ampliamente para entrenar modelos de AI basados en texto. Otro ejemplo es LAION-5B, que contiene alrededor de 5.85 mil millones de pares de imagen-texto. Ha sido importante para aplicaciones como Stable Diffusion, que puede crear imágenes realistas a partir de instrucciones escritas.
Estos conjuntos de datos son valiosos porque aumentan la precisión del modelo, mejoran la generalización a través de contenido variado y permiten que grupos más pequeños, incluidas universidades, participen en el desarrollo de AI. El índice de AI de Stanford 2025 muestra que la mayoría de los modelos avanzados aún dependen de datos extraídos, con conjuntos de datos que crecen rápidamente en tamaño. Esta demanda también ha impulsado una gran inversión, que alcanzó más de 57 mil millones de dólares en 2024 para centros de datos y potencia de cómputo.
Al mismo tiempo, la extracción de la web no está exenta de desafíos. Plantea preguntas sobre privacidad, propiedad y derechos legales, ya que gran parte del contenido recopilado no fue creado originalmente para uso de máquina. Los casos judiciales y las discusiones de políticas muestran que estos desafíos se están volviendo más urgentes. El futuro de la recopilación de datos de AI dependerá de encontrar un equilibrio entre el progreso y la responsabilidad ética.
El problema de privacidad con los datos extraídos
Las herramientas de extracción de la web recopilan información sin una separación clara entre contenido general y detalles sensibles. Junto con texto e imágenes, a menudo capturan información de identificación personal (PII) como nombres, direcciones de correo electrónico y fotografías faciales.
Una auditoría del conjunto de datos CommonPool en julio de 2025 reveló que incluso después del filtrado, el 0,1% de las muestras aún contenían caras identificables, identificaciones gubernamentales y documentos como currículos y pasaportes. Si bien el porcentaje parece pequeño, a la escala de miles de millones de registros, se traduce en cientos de millones de personas afectadas. Las revisiones y las auditorías de seguridad confirman que la presencia de dicho material no es inusual, y sus riesgos incluyen el robo de identidad, el acoso dirigido y la exposición no deseada de datos privados.
Los litigios legales también están aumentando a medida que las preocupaciones sobre la propiedad de los datos y el uso justo se trasladan a los tribunales. Entre 2023 y 2024, empresas como OpenAI y Stability AI enfrentaron demandas por usar datos personales y con derechos de autor sin consentimiento. En febrero de 2025, un tribunal federal de EE. UU. dictaminó que entrenar AI con información personal no licenciada constituye una infracción. Esta decisión ha alentado más demandas colectivas. Los derechos de autor son otro problema importante. Muchos conjuntos de datos extraídos contienen libros, artículos, arte y código. Los escritores y artistas argumentan que su trabajo se está utilizando sin aprobación o pago. El caso en curso New York Times v. OpenAI cuestiona si los sistemas de AI reproducen contenido protegido ilegalmente. Los artistas visuales han planteado quejas similares, alegando que la AI copia su estilo individual. En junio de 2025, un tribunal de EE. UU. apoyó a una empresa de AI bajo el uso justo, pero los expertos dicen que las sentencias siguen siendo inconsistentes y el marco legal sigue siendo poco claro.
La falta de consentimiento en el entrenamiento de AI ha debilitado la confianza pública. Muchas personas descubren que sus blogs, trabajos creativos o código se incluyen en conjuntos de datos sin su conocimiento. Esto ha planteado preocupaciones éticas y llamados a una mayor transparencia. En respuesta, los gobiernos están avanzando hacia una supervisión más estricta a través de leyes que promueven el desarrollo justo de modelos de AI y el uso cuidadoso de los datos.
Por qué los conjuntos de datos extraídos son difíciles de reemplazar
Incluso con preocupaciones sobre privacidad y consentimiento, los conjuntos de datos extraídos siguen siendo necesarios para el entrenamiento de AI. La razón es la escala. Los modelos de AI modernos requieren billones de tokens de texto, imágenes y otros medios. Construir dichos conjuntos de datos solo a través de fuentes licenciadas o curadas costaría cientos de millones de dólares. Esto no es práctico para la mayoría de las startups o universidades.
El alto costo no es el único desafío con los conjuntos de datos curados. A menudo carecen de diversidad y tienden a centrarse en idiomas, regiones o comunidades específicas. Esta cobertura limitada hace que los modelos de AI sean menos equilibrados. En contraste, los datos extraídos, a pesar de ser ruidosos e imperfectos, capturan una gama más amplia de culturas, temas y puntos de vista. Esta diversidad permite que los sistemas de AI funcionen mejor cuando se aplican a situaciones del mundo real.
El riesgo, sin embargo, es que las regulaciones estrictas puedan restringir el acceso a los datos extraídos. Si esto sucede, las organizaciones más pequeñas pueden luchar por competir. Las grandes empresas con conjuntos de datos privados o propiedad, como Google o Meta, seguirán avanzando. Este desequilibrio podría reducir la competencia y frenar la innovación abierta en AI.
Por ahora, los conjuntos de datos extraídos son centrales para la investigación de AI. Al mismo tiempo, proyectos como CommonPool están explorando formas de construir colecciones extensas y éticamente obtenidas. Estos esfuerzos son necesarios para mantener el ecosistema de AI más abierto, justo y responsable.
CommonPool: Hacia la ingeniería de datos a gran escala responsable
CommonPool es uno de los esfuerzos técnicamente más ambiciosos para construir un conjunto de datos multimodal abierto y a gran escala. Con aproximadamente 12.8 mil millones de pares de imagen-texto, coincide con la escala de LAION-5B pero integra mecanismos de ingeniería de datos y gobernanza más sólidos. El objetivo de diseño clave no fue solo maximizar la escala, sino también alinear con principios de reproducibilidad, procedencia de los datos y cumplimiento regulatorio.
La construcción del conjunto de datos CommonPool sigue una estructura de tres etapas. La primera etapa implica la extracción de muestras raw de instantáneas de Common Crawl recopiladas entre 2014 y 2022. Se recopilan imágenes y su texto asociado, como subtítulos o pasajes circundantes. Para evaluar la alineación semántica, los mantenedores aplican una puntuación de similitud basada en CLIP, descartando pares con una correspondencia débil entre las incrustaciones de imagen y texto. Este paso de filtrado inicial reduce sustancialmente el ruido en comparación con las tuberías de extracción ingenuas.
En la segunda etapa, el conjunto de datos pasa por una desduplicación a gran escala. Se utilizan técnicas de hashing perceptual y MinHash para identificar y eliminar imágenes casi idénticas, evitando que la redundancia domine el entrenamiento del modelo. Se aplican filtros adicionales para excluir archivos dañados, enlaces rotos y imágenes de baja resolución. En este punto, la tubería también incluye la normalización de texto y la identificación automática de idioma, lo que permite la creación de subconjuntos específicos de dominio o idioma para investigaciones dirigidas.
La tercera etapa se centra en la seguridad y el cumplimiento. Se aplica la detección automática de caras y desenfoque, mientras que la imaginería relacionada con niños y los identificadores personales, como nombres, direcciones de correo electrónico y direcciones postales, se eliminan. La tubería también intenta detectar materiales con derechos de autor. Aunque ningún método automatizado puede garantizar un filtrado perfecto a escala web, estas salvaguardias representan una mejora técnica significativa en comparación con LAION-5B, donde el filtrado se limitó principalmente al contenido para adultos y a heurísticas de toxicidad.
Más allá del procesamiento de datos, CommonPool introduce un modelo de gobernanza que lo distingue de las versiones estáticas de los conjuntos de datos. Se mantiene como un conjunto de datos vivo con versiones, metadatos estructurados y ciclos de actualización documentados. Cada muestra incluye información de licencia cuando está disponible, lo que admite el cumplimiento de las regulaciones de derechos de autor. Un protocolo de retiro permite a las personas y las instituciones solicitar la eliminación de contenido sensible, abordando las preocupaciones planteadas por la Ley de AI de la UE y los marcos regulatorios relacionados. Los metadatos como URLs de origen y puntuaciones de filtrado mejoran la transparencia y la reproducibilidad, lo que permite a los investigadores rastrear las decisiones de inclusión y exclusión.
Los resultados de las pruebas de referencia de la iniciativa DataComp ilustran los efectos técnicos de estas elecciones de diseño. Cuando se entrenaron arquitecturas de visión-lenguaje idénticas en LAION-5B y CommonPool, este último produjo modelos con un rendimiento descendente más estable, particularmente en tareas de recuperación de granulación y clasificación de disparo cero. Estos resultados sugieren que la calidad de alineación más alta de CommonPool compensa algunas de las ventajas de escala de los conjuntos de datos menos filtrados. Sin embargo, las auditorías independientes en 2025 revelaron riesgos residuales: alrededor del 0,1% del conjunto de datos aún contenía caras sin desenfocar, documentos personales sensibles y registros médicos. Esto destaca los límites de incluso las tuberías de filtrado automatizadas de vanguardia.
En general, CommonPool representa un cambio en la ingeniería de conjuntos de datos de priorizar la escala bruta a equilibrar la escala, la calidad y el cumplimiento. Para los investigadores, proporciona una base más reproducible y comparativamente más segura para el preentrenamiento a gran escala. Para los reguladores, demuestra que los mecanismos de privacidad y rendición de cuentas pueden incorporarse directamente en la construcción del conjunto de datos. En contraste con LAION, CommonPool ilustra cómo las tuberías de filtrado, las prácticas de gobernanza y los marcos de referencia pueden transformar los datos web a gran escala en un recurso más técnicamente robusto y éticamente responsable para la AI multimodal.
Comparación de CommonPool con conjuntos de datos extraídos de la web tradicionales
A diferencia de los conjuntos de datos extraídos de la web a gran escala como LAION-5B (5.85 mil millones de muestras), COYO-700M (700 millones de muestras) y WebLI (400 millones de muestras), CommonPool enfatiza la estructura, la reproducibilidad y la gobernanza. Conserva metadatos como URLs y timestamps, lo que admite la trazabilidad y las verificaciones de licencia parciales. Además, aplica un filtrado semántico basado en CLIP para eliminar pares de imagen-texto de baja calidad o con una alineación débil, lo que resulta en una mejora en la calidad de los datos.
En comparación, LAION-5B y COYO se ensamblaron a partir de Common Crawl con un filtrado limitado y sin documentación detallada de licencia. Estos conjuntos de datos frecuentemente contienen material sensible, incluyendo registros médicos, documentos de identificación y caras sin desenfocar. WebLI, utilizado internamente por OpenAI, también carece de transparencia, ya que nunca se lanzó para revisión o replicación externa.
CommonPool busca abordar estos problemas excluyendo la información de identificación personal (PII) y el contenido NSFW, mientras reconoce que el consentimiento del usuario sigue sin resolverse. Esto lo hace más confiable y éticamente alineado que las alternativas anteriores.
Conclusión
El desarrollo de CommonPool refleja una transición importante en la forma en que se conciben y mantienen los conjuntos de datos de AI a gran escala. Mientras que las colecciones anteriores como LAION-5B y COYO priorizaron la escala con una supervisión limitada, CommonPool demuestra que la transparencia, el filtrado y la gobernanza pueden integrarse en la construcción del conjunto de datos sin socavar la usabilidad para la investigación.
Al conservar metadatos, aplicar controles de alineación semántica y incorporar salvaguardias de privacidad, ofrece un recurso más reproducible y responsable. Al mismo tiempo, las auditorías independientes nos recuerdan que las salvaguardias automatizadas no pueden eliminar completamente los riesgos, destacando la necesidad de una vigilancia continua.












