Ángulo de Anderson
Métodos de lavado de IP en IA

Si hay un ajuste de cuentas legal por venir sobre el uso de la propiedad intelectual en la formación de la IA, también hay varios métodos para ocultar dicho uso.
Opinión La actual revolución en IA generativa que se está desarrollando es la más precaria desde el punto de vista legal que ha acompañado a cualquier desarrollo tecnológico transformador desde el siglo XIX.
Hasta hace 3-4 años, la comunidad de investigación de aprendizaje automático disfrutaba de un permiso tácito (a menudo explícito) para explotar material protegido por derechos de autor en el curso del desarrollo de nuevos sistemas; desde que estos sistemas no eran aún exitosos, en términos de ser maduros o viables comercialmente, los resultados eran, en todos los sentidos, académicos.
En ese período, el éxito repentino de una nueva generación de modelos de lenguaje grande basados en difusión (LLMs, como ChatGPT y Claude) y modelos de visión-lenguaje (VLMs, como Sora) señaló que estos hilos de investigación abstractos y hasta entonces ‘inofensivos’ se habían desarrollado en viabilidad comercial, y habían superado su ‘pase libre’, en lo que respecta a la explotación de la propiedad intelectual de otras personas.
A partir de ahora, los titulares de derechos buscarán una participación en los frutos de los sistemas de IA entrenados en gran medida o en parte con sus datos protegidos por derechos de autor, lo que lleva a una avalancha continua de casos legales que requiere algun esfuerzo para seguirles el ritmo.

Aquí limitado solo a los casos presentados en los EE. UU., nuevos casos surgen a un ritmo frenético en los Estados Unidos y más allá. Fuente
Exigiendo un ‘almuerzo gratis’
El compromiso financiero actualmente en curso en cuanto a la infraestructura de IA ha sido sostenido por algunas voces como un esfuerzo para enterrar la IA ‘peligrosa para los derechos de autor’ tan profundamente en la economía de la sociedad que se convierta no solo en ‘demasiado grande para fallar’, sino también en ‘demasiado poderosa para ser demandada’ – o demasiado poderosa, al menos, para que las demandas exitosas puedan permitirse desbaratar la revolución.
Hacia este sentimiento general, el actual presidente de los Estados Unidos está convirtiendo en política su visión de que ‘No se puede esperar tener un programa de IA exitoso cuando cada artículo, libro o cualquier otra cosa que hayas leído o estudiado, se supone que debes pagar por ello’.
¿Realmente? Nada remotamente similar o comparable ha ocurrido en la era industrial occidental, y esto representa un movimiento que se frota severamente contra la cultura tradicional de los EE. UU. de litigio y reparación; quizás las posiciones más similares son la expiración obligatoria de las patentes de medicamentos después de 20 años (que en sí frecuentemente está bajo ataque), y la limitación de las expectativas de privacidad en lugares públicos.
Sin embargo, los tiempos cambian; en ausencia de cualquier garantía de que la tendencia actual hacia el ‘dominio eminente’ contra las protecciones de IP no fracasará, o de lo contrario se revertirá más tarde, hay varios enfoques secundarios que se están convirtiendo en práctica estándar en el desarrollo de sistemas de IA, y el tratamiento de los controvertidos datos de entrenamiento que lo impulsan.
Conjuntos de datos por proxy
Uno de estos enfoques toma un enfoque notablemente similar a la defensa (no siempre exitosa) de los sitios de lista de torrents que no almacenan material controvertido – o cualquier material en absoluto.
Además de evitar la necesidad de almacenar y servir grandes cantidades de datos de imagen o video mínimamente comprimibles, las colecciones de este tipo permiten una actualización rápida – como la eliminación de material a solicitud de los titulares de derechos de autor – y versionado.
Al igual que los torrents son solo señales de dónde se puede encontrar material protegido por derechos de autor, una serie de conjuntos de datos muy influyentes son en sí mismos solo listas de estilo ‘señalador’ de datos existentes; si el usuario final desea usar estas listas como una lista de descarga para su propio conjunto de datos, eso es asunto suyo, en lo que respecta a la responsabilidad de los curadores.
Entre ellos se encuentra el conjunto de datos Conceptual 12M de Google Research, que proporciona subtítulos para imágenes, pero solo señala ubicaciones en la web donde existen estas imágenes (o existían en el momento de la curación):

Dos ejemplos del conjunto de datos Conceptual 12M de Google Research. Fuente
Otro ejemplo destacado, y que ahora tiene un reclamo válido a la reverencia en la historia de la IA, es el conjunto de datos LAION que facilitó el advenimiento del sistema generativo de difusión estable en 2022 – el primer sistema de este tipo en ofrecer imágenes generativas de código abierto potentes a los usuarios finales, justo cuando los sistemas propietarios parecían establecer estos servicios como un dominio comercial puramente acotado:

Una de las muchas variantes del proyecto LAION, con obras de arte modernas y protegidas por derechos de autor. Fuente
En muchos casos, los tamaños de archivo grandes de algunas de estas colecciones de ‘señaladores’ indican la inclusión de contenido de imagen en un archivo descargable y alojado; sin embargo, los tamaños de descarga no triviales a menudo se deben al gran volumen de contenido de texto, y sometimes la inclusión de embeddings extraídos o características – resúmenes o nodos derivados de contenido aplicable de otra manera extraído de los datos de origen durante el proceso de entrenamiento.
El premio de video
Los conjuntos de datos de video presentan un caso aún más fuerte para el enfoque de ‘conjunto de datos por proxy’ o de señalador, ya que el gran volumen de datos de almacenamiento requeridos para agregar un número significativo y útil de videos en una sola colección descargable es prohibitivo, y un método ‘distribuido’ es deseable.
Sin embargo, en ambos casos – pero particularmente con video – las URL de origen descargable representan datos que necesitarán una atención significativa adicional antes de ser utilizados en procesos de entrenamiento. Tanto las imágenes como los videos necesitarán ser redimensionados, o bien se tomarán decisiones de recorte, para crear muestras que se ajusten al espacio de GPU disponible. Incluso los videos muy submuestreados también requerirán cortes a longitudes muy cortas, como 3-5 segundos, típicamente.
Conjuntos de datos de video notables que utilizan referencias a videos en línea (en lugar de la curación y el empaquetado directo de video) incluyen el conjunto de datos de Kinetics Human Action Video Dataset de Google, y la colección YouTube-8M de la empresa de búsqueda, que utiliza anotación de segmentos para indicar cómo tratar cada video una vez descargado – pero que una vez más deja al usuario final obtener los videos de las URL suministradas.
Cerrado y abierto
Finalmente, en esta categoría, los datos de VFX ‘abiertos’ pueden generarse con plataformas cerradas que posteriormente publican y ponen a disposición el conjunto de datos resultante. Es razonable preguntarse por qué sucede esto, y considerar si puede ser porque la empresa originadora desea sanear un modelo de aguas arriba no amigable con la IP, para su propio uso; o que un conjunto de datos ‘lavado’ fue solicitado desde fuera.
Un caso de ‘lavado generacional’ es, argumentablemente, el conjunto de datos Omni-VFX, que incorpora muchos puntos de datos del conjunto de datos Open-VFX (que a su vez hace referencia a muchas plataformas cerradas y semicerradas, como Pika y PixVerse).
Para ser honesto, Omni-VFX ni siquiera está intentando:

En el conjunto de datos de código abierto Omni-VFX, una cara familiar. Fuente
Responsabilidad ancestral
El segundo enfoque principal para el lavado de IP es a través del uso de material con derechos de autor a una o muchas eliminaciones. Uno de los métodos en esta categoría es el uso de datos sintéticos que han sido entrenados, en algún punto aguas arriba, con datos con derechos de autor. En tales casos, más particularmente donde los datos sintéticos pueden obtener resultados que parecen auténticos, el trabajo con derechos de autor suministra transformaciones que no podrían razonablemente adivinarse o aproximarse mediante modelos generales del mundo o modelos no especializados.
Esto es enfáticamente el caso donde los sistemas generativos de video requieren generar ‘eventos imposibles’ y eventos que caerían generalmente en la categoría de ‘efectos visuales’ (VFX).
De hecho, lo que trajo este tema a colación fue el último de una serie de artículos de investigación que ofrecen la capacidad de ‘abstraer’ diversos tipos de efectos visuales, como producir haces de láser de partes improbables del cuerpo, ya sea habiendo sido entrenados en clips de VFX personalizados o ‘de código abierto’ (en lugar de la fuente más obvia, como los muy costosos disparos de VFX encontrados en la salida de la universo cinematográfico de Marvel):
Ejemplos del sitio web EffectMaker, en el que la ‘acción’ en el clip de origen (lejos a la izquierda) se aplica a una imagen de origen (centro). Fuente
Los ejemplos anteriores provienen de la página del proyecto para el proyecto EffectMaker. EffectMaker no es ni siquiera el primer ofrecimiento este año que busca extraer dinámicas de VFX de un clip de video y transponerlas a un clip nuevo, y de hecho esto se está convirtiendo en una subtarea discreta en la investigación de VFX de IA*.
Conscientes de que los gigantes de los medios como Marvel tienen una mayor probabilidad de ganar casos legales sobre IP (incluso en el clima mencionado de ‘tolerancia forzada’), las empresas de efectos visuales y las startups están yendo actualmente a grandes longitudes para asegurarse de que sus marcos de VFX generativos estén libres de la IP corporativa de otras empresas.
Primero entre ellos es Meta, que ha sido informado en el subreddit r/vfx de haber ido a una racha de contratación bien compensada en el invierno de 2026, ofreciendo a los artistas de VFX trabajo para entrenar modelos de IA para producir disparos de efectos visuales de nivel de Hollywood. Aunque el pago no se especificó en varios mensajes, uno lo describió como ‘dinero de jubilación’.
Sigue el dinero
Sin embargo, uno se pregunta cuánto dinero incluso los como Meta están dispuestos a pagar por una verdadera diversidad y abundancia de disparos de VFX ad hoc, dado que el costo promedio de un solo disparo de VFX para una película de blockbuster es de alrededor de $42,000 USD – y muchos vienen en mucho más.
Además, es razonable suponer que los modelos de IA generativos de VFX personalizados accederán a la demanda popular, incluidos varios efectos estándar de tropos de las categorías de películas más populares y costosas.
Aparte del punto de vista de que los profesionales de VFX ‘restantes’ podrían terminar recreando disparos que trabajaron en un catálogo de películas existente† – lo que en sí contextualiza el trabajo de conjunto de datos personalizado como imitativo – no hay garantía de que estas muestras nuevas y costosas terminen entrenadas ‘desde cero’ en una arquitectura completamente nueva.
De hecho, si estas recreaciones se desvían en módulos adjuntos como LoRAs, que dependen de un modelo base, entonces el proceso es solo tan defensible como el modelo base es ‘limpio de IP’ – y no muchos lo son.
De manera similar, si el ‘nuevo’ proceso utiliza otras técnicas ‘híbridas’ como ajuste fino, donde el valor del efecto visual depende de modelos, priores o embeddings de colecciones o modelos anteriores de integridad no sustentada, la originalidad del trabajo es arguablemente cosmética, y está sujeta a desafío.
Misiones imposibles
El dominio de la salida de VFX es un caso de estudio particularmente interesante en cuanto al posible lavado de IP en los conjuntos de datos de IA, ya que los disparos de efectos visuales a menudo representan ‘cosas imposibles’ para las que no habrá alternativas de código abierto disponibles.
Por ejemplo, si se quiere entrenar un modelo para producir haces de láser humanos, se necesitará entrenar con clips de VFX, robados o encargados; cosas como esas no suceden en ningún otro lugar.
Incluso en el caso de otros tipos de desastres naturales, como inundaciones dramáticas, el material de origen disponible en el mundo real es poco probable que pueda reproducir puntos de vista dramáticos sobre eventos catastróficos, porque (con algunas excepciones) la gente no suele transmitir en vivo desde lugares catastróficos. Por lo tanto, ‘vistas geniales’ sobre desastres son raros en los conjuntos de datos del mundo real, y cualquier modelo de IA que pueda generarlos probablemente obtuvo la información de otra parte.
La mayoría de las tareas de flujo de trabajo de IA deseables no tienen este nivel de especificidad, y en tales casos la ofuscamiento de los beneficios de los datos protegidos por IP puede no requerir nearly tanto esfuerzo.
Conclusión: Red entrelazada
Solo aquellos que han utilizado la IA generativa extensivamente y durante un período sostenido comprenderán instintivamente que dichos sistemas luchan para combinar múltiples conceptos cuando no existen ejemplos comparables en sus datos de entrenamiento.
Esta limitación se conoce como entrelazamiento, en el que las diversas facetas de los conceptos entrenados tienden a agruparse con elementos relacionados, en lugar de descomponerse en bloques de construcción útiles que puedan ser dispuestos en cualquier nueva configuración que el usuario pueda desear.
El entrelazamiento es un pozo de gravedad arquitectónica que es prácticamente imposible de escapar, al menos para los enfoques basados en difusión que caracterizan a todos los marcos de IA de generación actual. Sin embargo, puede ser que surjan nuevos enfoques en los próximos años que sean mejores para discretizar los conceptos entrenados para que puedan ser unidos más hábilmente, y ofrezcan menos indicaciones sobre su procedencia.
* No hago acusaciones contra EffectMaker, pero comento aquí sobre la generalidad de una práctica emergente en la investigación de video de IA.
† Porque estos disparos, en este tipo de películas, han generado y siguen generando dinero.
Publicado por primera vez el lunes 16 de marzo de 2026










