Contáctenos

La esquiva definición de "deepfake"

Inteligencia Artificial

La esquiva definición de "deepfake"

mm
Basado en: https://unsplash.com/photos/hombre-sentado-en-una-silla-E9PFbdhZmus

Un nuevo y convincente estudio de Alemania critica la Ley de IA de la UE La definición del término "deepfake" es excesivamente vaga, especialmente en el contexto de la manipulación de imágenes digitales. Los autores argumentan que el énfasis de la Ley en el contenido que se asemeja a personas o eventos reales, aunque potencialmente... apareciendo falso – carece de claridad.

También destacan que las excepciones de la Ley para la "edición estándar" (es decir, modificaciones supuestamente menores a las imágenes asistidas por IA) no tienen en cuenta ni la influencia generalizada de la IA en las aplicaciones de consumo ni la naturaleza subjetiva de las convenciones artísticas anteriores a la llegada de la IA.

Una legislación imprecisa sobre estas cuestiones da lugar a dos riesgos clave: un "efecto paralizante", en el que el amplio alcance interpretativo de la ley sofoca la innovación y la adopción de nuevos sistemas; y un "efecto infractor", en el que la ley se ignora por considerarla extralimitada o irrelevante.

En ambos casos, las leyes vagas transfieren efectivamente la responsabilidad de establecer definiciones jurídicas prácticas a futuros fallos judiciales: un enfoque cauteloso y reacio al riesgo en la legislación.

Al parecer, las tecnologías de manipulación de imágenes basadas en IA siguen estando notablemente por delante de la capacidad de la legislación para abordarlas. Por ejemplo, un ejemplo notable de la creciente elasticidad del concepto de posprocesamiento «automático» impulsado por IA, observa el artículo, es el 'Optimizador de escena' función en las cámaras recientes de Samsung, que puede reemplazar imágenes de la luna tomadas por el usuario (una desafiante sujeto), con una imagen 'refinada' impulsada por IA:

Arriba a la izquierda, un ejemplo del nuevo artículo de una imagen real de la luna tomada por un usuario; a la izquierda, una versión mejorada por Samsung creada automáticamente con Scene Optimizer; a la derecha, la ilustración oficial de Samsung del proceso detrás de esto; abajo a la izquierda, ejemplos del usuario de Reddit u/ibreakphotos, que muestra (a la izquierda) una imagen deliberadamente borrosa de la luna y (a la derecha), la reimaginación de esta imagen por parte de Samsung, a pesar de que la foto original era una imagen de un monitor y no de la luna real. Fuentes (en el sentido de las agujas del reloj desde la parte superior izquierda): https://arxiv.org/pdf/2412.09961; https://www.samsung.com/uk/support/mobile-devices/how-galaxy-cameras-combine-super-resolution-technologies-with-ai-to-produce-high-quality-images-of-the-moon/; https:/reddit.com/r/Android/comments/11nzrb0/las_fotos_de_la_luna_con_zoom_espacial_de_samsung_son_falsas_y_están_aquí/

Arriba a la izquierda, un ejemplo del nuevo artículo de una imagen real de la luna tomada por un usuario, a la izquierda de una versión mejorada por Samsung creada automáticamente con Scene Optimizer; a la derecha, la ilustración oficial de Samsung del proceso detrás de esto; abajo a la izquierda, ejemplos del usuario de Reddit u/ibreakphotos, que muestran (izquierda) una imagen deliberadamente borrosa de la luna y (derecha), la reimaginación de esta imagen por parte de Samsung, aunque la foto original era una imagen de un monitor, y no de la luna real. Fuentes (en el sentido de las agujas del reloj desde la parte superior izquierda): https://arxiv.org/pdf/2412.09961; https://www.samsung.com/uk/support/mobile-devices/how-galaxy-cameras-combine-super-resolution-technologies-with-ai-to-produce-high-quality-images-of-the-moon/; https:/reddit.com/r/Android/comments/11nzrb0/samsung_space_zoom_moon_shots_are_fake_and_here/

En la parte inferior izquierda de la imagen de arriba, vemos dos imágenes de la luna. La de la izquierda es una foto adoptado Por un usuario de Reddit. En este caso, el usuario ha difuminado y reducido deliberadamente la imagen.

A la derecha, vemos una foto de la misma imagen degradada, tomada con una cámara Samsung con posprocesamiento con IA activado. La cámara ha aumentado automáticamente el objeto lunar reconocido, aunque no era la luna real.

El artículo formula críticas más profundas a la Mejor toma función incorporada en los últimos teléfonos inteligentes de Google: una polémico Función de inteligencia artificial que edita juntas las "mejores" partes de una foto grupal, escaneando varios segundos de una secuencia de fotografías para que las sonrisas se desplacen hacia adelante o hacia atrás en el tiempo según sea necesario, y nadie se muestre en medio del parpadeo.

El artículo sostiene que este tipo de proceso compuesto tiene el potencial de tergiversar los acontecimientos:

'En una típica fotografía grupal, un espectador promedio probablemente seguiría considerando la foto resultante como auténtica. La sonrisa que se inserta existe un par de segundos después de que se toma la otra foto.

'Por otra parte, el lapso de diez segundos que dura la mejor toma es suficiente para que se produzca un cambio de humor. Una persona podría haber dejado de sonreír mientras el resto del grupo se ríe de un chiste a su costa.

"Por consiguiente, asumimos que esa foto de grupo podría muy bien ser una falsificación".

En el sitio web nuevo documento se titula ¿Qué constituye una falsificación profunda? La línea difusa entre el procesamiento legítimo y la manipulación según la Ley de Inteligencia Artificial de la UE, y proviene de dos investigadores del Laboratorio de Derecho Computacional de la Universidad de Tübingen y la Universidad del Sarre.

Viejos trucos

La manipulación del tiempo en la fotografía es mucho más antigua que la IA de consumo. Los autores del nuevo artículo señalan la existencia de técnicas mucho más antiguas que pueden considerarse "falsas", como la concatenación de múltiples imágenes secuenciales en una Alto rango dinámico (Foto HDR), o una 'cosido' Foto panorámica.

De hecho, algunas de las falsificaciones fotográficas más antiguas y divertidas fueron creadas tradicionalmente por escolares que corrían de un extremo a otro de un grupo escolar, por delante de la trayectoria del especial. cámaras panorámicas que antiguamente se utilizaban para fotografías deportivas y de grupos escolares, lo que permitía que el alumno apareciera dos veces en la misma imagen:

La tentación de engañar a las cámaras panorámicas durante las fotos de grupo fue demasiado para muchos estudiantes, que estaban dispuestos a arriesgarse a una mala sesión en la oficina del director con tal de "clonarse" a sí mismos en las fotos escolares. Fuente: https://petapixel.com/2012/12/13/double-exposure-a-clever-photo-prank-from-half-a-century-ago/

La tentación de engañar a las cámaras panorámicas durante las fotos de grupo fue demasiado grande para resistir para muchos estudiantes, que estaban dispuestos a arriesgarse a una mala sesión en la dirección con el fin de "clonarse" en las fotos escolares. Fuente: https://petapixel.com/2012/12/13/double-exposure-a-clever-photo-prank-from-half-a-century-ago/

A menos que tomes una foto en modo RAW, que básicamente convierte el sensor de la lente de la cámara en un archivo muy grande sin ningún tipo de interpretación, es probable que tus fotos digitales no sean completamente auténticas. Los sistemas de cámaras aplican rutinariamente algoritmos de "mejora", como la nitidez de la imagen y el balance de blancos, de forma predeterminada, y lo han hecho desde los orígenes de la fotografía digital para el consumidor.

Los autores del nuevo artículo sostienen que incluso estos tipos más antiguos de aumento de fotografía digital no representan la "realidad", ya que dichos métodos están diseñados para hacer que las fotos sean más agradables, no más "reales".

El estudio sugiere que la Ley de IA de la UE, incluso con modificaciones posteriores como considerandos 123–27, coloca toda la producción fotográfica dentro de un probatorio marco inadecuado para el contexto en el que se producen las fotos en la actualidad, a diferencia de la naturaleza (nominalmente objetiva) de las imágenes de cámaras de seguridad o la fotografía forense. Es más probable que la mayoría de las imágenes a las que se refiere la Ley de IA se originen en contextos en los que los fabricantes y las plataformas en línea promover activamente Interpretación fotográfica creativa, incluido el uso de IA.

Los investigadores sugieren que las fotos «nunca han sido una representación objetiva de la realidad». Consideraciones como la ubicación de la cámara, la profundidad de campo elegida y la iluminación contribuyen a que una fotografía sea profundamente subjetiva.

El artículo observa que las tareas rutinarias de "limpieza" (como quitar el polvo del sensor o cables eléctricos no deseados de una escena que por lo demás estaría bien compuesta) eran sólo semi-automatizado antes del surgimiento de la IA: los usuarios tenían que seleccionar manualmente una región o iniciar un proceso para lograr el resultado deseado.

Hoy en día, estas operaciones suelen activarse mediante indicaciones de texto del usuario, sobre todo en herramientas como Photoshop. A nivel de consumidor, estas funciones están cada vez más automatizadas. sin entrada del usuario, un resultado que los fabricantes y las plataformas aparentemente consideran “obviamente deseable”.

El significado diluido de «deepfake»

Un desafío central para la legislación en torno a las imágenes alteradas y generadas por IA es la ambigüedad del término “deepfake”, cuyo significado se ha ampliado notablemente en los últimos dos años.

Originalmente, los términos se aplicaban únicamente a la salida de vídeo de sistemas basados ​​en autocodificadores como DeepFaceLab y FaceSwap, ambos derivados de código anónimo publicado en Reddit a fines de 2017.

A partir de 2022, la llegada de Modelos de difusión latente (LDM) como Difusión estable y Flujo, así como sistemas de texto a vídeo como Sora, también permitiría el intercambio de identidades y la personalización, con una resolución, versatilidad y fidelidad mejoradas. Ahora era posible crear modelos basados ​​en la difusión que pudieran representar celebrities y políticos. Dado que el término "deepfake" ya era un tesoro que generaba titulares entre los productores de medios, se extendió para abarcar estos sistemas.

Más tarde, tanto en los medios de comunicación como en la literatura de investigación, el término pasó a incluir también suplantación de identidad basada en textoPara entonces, el significado original de «deepfake» se había perdido prácticamente, mientras que su significado extendido evolucionaba constantemente y se diluía cada vez más.

Pero como la palabra era tan incendiaria y galvanizadora, y ya era una poderosa piedra de toque política y mediática, resultó imposible renunciar a ella. Atraía lectores a sitios web, financiación a investigadores y atención a políticos. Esta ambigüedad léxica es el principal foco de la nueva investigación.

Como observan los autores, el artículo 3(60) de la Ley de IA de la UE describe cuatro condiciones que definen un “deepfake”.

1: Luna verdadera

En primer lugar, el contenido debe ser generado o manipuladoEs decir, creadas desde cero mediante IA (generación) o alteradas a partir de datos existentes (manipulación). El artículo destaca la dificultad de distinguir entre resultados de edición de imágenes "aceptables" y deepfakes manipulados, dado que las fotos digitales nunca son, en ningún caso, representaciones fieles de la realidad.

El documento sostiene que una luna generada por Samsung es posiblemente auténtica, ya que es poco probable que la luna cambie de apariencia y, por lo tanto, es probable que el contenido generado por IA, entrenado con imágenes lunares reales, sea preciso.

Sin embargo, los autores también afirman que, dado que se ha demostrado que el sistema de Samsung genera una imagen "mejorada" de la luna en un caso en el que la imagen de origen no era la luna en sí, esto se consideraría un "deepfake".

Sería poco práctico elaborar una lista completa de diferentes casos de uso en torno a este tipo de ad hoc funcionalidad. Por lo tanto, la carga de la definición parece recaer, una vez más, en los tribunales.

2: Textos falsos

En segundo lugar, el contenido debe ser en forma de imagen, audio o vídeoEl contenido de texto, aunque está sujeto a otras obligaciones de transparencia, no se considera un deepfake según la Ley de Inteligencia Artificial. Esto no se aborda en detalle en el nuevo estudio, aunque puede tener una influencia notable en la eficacia de visual deepfakes (ver más abajo).

3: Problemas del mundo real

En tercer lugar, el contenido debe asemejarse a personas, objetos, lugares, entidades o eventos existentesEsta condición establece una conexión con el mundo real, lo que significa que las imágenes puramente fabricadas, incluso si son fotorrealistas, no calificarían como deepfake. Considerando 134 La Ley de IA de la UE pone énfasis en el aspecto de «semejanza» añadiendo la palabra «apreciablemente» (una aparente postergación a sentencias judiciales posteriores).

Los autores, citando trabajo anterior, considere si un rostro generado por IA debe pertenecer a una persona real o si solo debe ser lo suficientemente realista. similares a una persona real, para satisfacer esta definición.

Por ejemplo, ¿cómo se puede determinar si una secuencia de imágenes fotorrealistas que representan al político Donald Trump tiene la intención de suplantarlo, si las imágenes (o los textos adjuntos) no lo mencionan específicamente? Reconocimiento facial¿Encuestas de usuarios? ¿Cuál es la definición de "sentido común" de un juez?

Volviendo al tema de los 'TextFakes' (ver arriba), las palabras a menudo constituyen una parte importante del acto de un visual deepfake. Por ejemplo, es posible tomar una imagen o un vídeo (sin alterar) de 'persona a' y digamos, en un título o en una publicación en las redes sociales, que la imagen es de 'persona b' (suponiendo que las dos personas tengan algún parecido).

En tal caso, No se necesita IAY el resultado puede ser sorprendentemente efectivo, pero ¿acaso un enfoque de tan baja tecnología también constituye un "deepfake"?

4: Retoque, Remodelación

Por último, el contenido debe parecer auténtico o veraz a una personaEsta condición enfatiza la percepción de espectadores humanos. El contenido que solo un algoritmo reconoce como una representación de una persona u objeto real sería no ser considerado un deepfake.

De todas las condiciones del apartado 3(60), ésta es la que obviamente remite al fallo posterior de un tribunal, ya que no permite ninguna interpretación por medios técnicos o mecanizados.

Es evidente que existen algunas dificultades inherentes a la hora de llegar a un consenso sobre una estipulación tan subjetiva. Los autores observan, por ejemplo, que distintas personas y distintos tipos de personas (como niños y adultos) pueden estar predispuestos de forma distinta a creer en un deepfake en particular.

Los autores señalan además que las avanzadas capacidades de inteligencia artificial de herramientas como Photoshop desafían las definiciones tradicionales de "deepfake". Si bien estos sistemas pueden incluir medidas de seguridad básicas contra contenido controvertido o prohibido, amplían drásticamente el concepto de "retoque". Los usuarios ahora pueden añadir o eliminar objetos de forma fotorrealista y altamente convincente, logrando un nivel de autenticidad profesional que redefine los límites de la manipulación de imágenes.

Los autores declaran:

'Sostenemos que la definición actual de falsificaciones profundas en la ley de IA y las obligaciones correspondientes no están lo suficientemente especificadas para abordar los desafíos que plantean las falsificaciones profundas. Al analizar el ciclo de vida de una fotografía digital desde el sensor de la cámara hasta las funciones de edición digital, descubrimos que:

'(1.) Las falsificaciones profundas están mal definidas en la Ley de Inteligencia Artificial de la UE. La definición deja demasiado margen para definir lo que es una falsificación profunda.

'(2.) No está claro cómo las funciones de edición como la función “mejor toma” de Google pueden considerarse una excepción a las obligaciones de transparencia.

'(3.) La excepción para las imágenes editadas sustancialmente plantea interrogantes sobre qué constituye una edición sustancial de contenido y si esta edición debe ser o no perceptible para una persona física.'

Tomando Excepción

La Ley de IA de la UE contiene excepciones que, según sostienen los autores, pueden ser muy permisivas. Artículo 50 (2), afirman, ofrece una excepción en los casos en que la mayor parte de una imagen original no se altera. Los autores señalan:

¿Qué puede considerarse contenido en el sentido del Artículo 50(2) en el caso de audio, imágenes y vídeos digitales? Por ejemplo, en el caso de las imágenes, ¿debemos considerar el espacio de píxeles o el espacio visible perceptible para los humanos? Las manipulaciones sustanciales en el espacio de píxeles podrían no alterar la percepción humana; por otro lado, pequeñas perturbaciones en el espacio de píxeles pueden alterarla drásticamente.

Los investigadores dan el ejemplo de añadir una pistola a la foto de una persona que apunta a alguien. Al añadir la pistola, se modifica tan solo el 5% de la imagen; sin embargo, la importancia semántica de la porción modificada es notable. Por lo tanto, parece que esta excepción no tiene en cuenta ninguna interpretación lógica del efecto que un pequeño detalle puede tener en el significado general de una imagen.

El artículo 50(2) también permite excepciones para una «función de asistencia para la edición estándar». Dado que la Ley no define qué significa «edición estándar», incluso funciones de posprocesamiento tan extremas como la Mejor Toma de Google parecen estar protegidas por esta excepción, observan los autores.

Conclusión

La intención declarada del nuevo trabajo es fomentar el estudio interdisciplinario en torno a la regulación de los deepfakes y actuar como punto de partida para nuevos diálogos entre científicos informáticos y académicos del derecho.

Sin embargo, el propio documento sucumbe a una tautología en varios puntos: con frecuencia utiliza el término «deepfake» como si su significado fuera evidente, al tiempo que critica la Ley de IA de la UE por no definir qué constituye realmente un deepfake.

 

Primera publicación: lunes 16 de diciembre de 2024

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai