Un nuevo y convincente estudio realizado en Alemania critica la definición del término “deepfake” contenida en la Ley de IA de la UE como demasiado vaga, particularmente en el contexto de la manipulación de imágenes digitales. Los autores sostienen que el énfasis de la ley en el contenido que se asemeja a personas o eventos reales (aunque potencialmente apareciendo falso: carece de claridad.
También destacan que las excepciones de la Ley para la “edición estándar” (es decir, modificaciones de imágenes supuestamente menores asistidas por IA) no tienen en cuenta tanto la influencia generalizada de la IA en las aplicaciones de consumo como la naturaleza subjetiva de las convenciones artísticas anteriores a la llegada de la IA.
Una legislación imprecisa sobre estos temas da lugar a dos riesgos clave: un “efecto paralizador”, donde el amplio alcance interpretativo de la ley sofoca la innovación y la adopción de nuevos sistemas; y un ‘efecto de burla’, donde la ley es ignorada por ser excesiva o irrelevante.
En cualquier caso, las leyes vagas transfieren efectivamente la responsabilidad de establecer definiciones jurídicas prácticas a futuros fallos judiciales: un enfoque legislativo cauteloso y reacio al riesgo.
Al parecer, las tecnologías de manipulación de imágenes basadas en IA siguen notablemente por delante de la capacidad de la legislación para abordarlas. Por ejemplo, un ejemplo notable de la creciente elasticidad del concepto de posprocesamiento “automático” impulsado por IA, observa el artículo, es la función “Optimizador de escena” en las cámaras Samsung recientes, que puede reemplazar las imágenes de la luna tomadas por los usuarios. (un tema desafiante), con una imagen “refinada” impulsada por IA:
En la parte inferior izquierda de la imagen de arriba, vemos dos imágenes de la luna. La de la izquierda es una foto tomada por un usuario de Reddit. En este caso, el usuario ha desenfocado y reducido deliberadamente la imagen.
A su derecha vemos una foto de la misma imagen degradada tomada con una cámara Samsung con posprocesamiento impulsado por IA habilitado. La cámara ha “aumentado” automáticamente el objeto “lunar” reconocido, aunque no era la luna real.
El artículo critica más profundamente la función Best Take incorporada en los últimos teléfonos inteligentes de Google: una controvertida función de inteligencia artificial que edita juntas las “mejores” partes de una foto grupal, escaneando varios segundos de una secuencia fotográfica para que las sonrisas se muevan hacia adelante o hacia atrás en el tiempo. según sea necesario, y no se muestra a nadie en medio del parpadeo.
El artículo sostiene que este tipo de proceso compuesto tiene el potencial de tergiversar los eventos:
‘(En) un entorno típico de fotografía de grupo, un espectador promedio probablemente todavía consideraría la foto resultante como auténtica. La sonrisa que se inserta existió un par de segundos después de que se tomó la foto restante.
‘Por otro lado, los diez segundos de la mejor toma son suficientes para un cambio de humor. Es posible que una persona haya dejado de sonreír mientras el resto del grupo se ríe de un chiste a su costa.
“Por lo tanto, suponemos que una foto de grupo así puede ser una gran falsificación”.
El nuevo artículo se titula ¿Qué constituye un Deep Fake? La línea borrosa entre procesamiento legítimo y manipulación según la Ley de IA de la UEy proviene de dos investigadores del Laboratorio de Derecho Computacional de la Universidad de Tubinga y la Universidad del Sarre.
Viejos trucos
Manipular el tiempo en fotografía es mucho más antiguo que la IA a nivel de consumidor. Los autores del nuevo artículo señalan la existencia de técnicas mucho más antiguas que pueden considerarse “no auténticas”, como la concatenación de múltiples imágenes secuenciales en una fotografía de alto rango dinámico (HDR) o una fotografía panorámica “cosida”.
De hecho, algunas de las falsificaciones fotográficas más antiguas y divertidas las creaban tradicionalmente escolares que corrían de un extremo a otro del grupo escolar, adelantándose a la trayectoria de las cámaras panorámicas especiales que alguna vez se utilizaron para la fotografía de deportes y grupos escolares, lo que permitió la pupila aparezca dos veces en la misma imagen:
A menos que tomes una foto en modo RAW, que básicamente descarga el sensor de la lente de la cámara en un archivo muy grande sin ningún tipo de interpretación, es probable que tus fotos digitales no sean completamente auténticas. Los sistemas de cámaras aplican rutinariamente algoritmos de “mejora” como la nitidez de la imagen y el balance de blancos, de forma predeterminada, y lo han hecho desde los orígenes de la fotografía digital para el consumidor.
Los autores del nuevo artículo sostienen que incluso estos tipos más antiguos de aumento de fotografías digitales no representan la “realidad”, ya que tales métodos están diseñados para hacer las fotografías más agradables, no más “reales”.
El estudio sugiere que la Ley de IA de la UE, incluso con enmiendas posteriores como los considerandos 123 a 27, sitúa toda la producción fotográfica dentro de un probatorio marco inadecuado para el contexto en el que se producen las fotografías hoy en día, a diferencia de la naturaleza (nominalmente objetiva) de las imágenes de las cámaras de seguridad o la fotografía forense. Es más probable que la mayoría de las imágenes abordadas por la Ley de IA se originen en contextos donde los fabricantes y las plataformas en línea promover activamente Interpretación fotográfica creativa, incluido el uso de IA.
Los investigadores sugieren que las fotografías “nunca han sido una representación objetiva de la realidad”. Consideraciones como la ubicación de la cámara, la profundidad de campo elegida y las opciones de iluminación contribuyen a que una fotografía sea profundamente subjetiva.
El documento observa que las tareas rutinarias de “limpieza” -como eliminar el polvo de los sensores o las líneas eléctricas no deseadas de una escena que de otro modo estaría bien compuesta- sólo fueron semi-Automatizado antes del auge de la IA: los usuarios tenían que seleccionar manualmente una región o iniciar un proceso para lograr el resultado deseado.
Hoy en día, estas operaciones suelen activarse mediante indicaciones de texto del usuario, sobre todo en herramientas como Photoshop. A nivel del consumidor, estas funciones están cada vez más automatizadas. sin aportaciones del usuario, un resultado que aparentemente los fabricantes y las plataformas consideran “obviamente deseable”.
El significado diluido de ‘deepfake’
Un desafío central para la legislación sobre imágenes alteradas y generadas por IA es la ambigüedad del término “deepfake”, cuyo significado se ha ampliado notablemente en los últimos dos años.
Originalmente, los términos se aplicaban solo a la salida de video de sistemas basados en codificadores automáticos como DeepFaceLab y FaceSwap, ambos derivados de un código anónimo publicado en Reddit a finales de 2017.
A partir de 2022, la llegada de modelos de difusión latente (LDM), como Stable Diffusion y Flux, así como sistemas de conversión de texto a vídeo como Sora, también permitirían el intercambio de identidades y la personalización, con una resolución, versatilidad y fidelidad mejoradas. Ahora era posible crear modelos basados en la difusión que pudieran representar a celebridades y políticos. Dado que el término “deepfake” ya era un tesoro que acaparaba titulares para los productores de medios, se amplió para abarcar estos sistemas.
Más tarde, tanto en los medios como en la literatura de investigación, el término llegó a incluir también suplantación basada en texto. En este punto, el significado original de “deepfake” prácticamente se había perdido, mientras que su significado ampliado evolucionaba constantemente y se diluía cada vez más.
Pero como la palabra era tan incendiaria y galvanizadora, y ya era una poderosa piedra de toque política y mediática, resultó imposible darse por vencido. Atrajo lectores a sitios web, financiación para investigadores y atención a los políticos. Esta ambigüedad léxica es el foco principal de la nueva investigación.
Como observan los autores, el artículo 3 (60) de la Ley de IA de la UE describe cuatro condiciones que definen un “deepfake”.
1: Luna verdadera
En primer lugar, el contenido debe ser generado o manipuladoes decir, creado desde cero utilizando IA (generación) o modificado a partir de datos existentes (manipulación). El artículo destaca la dificultad de distinguir entre resultados “aceptables” de edición de imágenes y deepfakes manipuladores, dado que las fotografías digitales, en cualquier caso, nunca son representaciones verdaderas de la realidad.
El documento sostiene que una luna generada por Samsung es posiblemente auténtica, ya que es poco probable que la luna cambie de apariencia y, por lo tanto, es probable que el contenido generado por IA, entrenado en imágenes lunares reales, sea preciso.
Sin embargo, los autores también afirman que, dado que se ha demostrado que el sistema Samsung genera una imagen “mejorada” de la luna en el caso de que la imagen fuente no fuera la luna misma, esto se consideraría un “deepfake”.
No sería práctico elaborar una lista completa de diferentes casos de uso en torno a este tipo de para esto funcionalidad. Por lo tanto, la carga de la definición parece pasar, una vez más, a los tribunales.
2: Textos falsos
En segundo lugar, el contenido debe ser en forma de imagen, audio o vídeo. El contenido de texto, si bien está sujeto a otras obligaciones de transparencia, no se considera deepfake según la Ley de IA. Esto no se trata en detalle en el nuevo estudio, aunque puede tener una influencia notable en la efectividad de visual deepfakes (ver más abajo).
3: Problemas del mundo real
En tercer lugar, el contenido debe se parecen a personas, objetos, lugares, entidades o eventos existentes. Esta condición establece una conexión con el mundo real, lo que significa que las imágenes puramente inventadas, incluso si son fotorrealistas, no calificarían como deepfake. El considerando 134 de la Ley de IA de la UE enfatiza el aspecto de la “semejanza” al agregar la palabra “apreciablemente” (un aparente aplazamiento a sentencias legales posteriores).
Los autores, citando trabajos anteriores, consideran si una cara generada por IA debe pertenecer a una persona real o si solo debe estar adecuadamente similar a una persona real, para satisfacer esta definición.
Por ejemplo, ¿cómo se puede determinar si una secuencia de imágenes fotorrealistas que representan al político Donald Trump tiene la intención de suplantarse, si las imágenes (o los textos adjuntos) no lo mencionan específicamente? ¿Reconocimiento facial? ¿Encuestas de usuarios? ¿La definición que da un juez de “sentido común”?
Volviendo al tema de los ‘TextFakes’ (ver arriba), las palabras a menudo constituyen una parte significativa del acto de un visual falso profundo. Por ejemplo, es posible tomar una imagen (sin modificaciones) o un vídeo de ‘persona un’y diga, en un título o en una publicación en las redes sociales, que la imagen es de ‘persona b’ (suponiendo que las dos personas se parezcan).
En tal caso, no se necesita IAy el resultado puede ser sorprendentemente efectivo, pero ¿un enfoque tan poco tecnológico también constituye un ‘deepfake’?
4: Retoque, Remodelación
Finalmente, el contenido debe parecer auténtico o veraz a una persona. Esta condición enfatiza la percepción de espectadores humanos. El contenido que un algoritmo sólo reconoce como representativo de una persona u objeto real no ser considerado un deepfake.
De todas las condiciones en 3(60), ésta difiere más obviamente a la sentencia posterior de un tribunal, ya que no permite ninguna interpretación por medios técnicos o mecanizados.
Es evidente que existen algunas dificultades inherentes a la hora de llegar a un consenso sobre una estipulación tan subjetiva. Los autores observan, por ejemplo, que diferentes personas y diferentes tipos de personas (como niños y adultos) pueden tener distintas disposiciones a creer en un deepfake en particular.
Los autores señalan además que las capacidades avanzadas de inteligencia artificial de herramientas como Photoshop desafían las definiciones tradicionales de “deepfake”. Si bien estos sistemas pueden incluir salvaguardias básicas contra contenido controvertido o prohibido, amplían drásticamente el concepto de “retoque”. Los usuarios ahora pueden agregar o eliminar objetos de una manera fotorrealista altamente convincente, logrando un nivel profesional de autenticidad que redefine los límites de la manipulación de imágenes.
Los autores afirman:
‘Sostenemos que la definición actual de deepfakes en la Ley de IA y las obligaciones correspondientes no están suficientemente especificadas para abordar los desafíos que plantean los deepfakes. Al analizar el ciclo de vida de una fotografía digital desde el sensor de la cámara hasta las funciones de edición digital, encontramos que:
‘(1.) Las falsificaciones profundas están mal definidas en la Ley de IA de la UE. La definición deja demasiado margen para lo que es un deepfake.
‘(2.) No está claro cómo funciones de edición como la función “mejor toma” de Google pueden considerarse una excepción a las obligaciones de transparencia.
‘(3.) La excepción para imágenes sustancialmente editadas plantea dudas sobre qué constituye una edición sustancial de contenido y si esta edición debe ser perceptible por una persona física.’
Tomando excepción
La Ley de IA de la UE contiene excepciones que, según sostienen los autores, pueden ser muy permisivas. El artículo 50(2), afirman, ofrece una excepción en los casos en que la mayor parte de una imagen original no se modifica. Los autores señalan:
‘¿Qué puede considerarse contenido en el sentido del artículo 50(2) en los casos de audio, imágenes y vídeos digitales? Por ejemplo, en el caso de las imágenes, ¿hay que considerar el espacio de píxeles o el espacio visible perceptible por los humanos? Es posible que manipulaciones sustanciales en el espacio de píxeles no cambien la percepción humana y, por otro lado, pequeñas perturbaciones en el espacio de píxeles pueden cambiar la percepción dramáticamente.’
Los investigadores dan el ejemplo de añadir una pistola a la foto de una persona que apunta a alguien. Al agregar el arma, se cambia tan solo un 5% de la imagen; sin embargo, el significado semántico de la parte modificada es notable. Por lo tanto, parece que esta excepción no tiene en cuenta ninguna comprensión de “sentido común” del efecto que un pequeño detalle puede tener en el significado general de una imagen.
El artículo 50, apartado 2, también permite excepciones para una “función de asistencia para la edición estándar”. Dado que la ley no define lo que significa “edición estándar”, incluso funciones de posprocesamiento tan extremas como Best Take de Google parecerían estar protegidas por esta excepción, observan los autores.
Conclusión
La intención declarada del nuevo trabajo es fomentar el estudio interdisciplinario en torno a la regulación de los deepfakes y actuar como punto de partida para nuevos diálogos entre informáticos y juristas.
Sin embargo, el artículo en sí sucumbe a la tautología en varios puntos: utiliza con frecuencia el término “deepfake” como si su significado fuera evidente, mientras apunta a la Ley de IA de la UE por no definir qué constituye realmente un deepfake.
Publicado por primera vez el lunes 16 de diciembre de 2024