Una nueva investigación estadounidense presenta un método para extraer porciones significativas de datos de entrenamiento a partir de modelos ajustados.
Esto podría proporcionar potencialmente evidencia legal en casos en los que se haya copiado el estilo de un artista o en los que se hayan utilizado imágenes protegidas por derechos de autor para entrenar modelos generativos de figuras públicas, personajes protegidos por propiedad intelectual u otro contenido.
Estos modelos están ampliamente disponibles de forma gratuita en Internet, principalmente a través de los enormes archivos aportados por los usuarios de civit.ai y, en menor medida, en la plataforma de repositorio Hugging Face.
El nuevo modelo desarrollado por los investigadores se llama Extracto finoy los autores sostienen que logra resultados de última generación en esta tarea.
El documento observa:
‘(Nuestro marco) aborda eficazmente el desafío de extraer datos de ajuste de puntos de control ajustados de DM disponibles públicamente. Al aprovechar la transición de distribuciones DM previamente entrenadas a distribuciones de datos ajustadas, FineXtract guía con precisión el proceso de generación hacia regiones de alta probabilidad de la distribución de datos ajustada, lo que permite una extracción de datos exitosa.’
Por qué es importante
El original Los usuarios finales pueden descargar y ajustar modelos entrenados para sistemas generativos de texto a imagen como Stable Diffusion y Flux, utilizando técnicas como la implementación de DreamBooth 2022.
Aún más fácil, el usuario puede crear un modelo LoRA mucho más pequeño que es casi tan efectivo como un modelo completamente ajustado.
Desde 2022, ha sido trivial crear puntos de control y LoRA ajustados específicos de identidad, proporcionando solo una pequeña cantidad (promedio de 5 a 50) de imágenes subtituladas y entrenando el punto de control (o LoRA) localmente, en un marco de código abierto como como Kohya ss, o utilizando servicios en línea.
Este sencillo método de deepfaking ha adquirido notoriedad en los medios de comunicación en los últimos años. Muchos artistas también han visto su trabajo ingerido en modelos generativos que replican su estilo. La controversia en torno a estos temas ha cobrado impulso durante los últimos 18 meses.
Es difícil demostrar qué imágenes se utilizaron en un punto de control ajustado o en un LoRA, ya que el proceso de generalización “abstrae” la identidad de los pequeños conjuntos de datos de entrenamiento y es poco probable que alguna vez reproduzca ejemplos de los datos de entrenamiento (excepto en el caso de sobreajuste, donde se puede considerar que la formación ha fracasado).
Aquí es donde FineXtract entra en escena. Al comparar el estado del modelo de difusión de ‘plantilla’ que el usuario descargó con el modelo que creó posteriormente mediante ajuste fino o mediante LoRA, los investigadores han podido crear reconstrucciones altamente precisas de los datos de entrenamiento.
Aunque FineXtract solo ha podido recrear el 20% de los datos de un ajuste fino*, esto es más de lo que normalmente se necesitaría para proporcionar evidencia de que el usuario había utilizado material protegido por derechos de autor o de otro modo prohibido o protegido en la producción de un modelo generativo. . En la mayoría de los ejemplos proporcionados, la imagen extraída es extremadamente cercana al material fuente conocido.
Si bien se necesitan subtítulos para extraer las imágenes de origen, esto no es una barrera significativa por dos razones: a) quien carga el archivo generalmente quiere facilitar el uso del modelo entre una comunidad y generalmente proporcionará ejemplos oportunos; yb) no es tan difícil, descubrieron los investigadores, extraer los términos fundamentales a ciegas, del modelo ajustado:
Los usuarios frecuentemente evitan que sus conjuntos de datos de entrenamiento estén disponibles junto con el modelo entrenado estilo “caja negra”. Para la investigación, los autores colaboraron con entusiastas del aprendizaje automático que realmente proporcionaron conjuntos de datos.
El nuevo artículo se titula Revelar lo invisible: guiar modelos de difusión personalizados para exponer datos de entrenamientoy proviene de tres investigadores de las universidades Carnegie Mellon y Purdue.
Método
El “atacante” (en este caso, el sistema FineXtract) compara las distribuciones de datos estimadas entre el modelo original y el ajustado, en un proceso que los autores denominan “guía del modelo”.
Los autores explican:
‘Durante el proceso de ajuste, los (modelos de difusión) cambian progresivamente su distribución aprendida de los DM previamente entrenados (distribución) hacia los datos ajustados (distribución).
“Por lo tanto, aproximamos paramétricamente (la) distribución aprendida de los (modelos de difusión) ajustados”.
De esta manera, la suma de las diferencias entre los modelos central y perfeccionado proporciona el proceso de orientación.
Los autores comentan además:
“Con la guía del modelo, podemos simular eficazmente un “pseudo” (eliminador de ruido), que puede usarse para dirigir el proceso de muestreo hacia la región de alta probabilidad dentro de una distribución de datos afinada”.
La guía se basa en parte en un proceso de ruido que varía en el tiempo similar a la salida de 2023. Borrar conceptos de los modelos de difusión.
La predicción de eliminación de ruido obtenida también proporciona una probable escala de guía sin clasificador (CFG). Esto es importante, ya que CFG afecta significativamente la calidad de la imagen y la fidelidad al mensaje de texto del usuario.
Para mejorar la precisión de las imágenes extraídas, FineXtract se basa en la aclamada colaboración de 2023 Extracción de datos de entrenamiento de modelos de difusión. El método utilizado es calcular la similitud de cada par de imágenes generadas, en función de un umbral definido por la puntuación del Descriptor Autosupervisado (SSCD).
De esta manera, el algoritmo de agrupamiento ayuda a FineXtract a identificar el subconjunto de imágenes extraídas que concuerdan con los datos de entrenamiento.
En este caso, los investigadores colaboraron con los usuarios que habían puesto a disposición los datos. Se podría decir razonablemente que, ausente Con tales datos, sería imposible probar que alguna imagen generada en particular se utilizó realmente en el entrenamiento en el original. Sin embargo, ahora es relativamente trivial comparar imágenes cargadas con imágenes en vivo en la web o con imágenes que también se encuentran en conjuntos de datos conocidos y publicados, basándose únicamente en el contenido de la imagen.
Datos y pruebas
Para probar FineXtract, los autores realizaron experimentos en modelos ajustados de pocos disparos en los dos escenarios de ajuste más comunes, dentro del alcance del proyecto: estilos artísticosy impulsado por objetos generación (esta última abarca efectivamente temas basados en el rostro).
Seleccionaron al azar 20 artistas (cada uno con 10 imágenes) del conjunto de datos de WikiArt y 30 sujetos (cada uno con 5-6 imágenes) del conjunto de datos de DreamBooth, para abordar estos respectivos escenarios.
DreamBooth y LoRA fueron los métodos de ajuste específicos, y se utilizó Stable Diffusion V1/.4 para las pruebas.
Si el algoritmo de agrupamiento no arrojó resultados después de treinta segundos, el umbral se modificó hasta que se devolvieron las imágenes.
Las dos métricas utilizadas para las imágenes generadas fueron la similitud promedio (AS) bajo SSCD y la tasa promedio de éxito de extracción (A-ESR), una medida que coincide ampliamente con trabajos anteriores, donde una puntuación de 0,7 representa el mínimo para denotar un resultado completamente exitoso. extracción de datos de entrenamiento.
Dado que los enfoques anteriores han utilizado la generación directa de texto a imagen o CFG, los investigadores compararon FineXtract con estos dos métodos.
Los autores comentan:
“Los (resultados) demuestran una ventaja significativa de FineXtract sobre los métodos anteriores, con una mejora de aproximadamente 0,02 a 0,05 en AS y una duplicación de la A-ESR en la mayoría de los casos”.
Para probar la capacidad del método para generalizar a datos nuevos, los investigadores realizaron una prueba adicional utilizando Stable Diffusion (V1.4), Stable Diffusion XL y AltDiffusion.
Como se ve en los resultados mostrados arriba, FineXtract pudo lograr una mejora con respecto a los métodos anteriores también en esta prueba más amplia.
Los autores observan que cuando se utiliza una mayor cantidad de imágenes en el conjunto de datos para un modelo ajustado, el algoritmo de agrupamiento debe ejecutarse durante un período de tiempo más largo para seguir siendo efectivo.
Además, observan que en los últimos años se ha desarrollado una variedad de métodos diseñados para impedir este tipo de extracción, bajo los auspicios de la protección de la privacidad. Por lo tanto, probaron FineXtract con datos aumentados mediante los métodos Cutout y RandAugment.
Si bien los autores admiten que los dos sistemas de protección funcionan bastante bien al ofuscar las fuentes de datos de capacitación, señalan que esto tiene el costo de una disminución en la calidad de la producción tan grave que hace que la protección sea inútil:
El documento concluye:
“Nuestros experimentos demuestran la solidez del método en varios conjuntos de datos y puntos de control del mundo real, destacando los riesgos potenciales de fuga de datos y proporcionando pruebas sólidas de infracciones de derechos de autor”.
Conclusión
2024 ha demostrado ser el año en el que el interés de las corporaciones por datos de entrenamiento “limpios” aumentó significativamente, frente a la cobertura mediática continua sobre la propensión de la IA a reemplazar a los humanos y la perspectiva de proteger legalmente los modelos generativos que ellas mismas están tan ansiosas por explotar. .
Es fácil afirmar que sus datos de entrenamiento están limpios, pero también es cada vez más fácil para tecnologías similares demostrar que no lo están, como han descubierto Runway ML, Stability.ai y MidJourney (entre otros) en los últimos días.
Proyectos como FineXtract son posiblemente presagios del fin absoluto de la era de la IA del “salvaje oeste”, donde incluso la naturaleza aparentemente oculta de un espacio latente entrenado podría ser considerada responsable.
* Por conveniencia, ahora asumiremos “ajuste fino y LoRA”, cuando sea necesario.
Publicado por primera vez el lunes 7 de octubre de 2024