Extracción de datos de entrenamiento de modelos de difusión estables ajustados

Una nueva investigación estadounidense presenta un método para extraer porciones significativas de datos de entrenamiento a partir de modelos ajustados.

Esto podría proporcionar potencialmente evidencia legal en casos en los que se haya copiado el estilo de un artista o en los que se hayan utilizado imágenes protegidas por derechos de autor para entrenar modelos generativos de figuras públicas, personajes protegidos por propiedad intelectual u otro contenido.

Del nuevo artículo: las imágenes de entrenamiento originales se ven en la fila de arriba y las imágenes extraídas se muestran en la fila de abajo. Fuente: https://arxiv.org/pdf/2410.03039

Estos modelos están ampliamente disponibles de forma gratuita en Internet, principalmente a través de los enormes archivos aportados por los usuarios de civit.ai y, en menor medida, en la plataforma de repositorio Hugging Face.

El nuevo modelo desarrollado por los investigadores se llama Extracto finoy los autores sostienen que logra resultados de última generación en esta tarea.

El documento observa:

‘(Nuestro marco) aborda eficazmente el desafío de extraer datos de ajuste de puntos de control ajustados de DM disponibles públicamente. Al aprovechar la transición de distribuciones DM previamente entrenadas a distribuciones de datos ajustadas, FineXtract guía con precisión el proceso de generación hacia regiones de alta probabilidad de la distribución de datos ajustada, lo que permite una extracción de datos exitosa.’

Extremo derecho, la imagen original utilizada en el entrenamiento. Segunda desde la derecha, la imagen extraída mediante FineXtract. Las otras columnas representan métodos anteriores alternativos. Consulte el documento original para obtener una mejor resolución.

Por qué es importante

El original Los usuarios finales pueden descargar y ajustar modelos entrenados para sistemas generativos de texto a imagen como Stable Diffusion y Flux, utilizando técnicas como la implementación de DreamBooth 2022.

Aún más fácil, el usuario puede crear un modelo LoRA mucho más pequeño que es casi tan efectivo como un modelo completamente ajustado.

Un ejemplo de LORA entrenado, que se ofrece para descarga gratuita en el popular dominio civitai. Un modelo de este tipo puede ser creado en cuestión de minutos a unas pocas horas, por entusiastas que utilicen software de código abierto instalado localmente, y en línea, a través de algunos de los sistemas de capacitación basados en API más permisivos. Fuente: civitai.com

Desde 2022, ha sido trivial crear puntos de control y LoRA ajustados específicos de identidad, proporcionando solo una pequeña cantidad (promedio de 5 a 50) de imágenes subtituladas y entrenando el punto de control (o LoRA) localmente, en un marco de código abierto como como Kohya ss, o utilizando servicios en línea.

LEER OpenAI presenta API en tiempo real y otras funciones para desarrolladores

Este sencillo método de deepfaking ha adquirido notoriedad en los medios de comunicación en los últimos años. Muchos artistas también han visto su trabajo ingerido en modelos generativos que replican su estilo. La controversia en torno a estos temas ha cobrado impulso durante los últimos 18 meses.

La facilidad con la que los usuarios pueden crear sistemas de inteligencia artificial que repliquen el trabajo de artistas reales ha causado furor y diversas campañas en los últimos dos años. Fuente: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

Es difícil demostrar qué imágenes se utilizaron en un punto de control ajustado o en un LoRA, ya que el proceso de generalización “abstrae” la identidad de los pequeños conjuntos de datos de entrenamiento y es poco probable que alguna vez reproduzca ejemplos de los datos de entrenamiento (excepto en el caso de sobreajuste, donde se puede considerar que la formación ha fracasado).

Aquí es donde FineXtract entra en escena. Al comparar el estado del modelo de difusión de ‘plantilla’ que el usuario descargó con el modelo que creó posteriormente mediante ajuste fino o mediante LoRA, los investigadores han podido crear reconstrucciones altamente precisas de los datos de entrenamiento.

Aunque FineXtract solo ha podido recrear el 20% de los datos de un ajuste fino*, esto es más de lo que normalmente se necesitaría para proporcionar evidencia de que el usuario había utilizado material protegido por derechos de autor o de otro modo prohibido o protegido en la producción de un modelo generativo. . En la mayoría de los ejemplos proporcionados, la imagen extraída es extremadamente cercana al material fuente conocido.

Si bien se necesitan subtítulos para extraer las imágenes de origen, esto no es una barrera significativa por dos razones: a) quien carga el archivo generalmente quiere facilitar el uso del modelo entre una comunidad y generalmente proporcionará ejemplos oportunos; yb) no es tan difícil, descubrieron los investigadores, extraer los términos fundamentales a ciegas, del modelo ajustado:

Las palabras clave esenciales generalmente se pueden extraer a ciegas del modelo ajustado mediante un ataque L2-PGD de más de 1000 iteraciones, desde un mensaje aleatorio.

Los usuarios frecuentemente evitan que sus conjuntos de datos de entrenamiento estén disponibles junto con el modelo entrenado estilo “caja negra”. Para la investigación, los autores colaboraron con entusiastas del aprendizaje automático que realmente proporcionaron conjuntos de datos.

El nuevo artículo se titula Revelar lo invisible: guiar modelos de difusión personalizados para exponer datos de entrenamientoy proviene de tres investigadores de las universidades Carnegie Mellon y Purdue.

LEER La búsqueda de OpenAI por AGI: GPT-4o frente al próximo modelo

Método

El “atacante” (en este caso, el sistema FineXtract) compara las distribuciones de datos estimadas entre el modelo original y el ajustado, en un proceso que los autores denominan “guía del modelo”.

A través de la “guía del modelo”, desarrollada por los investigadores del nuevo artículo, se pueden mapear las características de ajuste, lo que permite la extracción de los datos de entrenamiento.

Los autores explican:

‘Durante el proceso de ajuste, los (modelos de difusión) cambian progresivamente su distribución aprendida de los DM previamente entrenados (distribución) hacia los datos ajustados (distribución).

“Por lo tanto, aproximamos paramétricamente (la) distribución aprendida de los (modelos de difusión) ajustados”.

De esta manera, la suma de las diferencias entre los modelos central y perfeccionado proporciona el proceso de orientación.

Los autores comentan además:

“Con la guía del modelo, podemos simular eficazmente un “pseudo” (eliminador de ruido), que puede usarse para dirigir el proceso de muestreo hacia la región de alta probabilidad dentro de una distribución de datos afinada”.

La guía se basa en parte en un proceso de ruido que varía en el tiempo similar a la salida de 2023. Borrar conceptos de los modelos de difusión.

La predicción de eliminación de ruido obtenida también proporciona una probable escala de guía sin clasificador (CFG). Esto es importante, ya que CFG afecta significativamente la calidad de la imagen y la fidelidad al mensaje de texto del usuario.

Para mejorar la precisión de las imágenes extraídas, FineXtract se basa en la aclamada colaboración de 2023 Extracción de datos de entrenamiento de modelos de difusión. El método utilizado es calcular la similitud de cada par de imágenes generadas, en función de un umbral definido por la puntuación del Descriptor Autosupervisado (SSCD).

De esta manera, el algoritmo de agrupamiento ayuda a FineXtract a identificar el subconjunto de imágenes extraídas que concuerdan con los datos de entrenamiento.

En este caso, los investigadores colaboraron con los usuarios que habían puesto a disposición los datos. Se podría decir razonablemente que, ausente Con tales datos, sería imposible probar que alguna imagen generada en particular se utilizó realmente en el entrenamiento en el original. Sin embargo, ahora es relativamente trivial comparar imágenes cargadas con imágenes en vivo en la web o con imágenes que también se encuentran en conjuntos de datos conocidos y publicados, basándose únicamente en el contenido de la imagen.

LEER El auge de los agentes de IA interactivos multimodales: explorando Astra de Google y ChatGPT-4o de OpenAI

Datos y pruebas

Para probar FineXtract, los autores realizaron experimentos en modelos ajustados de pocos disparos en los dos escenarios de ajuste más comunes, dentro del alcance del proyecto: estilos artísticosy impulsado por objetos generación (esta última abarca efectivamente temas basados en el rostro).

Seleccionaron al azar 20 artistas (cada uno con 10 imágenes) del conjunto de datos de WikiArt y 30 sujetos (cada uno con 5-6 imágenes) del conjunto de datos de DreamBooth, para abordar estos respectivos escenarios.

DreamBooth y LoRA fueron los métodos de ajuste específicos, y se utilizó Stable Diffusion V1/.4 para las pruebas.

Si el algoritmo de agrupamiento no arrojó resultados después de treinta segundos, el umbral se modificó hasta que se devolvieron las imágenes.

Las dos métricas utilizadas para las imágenes generadas fueron la similitud promedio (AS) bajo SSCD y la tasa promedio de éxito de extracción (A-ESR), una medida que coincide ampliamente con trabajos anteriores, donde una puntuación de 0,7 representa el mínimo para denotar un resultado completamente exitoso. extracción de datos de entrenamiento.

Dado que los enfoques anteriores han utilizado la generación directa de texto a imagen o CFG, los investigadores compararon FineXtract con estos dos métodos.

Resultados de comparaciones de FineXtract con los dos métodos anteriores más populares.

Los autores comentan:

“Los (resultados) demuestran una ventaja significativa de FineXtract sobre los métodos anteriores, con una mejora de aproximadamente 0,02 a 0,05 en AS y una duplicación de la A-ESR en la mayoría de los casos”.

Para probar la capacidad del método para generalizar a datos nuevos, los investigadores realizaron una prueba adicional utilizando Stable Diffusion (V1.4), Stable Diffusion XL y AltDiffusion.

FineXtract se aplica en una variedad de modelos de difusión. Para el componente WikiArt, la prueba se centró en cuatro clases de WikiArt.

Como se ve en los resultados mostrados arriba, FineXtract pudo lograr una mejora con respecto a los métodos anteriores también en esta prueba más amplia.

Una comparación cualitativa de los resultados extraídos de FineXtract y enfoques anteriores. Consulte el documento original para obtener una mejor resolución.

Los autores observan que cuando se utiliza una mayor cantidad de imágenes en el conjunto de datos para un modelo ajustado, el algoritmo de agrupamiento debe ejecutarse durante un período de tiempo más largo para seguir siendo efectivo.

Además, observan que en los últimos años se ha desarrollado una variedad de métodos diseñados para impedir este tipo de extracción, bajo los auspicios de la protección de la privacidad. Por lo tanto, probaron FineXtract con datos aumentados mediante los métodos Cutout y RandAugment.

Rendimiento de FineXtract frente a imágenes protegidas; por Recorte y RandAugment.

Si bien los autores admiten que los dos sistemas de protección funcionan bastante bien al ofuscar las fuentes de datos de capacitación, señalan que esto tiene el costo de una disminución en la calidad de la producción tan grave que hace que la protección sea inútil:

Imágenes producidas con Stable Diffusion V1.4, ajustadas con medidas defensivas, que reducen drásticamente la calidad de la imagen. Consulte el documento original para obtener una mejor resolución.

El documento concluye:

“Nuestros experimentos demuestran la solidez del método en varios conjuntos de datos y puntos de control del mundo real, destacando los riesgos potenciales de fuga de datos y proporcionando pruebas sólidas de infracciones de derechos de autor”.

Conclusión

2024 ha demostrado ser el año en el que el interés de las corporaciones por datos de entrenamiento “limpios” aumentó significativamente, frente a la cobertura mediática continua sobre la propensión de la IA a reemplazar a los humanos y la perspectiva de proteger legalmente los modelos generativos que ellas mismas están tan ansiosas por explotar. .

Es fácil afirmar que sus datos de entrenamiento están limpios, pero también es cada vez más fácil para tecnologías similares demostrar que no lo están, como han descubierto Runway ML, Stability.ai y MidJourney (entre otros) en los últimos días.

Proyectos como FineXtract son posiblemente presagios del fin absoluto de la era de la IA del “salvaje oeste”, donde incluso la naturaleza aparentemente oculta de un espacio latente entrenado podría ser considerada responsable.

* Por conveniencia, ahora asumiremos “ajuste fino y LoRA”, cuando sea necesario.

Publicado por primera vez el lunes 7 de octubre de 2024

Extracción de datos de entrenamiento de modelos de difusión estables ajustados

Por qué es importante

Método

Datos y pruebas

Conclusión

Últimas noticias

Tecnología favorita para trabajar y viajar a distancia (vídeo)

El asistente SwannShield AI le dirá a las personas que llaman no deseadas que se vayan

Cómo los investigadores de IA ganaron premios Nobel de Física y Química: dos lecciones clave para futuros descubrimientos científicos

Obtenga una licencia de Microsoft 365 por $40 ahora mismo

Evento de Apple en octubre: probable lanzamiento del MacBook Pro M4, se filtraron detalles

Selección del editor

La detección de pérdida de pulso es una función de Pixel Watch que Apple debería considerar usar

Revisión de la cámara interior Ring Pan-Tilt

Los piratas informáticos abusan de la herramienta EDRSilencer para eludir la seguridad y ocultar actividades maliciosas

Se espera que iQOO Neo 10 y Neo 10 Pro con Snapdragon 8 Gen 3 y Dimensity 9400 se lancen pronto: todos los detalles

Síguenos en las redes sociales