Una nueva colaboración de investigación entre Singapur y China ha propuesto un método para atacar el popular método de síntesis 3D Gaussian Splatting (3DGS).
El ataque utiliza imágenes de entrenamiento diseñadas de tal complejidad que probablemente abrumen un servicio en línea que permite a los usuarios crear representaciones 3DGS.
Este enfoque se ve facilitado por la naturaleza adaptativa de 3DGS, que está diseñado para agregar tantos detalles representacionales como las imágenes de origen requieren para una representación realista. El método explota tanto la complejidad (texturas) como la forma (geometría) de la imagen elaborada.
El documento afirma que las plataformas en línea, como LumaAI, KIRI, Spline y Polycam, ofrecen cada vez más 3DGS como servicio, y que el nuevo método de ataque, titulado Veneno-Splat – es potencialmente capaz de impulsar el algoritmo 3DGS hacia ‘su peor complejidad de cálculo’ en dichos dominios e incluso facilitar un ataque de denegación de servicio (DOS).
Según los investigadores, 3DGS podría ser radicalmente más vulnerable que otros servicios de entrenamiento neuronal en línea. Los procedimientos convencionales de capacitación en aprendizaje automático establecen parámetros desde el principio y luego operan dentro de niveles constantes y relativamente consistentes de uso de recursos y consumo de energía. Sin la “elasticidad” que requiere Gaussian Splat para asignar instancias de splat, estos servicios son difíciles de abordar de la misma manera.
Además, señalan los autores, los proveedores de servicios no pueden defenderse de un ataque de este tipo limitando la complejidad o densidad del modelo, ya que esto perjudicaría la eficacia del servicio en condiciones de uso normal.
El documento dice:
‘Los modelos (3DGS) entrenados bajo estas restricciones defensivas funcionan mucho peor en comparación con aquellos con entrenamiento sin restricciones, particularmente en términos de reconstrucción detallada. Esta disminución de la calidad se produce porque 3DGS no puede distinguir automáticamente los detalles finos necesarios de las texturas envenenadas.
‘Limitar ingenuamente el número de gaussianos conducirá directamente a que el modelo no pueda reconstruir la escena 3D con precisión, lo que viola el objetivo principal del proveedor de servicios. Este estudio demuestra que se necesitan estrategias defensivas más sofisticadas para proteger el sistema y mantener la calidad de las reconstrucciones 3D bajo nuestro ataque.’
En las pruebas, el ataque ha demostrado ser efectivo tanto en un escenario de caja blanca (donde el atacante tiene conocimiento de los recursos de la víctima) como en un enfoque de caja negra (donde el atacante no tiene tal conocimiento).
Los autores creen que su trabajo representa el primer método de ataque contra 3DGS y advierten que el sector de investigación de seguridad de síntesis neuronal no está preparado para este tipo de enfoque.
El nuevo artículo se titula Poison-splat: ataque al costo computacional del splatting gaussiano 3Dy proviene de cinco autores de la Universidad Nacional de Singapur y Skywork AI en Beijing.
Método
Los autores analizaron hasta qué punto el número de Splats gaussianos (esencialmente, ‘píxeles’ de elipsoides tridimensionales) asignados a un modelo bajo un proceso 3DGS afecta los costos computacionales de entrenar y renderizar el modelo.
La figura más a la derecha en la imagen de arriba indica la clara relación entre la nitidez de la imagen y el número de gaussianos asignados. Cuanto más nítida es la imagen, más detalles se necesitan para renderizar el modelo 3DGS.
El documento dice*:
‘(Nosotros) encontramos que 3DGS tiende a asignar más gaussianos a aquellos objetos con estructuras más complejas y texturas no suaves, según lo cuantificado por la puntuación de variación total, una métrica que evalúa la nitidez de la imagen. Intuitivamente, cuanto menos lisa sea la superficie de los objetos 3D, más gaussianos necesitará el modelo para recuperar todos los detalles de sus proyecciones de imágenes 2D.
‘Por lo tanto, la falta de suavidad puede ser un buen descriptor de la complejidad de (gaussianos)’
Sin embargo, mejorar ingenuamente las imágenes tenderá a afectar tanto la integridad semántica del modelo 3DGS que un ataque sería obvio en las primeras etapas.
Envenenar los datos efectivamente requiere un enfoque más sofisticado. Los autores han adoptado una modelo proxy método, en el que las imágenes del ataque se optimizan en un modelo 3DGS fuera de línea desarrollado y controlado por los atacantes.
Los autores afirman:
«Es evidente que el modelo proxy puede guiarse desde la falta de suavidad de las imágenes 2D hasta desarrollar formas 3D muy complejas.
“En consecuencia, los datos envenenados producidos a partir de la proyección de este modelo proxy sobredensificado pueden producir más datos envenenados, induciendo a más gaussianos a ajustar estos datos envenenados”.
El sistema de ataque está limitado por una colaboración de Google/Facebook de 2013 con varias universidades, de modo que las perturbaciones permanecen dentro de los límites diseñados para permitir que el sistema inflija daño sin afectar la recreación de una imagen 3DGS, lo que sería una señal temprana de una incursión.
Datos y pruebas
Los investigadores probaron Poison-Splat con tres conjuntos de datos: NeRF-Synthetic; Mip-NeRF360; y Tanques y templos.
Utilizaron la implementación oficial de 3DGS como entorno de víctima. Para un enfoque de caja negra, utilizaron el marco Scaffold-GS.
Las pruebas se realizaron en una GPU NVIDIA A800-SXM4-80G.
Para las métricas, el número de símbolos gaussianos producidos fue el indicador principal, ya que la intención es crear imágenes fuente diseñadas para maximizar y superar la inferencia racional de los datos fuente. También se consideró la velocidad de renderizado del sistema de la víctima objetivo.
Los resultados de las pruebas iniciales se muestran a continuación:
De estos resultados, los autores comentan:
‘(Nuestro) ataque Poison-splat demuestra la capacidad de crear una enorme carga computacional adicional en múltiples conjuntos de datos. Incluso con perturbaciones restringidas dentro de un rango pequeño en un ataque (restringido), la memoria máxima de la GPU se puede aumentar a más de 2 veces, lo que hace que la ocupación máxima general de la GPU sea superior a 24 GB.
(En) el mundo real, esto puede significar que nuestro ataque puede requerir más recursos asignables que los que las estaciones GPU comunes pueden proporcionar, por ejemplo, RTX 3090, RTX 4090 y A5000. Además, el ataque no sólo aumenta significativamente el uso de la memoria, sino que también ralentiza considerablemente la velocidad del entrenamiento.
“Esta propiedad reforzaría aún más el ataque, ya que la abrumadora ocupación de la GPU durará más de lo que puede llevar el entrenamiento normal, lo que hará que la pérdida general de potencia de cálculo sea mayor”.
Las pruebas contra Scaffold-GS (el modelo de caja negra) se muestran a continuación. Los autores afirman que estos resultados indican que Poison-splat se generaliza bien a una arquitectura tan diferente (es decir, a la implementación de referencia).
Los autores señalan que ha habido muy pocos estudios centrados en este tipo de ataques dirigidos a recursos en los procesos de inferencia. El periódico de 2020 Ataques de latencia de energía a redes neuronales pudo identificar ejemplos de datos que desencadenan activaciones neuronales excesivas, lo que conduce a un consumo debilitante de energía y a una latencia deficiente.
Los ataques de tiempo de inferencia se estudiaron más a fondo en trabajos posteriores como Ataques de desaceleración en la inferencia de redes neuronales adaptativas de múltiples salidas, Hacia la inyección de eficiencia por la puerta traseray, para modelos de lenguaje y modelos de visión-lenguaje (VLM), en NICGSaceleracióny Imágenes detalladas.
Conclusión
El ataque Poison-splat desarrollado por los investigadores explota una vulnerabilidad fundamental en Gaussian Splatting: el hecho de que asigna complejidad y densidad de gaussianos de acuerdo con el material que se le da para entrenar.
El periódico de 2024 F-3DGS: Coordenadas factorizadas y representaciones para salpicaduras gaussianas 3D Ya ha observado que la asignación arbitraria de símbolos del Gaussian Splatting es un método ineficiente, que con frecuencia también produce instancias redundantes:
‘(Esta) ineficiencia surge de la incapacidad inherente de 3DGS para utilizar patrones estructurales o redundancias. Observamos que 3DGS produce una cantidad innecesariamente grande de gaussianos incluso para representar estructuras geométricas simples, como superficies planas.
“Además, los gaussianos cercanos a veces presentan atributos similares, lo que sugiere la posibilidad de mejorar la eficiencia eliminando las representaciones redundantes”.
Dado que restringir la generación gaussiana socava la calidad de la reproducción en escenarios sin ataques, el creciente número de proveedores en línea que ofrecen 3DGS a partir de datos cargados por el usuario puede necesitar estudiar las características de las imágenes de origen para determinar firmas que indiquen una intención maliciosa.’
En cualquier caso, los autores del nuevo trabajo concluyen que serán necesarios métodos de defensa más sofisticados para los servicios online ante el tipo de ataque que han formulado.
* Mi conversión de las citas en línea de los autores a hipervínculos
Publicado por primera vez el viernes 11 de octubre de 2024