La interpolación de fotogramas de vídeo (VFI) es un problema abierto en la investigación del vídeo generativo. El desafío consiste en generar fotogramas intermedios entre dos fotogramas existentes en una secuencia de vídeo.
Haz clic para jugar. El marco FILM, una colaboración entre Google y la Universidad de Washington, propuso un método de interpolación de fotogramas eficaz que sigue siendo popular en el ámbito profesional y de aficionados. A la izquierda podemos ver superpuestos los dos fotogramas separados y distintos; en el medio, el ‘cuadro final’; y a la derecha, la síntesis final entre los fotogramas. Fuentes: https://film-net.github.io/ y https://arxiv.org/pdf/2202.04901
A grandes rasgos, esta técnica data de hace más de un siglo, y desde entonces se utiliza en la animación tradicional. En ese contexto, los ‘fotogramas clave’ maestros serían generados por un artista de animación principal, mientras que el trabajo de ‘interpolación’ de fotogramas intermedios lo llevarían a cabo otros miembros del personal, como una tarea más secundaria.
Antes del auge de la IA generativa, la interpolación de fotogramas se utilizaba en proyectos como la estimación de flujo intermedio en tiempo real (RIFE), la interpolación de fotogramas de vídeo con reconocimiento de profundidad (DAIN) y la interpolación de fotogramas para grandes movimientos de Google (FILM – ver arriba) para con el fin de aumentar la velocidad de fotogramas de un vídeo existente o permitir efectos de cámara lenta generados artificialmente. Esto se logra dividiendo los fotogramas existentes de un clip y generando fotogramas intermedios estimados.
VFI también se utiliza en el desarrollo de mejores códecs de vídeo y, de manera más general, en sistemas basados en flujo óptico (incluidos los sistemas generativos), que utilizan el conocimiento avanzado de los fotogramas clave venideros para optimizar y dar forma al contenido intersticial que los precede.
Cuadros finales en sistemas de vídeo generativo
Los sistemas generativos modernos como Luma y Kling permiten a los usuarios especificar un cuadro inicial y final, y pueden realizar esta tarea analizando puntos clave en las dos imágenes y estimando una trayectoria entre las dos imágenes.
Como podemos ver en los ejemplos siguientes, proporcionar un fotograma clave de “cierre” permite que el sistema de vídeo generativo (en este caso, Kling) mantenga aspectos como la identidad, incluso si los resultados no son perfectos (particularmente con movimientos grandes).
Haz clic para jugar. Kling es uno de un número cada vez mayor de generadores de vídeo, incluidos Runway y Luma, que permiten al usuario especificar un fotograma final. En la mayoría de los casos, un movimiento mínimo conducirá a resultados más realistas y menos defectuosos. Fuente: https://www.youtube.com/watch?v=8oylqODAaH8
En el ejemplo anterior, la identidad de la persona es consistente entre los dos fotogramas clave proporcionados por el usuario, lo que lleva a una generación de video relativamente consistente.
Cuando sólo se proporciona el cuadro inicial, la ventana de atención de los sistemas generativos no suele ser lo suficientemente grande como para “recordar” cómo era la persona al comienzo del vídeo. Más bien, es probable que la identidad cambie un poco con cada cuadro, hasta que se pierda toda semejanza. En el siguiente ejemplo, se cargó una imagen inicial y el movimiento de la persona fue guiado por un mensaje de texto:
Haz clic para jugar. Al no tener un cuadro final, Kling solo tiene un pequeño grupo de cuadros inmediatamente anteriores para guiar la generación de los siguientes cuadros. En los casos en que se necesita algún movimiento significativo, esta atrofia de la identidad se vuelve grave.
Podemos ver que el parecido del actor no es resistente a las instrucciones, ya que el sistema generativo no sabe cómo se vería si estuviera sonriendo, y no está sonriendo en la imagen semilla (la única referencia disponible).
La mayoría de los clips generativos virales están cuidadosamente seleccionados para restar importancia a estas deficiencias. Sin embargo, el progreso de los sistemas de vídeo generativo temporalmente consistentes puede depender de nuevos desarrollos del sector de la investigación con respecto a la interpolación de fotogramas, ya que la única alternativa posible es la dependencia del CGI tradicional como vídeo conductor y ‘guía’ (e incluso en este caso). , la consistencia de la textura y la iluminación son actualmente difíciles de lograr).
Además, la naturaleza iterativa lenta de derivar un nuevo fotograma a partir de un pequeño grupo de fotogramas recientes hace que sea muy difícil lograr movimientos grandes y audaces. Esto se debe a que un objeto que se mueve rápidamente a través de un cuadro puede transitar de un lado a otro en el espacio de un solo cuadro, al contrario de los movimientos más graduales en los que probablemente se haya entrenado el sistema.
Del mismo modo, un cambio de postura significativo y audaz puede conducir no sólo a un cambio de identidad, sino también a vívidas incongruencias:
Haz clic para jugar. En este ejemplo de Luma, el movimiento solicitado no parece estar bien representado en los datos de entrenamiento.
enmarcador
Esto nos lleva a un interesante artículo reciente de China, que afirma haber logrado un nuevo estado del arte en interpolación de cuadros de apariencia auténtica, y que es el primero de su tipo en ofrecer interacción de usuario basada en arrastre.
Framer permite al usuario dirigir el movimiento mediante una interfaz intuitiva basada en arrastrar, aunque también tiene un modo “automático”.. Fuente: https://www.youtube.com/watch?v=4MPGKgn7jRc
Las aplicaciones centradas en el arrastre se han vuelto frecuentes en la literatura últimamente, a medida que el sector de la investigación lucha por proporcionar instrumentos para el sistema generativo que no se basen en los resultados bastante crudos obtenidos mediante indicaciones de texto.
El nuevo sistema, titulado enmarcadorno sólo puede seguir el arrastre guiado por el usuario, sino que también tiene un modo de ‘piloto automático’ más convencional. Además de la interpolación convencional, el sistema es capaz de producir simulaciones de lapso de tiempo, así como vistas novedosas y de transformación de la imagen de entrada.
En lo que respecta a la producción de vistas novedosas, Framer se adentra un poco en el territorio de los campos de radiación neuronal (NeRF), aunque requiere sólo dos imágenes, mientras que NeRF generalmente requiere seis o más vistas de entrada de imágenes.
En las pruebas, Framer, que se basa en el modelo de video generativo de difusión latente Stable Video Diffusion de Stability.ai, pudo superar los enfoques rivales aproximados, en un estudio de usuarios.
Al momento de escribir este artículo, el código se publicará en GitHub. Muestras de vídeo (de las que se derivan las imágenes anteriores) están disponibles en el sitio del proyecto, y los investigadores también han publicado un vídeo de YouTube.
El nuevo artículo se titula Framer: interpolación de cuadros interactivosy proviene de nueve investigadores de la Universidad de Zhejiang y del Ant Group, respaldado por Alibaba.
Método
Framer utiliza interpolación basada en puntos clave en cualquiera de sus dos modalidades, en las que la imagen de entrada se evalúa para determinar la topología básica y se asignan puntos “móviles” cuando sea necesario. En efecto, estos puntos son equivalentes a puntos de referencia faciales en sistemas basados en ID, pero se generalizan a cualquier superficie.
Los investigadores ajustaron la difusión de vídeo estable (SVD) en el conjunto de datos OpenVid-1M, añadiendo una capacidad adicional de síntesis del último fotograma. Esto facilita un mecanismo de control de trayectoria (arriba a la derecha en la imagen del esquema a continuación) que puede evaluar una ruta hacia el cuadro final (o hacia atrás desde él).
Con respecto a la adición del condicionamiento del último cuadro, los autores afirman:
‘Para preservar el previo visual del SVD previamente entrenado tanto como sea posible, seguimos el paradigma de condicionamiento del SVD e inyectamos condiciones finales en el espacio latente y el espacio semántico, respectivamente.
‘Específicamente, concatenamos la característica latente codificada en VAE del primer (cuadro) con el ruido latente del primer cuadro, como se hizo en SVD. Además, concatenamos la característica latente del último cuadro, zn, con el ruido latente del cuadro final, considerando que las condiciones y los ruidos latentes correspondientes están alineados espacialmente.
“Además, extraemos la incrustación de imágenes CLIP del primer y último fotograma por separado y los concatenamos para la inyección de funciones de atención cruzada”.
Para la funcionalidad basada en arrastre, el módulo de trayectoria aprovecha el marco CoTracker dirigido por Meta Ai, que evalúa numerosos caminos posibles a seguir. Estos se reducen a entre 1 y 10 trayectorias posibles.
Las coordenadas de los puntos obtenidos se transforman luego mediante una metodología inspirada en las arquitecturas DragNUWA y DragAnything. Esto obtiene un Mapa de calor gaussianoque individualiza las áreas objetivo para el movimiento.
Posteriormente, los datos se alimentan a los mecanismos de acondicionamiento de ControlNet, un sistema de conformidad auxiliar diseñado originalmente para Stable Diffusion y desde entonces adaptado a otras arquitecturas.
Para el modo de piloto automático, la coincidencia de funciones se logra inicialmente a través de SIFT, que interpreta una trayectoria que luego puede pasar a un mecanismo de actualización automática inspirado en DragGAN y DragDiffusion.
Datos y pruebas
Para el ajuste fino de Framer, la atención espacial y los bloques residuales se congelaron, y solo se vieron afectados las capas de atención temporal y los bloques residuales.
El modelo se entrenó para 10 000 iteraciones con AdamW, a una tasa de aprendizaje de 1e-4 y un tamaño de lote de 16. El entrenamiento se llevó a cabo en 16 GPU NVIDIA A100.
Dado que los enfoques anteriores al problema no ofrecen edición basada en arrastre, los investigadores optaron por comparar el modo de piloto automático de Framer con la funcionalidad estándar de ofertas más antiguas.
Los marcos probados para la categoría de sistemas actuales de generación de video basados en difusión fueron LDMVFI; Artesano dinámico; y SVDKFI. Para los sistemas de vídeo “tradicionales”, los marcos rivales eran AMT; ABUNDANTE; FLAVR; y la PELÍCULA antes mencionada.
Además del estudio de usuarios, se realizaron pruebas con los conjuntos de datos DAVIS y UCF101.
Las pruebas cualitativas sólo pueden ser evaluadas por las facultades objetivas del equipo de investigación y por estudios de usuarios. Sin embargo, las notas de papel, tradicionales cuantitativo Las métricas son en gran medida inadecuadas para la propuesta que nos ocupa:
‘Las métricas (de reconstrucción) como PSNR, SSIM y LPIPS no capturan con precisión la calidad de los cuadros interpolados, ya que penalizan otros resultados de interpolación plausibles que no están alineados en píxeles con el video original.
“Si bien las métricas de generación como FID ofrecen algunas mejoras, todavía se quedan cortas ya que no tienen en cuenta la coherencia temporal y evalúan los marcos de forma aislada”.
A pesar de esto, los investigadores realizaron pruebas cualitativas con varias métricas populares:
Los autores señalan que a pesar de tener las probabilidades en su contra, Framer aún logra la mejor puntuación FVD entre los métodos probados.
A continuación se muestran los resultados de muestra del artículo para una comparación cualitativa:
Los autores comentan:
‘(Nuestro) método produce texturas y movimientos naturales significativamente más claros en comparación con las técnicas de interpolación existentes. Funciona especialmente bien en escenarios con diferencias sustanciales entre los fotogramas de entrada, donde los métodos tradicionales a menudo no logran interpolar el contenido con precisión.
“En comparación con otros métodos basados en difusión como LDMVFI y SVDKFI, Framer demuestra una adaptabilidad superior a casos difíciles y ofrece un mejor control”.
Para el estudio de usuarios, los investigadores reunieron a 20 participantes, quienes evaluaron 100 resultados de videos ordenados aleatoriamente de los diversos métodos probados. Así, se obtuvieron 1.000 valoraciones, evaluando las ofertas más ‘realistas’:
Como se puede ver en el gráfico anterior, los usuarios prefirieron abrumadoramente los resultados de Framer.
El vídeo de YouTube que acompaña al proyecto describe algunos de los otros usos potenciales del framer, incluidos los morphing y los dibujos animados intermedios, donde comenzó todo el concepto.
Conclusión
Es difícil enfatizar lo importante que es actualmente este desafío para la tarea de generación de video basada en IA. Hasta la fecha, tanto comunidades de aficionados como profesionales han utilizado soluciones más antiguas, como FILM y EbSynth (sin IA), para la interpolación entre fotogramas; pero estas soluciones tienen limitaciones notables.
Debido a la falsa selección de videos oficiales de ejemplo para nuevos marcos T2V, existe una idea errónea generalizada de que los sistemas de aprendizaje automático pueden inferir con precisión la geometría en movimiento sin recurrir a mecanismos de guía como los modelos 3D transformables (3DMM) u otros enfoques auxiliares, como como LoRA.
Para ser honesto, la interpolación en sí misma, incluso si pudiera ejecutarse perfectamente, sólo constituye un “truco” o trampa para este problema. No obstante, dado que a menudo es más fácil producir dos imágenes de cuadros bien alineadas que realizar una guía a través de mensajes de texto o la gama actual de alternativas, es bueno ver un progreso iterativo en una versión basada en IA de este método más antiguo.
Publicado por primera vez el martes 29 de octubre de 2024