La gran esperanza para los modelos de IA de visión y lenguaje es que algún día sean capaces de tener mayor autonomía y versatilidad, incorporando principios de leyes físicas de la misma manera que desarrollamos una comprensión innata de estos principios a través de la experiencia temprana.
Por ejemplo, los juegos de pelota para niños tienden a desarrollar una comprensión de la cinética del movimiento y del efecto del peso y la textura de la superficie en la trayectoria. Asimismo, las interacciones con escenarios comunes como baños, bebidas derramadas, el océano, piscinas y otros cuerpos líquidos diversos nos inculcarán una comprensión versátil y escalable de las formas en que el líquido se comporta bajo la gravedad.
Incluso los postulados de fenómenos menos comunes –como la combustión, las explosiones y la distribución del peso arquitectónico bajo presión– se absorben inconscientemente a través de la exposición a programas de televisión y películas, o vídeos de las redes sociales.
Cuando estudiamos el principios Detrás de estos sistemas, a nivel académico, simplemente estamos “reequipando” nuestros modelos mentales intuitivos (pero desinformados) de ellos.
Maestros de uno
Actualmente, la mayoría de los modelos de IA son, por el contrario, más “especializados” y muchos de ellos están ajustados o entrenados desde cero en conjuntos de datos de imágenes o vídeos que son bastante específicos para determinados casos de uso, en lugar de estar diseñados para desarrollar un modelo tan general. comprensión de las leyes que lo rigen.
Otros pueden presentar el apariencia de una comprensión de las leyes físicas; pero es posible que en realidad estén reproduciendo muestras de sus datos de entrenamiento, en lugar de comprender realmente los conceptos básicos de áreas como la física del movimiento de una manera que pueda producir representaciones verdaderamente novedosas (y científicamente plausibles) a partir de las indicaciones de los usuarios.
En este momento delicado en la producción y comercialización de sistemas de IA generativa, nos corresponde a nosotros, y al escrutinio de los inversores, distinguir el marketing elaborado de nuevos modelos de IA de la realidad de sus limitaciones.
Uno de los artículos más interesantes de noviembre, dirigido por Bytedance Research, abordó este tema, explorando la brecha entre las capacidades aparentes y reales de los modelos generativos “multiusos” como Sora.
El trabajo concluyó que, en el estado actual de la técnica, es más probable que los resultados generados a partir de modelos de este tipo sean imitando ejemplos de sus datos de entrenamiento que demostrar realmente una comprensión total de las limitaciones físicas subyacentes que operan en el mundo real.
El documento dice*:
‘(Estos) modelos pueden verse sesgados fácilmente por ejemplos “engañosos” del conjunto de entrenamiento, lo que los lleva a generalizar de manera “basada en casos” bajo ciertas condiciones. Este fenómeno, también observado en modelos de lenguaje grandes, describe la tendencia de un modelo a hacer referencia a casos de entrenamiento similares al resolver nuevas tareas.
«Por ejemplo, consideremos un modelo de vídeo entrenado con datos de una bola de alta velocidad que se mueve en un movimiento lineal uniforme. Si el aumento de datos se realiza volteando horizontalmente los vídeos, introduciendo así un movimiento en dirección inversa, el modelo puede generar un escenario en el que una bola de baja velocidad invierte su dirección después de los fotogramas iniciales, aunque este comportamiento no sea físicamente correcto.’
Echaremos un vistazo más de cerca al artículo, titulado Evaluación de modelos mundiales con LLM para la toma de decisiones – en breve. Pero primero, veamos los antecedentes de estas aparentes limitaciones.
Recuerdo de cosas pasadas
Sin generalización, un modelo de IA entrenado es poco más que una costosa hoja de cálculo de referencias a secciones de sus datos de entrenamiento: encuentre el término de búsqueda apropiado y podrá recuperar una instancia de esos datos.
En ese escenario, el modelo actúa efectivamente como un “motor de búsqueda neuronal”, ya que no puede producir interpretaciones abstractas o “creativas” del resultado deseado, sino que replica alguna variación menor de los datos que vio durante el proceso de entrenamiento.
Esto se conoce como memorización, un problema controvertido que surge porque los modelos de IA verdaderamente dúctiles e interpretativos tienden a carecer de detalles, mientras que los modelos verdaderamente detallados tienden a carecer de originalidad y flexibilidad.
La capacidad de los modelos afectados por la memorización de reproducir datos de entrenamiento es un posible obstáculo legal, en los casos en que los creadores del modelo no tenían derechos libres de cargas para utilizar esos datos; y donde los beneficios de esos datos se pueden demostrar a través de un número cada vez mayor de métodos de extracción.
Debido a la memorización, los rastros de datos no autorizados pueden persistir, conectados en cadena, a través de múltiples sistemas de capacitación, como una marca de agua indeleble e involuntaria, incluso en proyectos donde el profesional del aprendizaje automático se ha preocupado de garantizar que se utilicen datos “seguros”.
Modelos mundiales
Sin embargo, el problema central de uso con la memorización es que tiende a transmitir la ilusión de inteligenciao sugerir que el modelo de IA tiene leyes o dominios fundamentales generalizados, donde en realidad es el gran volumen de datos memorizados lo que proporciona esta ilusión (es decir, el modelo tiene tantos ejemplos de datos potenciales para elegir que es difícil para un humano decir si está regurgitando contenidos aprendidos o si tiene una comprensión verdaderamente abstracta de los conceptos involucrados en la generación).
Esta cuestión tiene ramificaciones para el creciente interés en modelos mundiales – la perspectiva de sistemas de IA muy diversos y costosos de entrenar que incorporen múltiples leyes conocidas y sean ricamente explorables.
Los modelos mundiales son de particular interés en el espacio generativo de imágenes y vídeos. En 2023, RunwayML inició una iniciativa de investigación sobre el desarrollo y la viabilidad de dichos modelos; DeepMind contrató recientemente a uno de los creadores del aclamado vídeo generativo Sora para trabajar en un modelo de este tipo; y empresas emergentes como Higgsfield están invirtiendo significativamente en modelos mundiales de síntesis de imágenes y vídeos.
Combinaciones difíciles
Una de las promesas de los nuevos avances en los sistemas de IA de vídeo generativo es la perspectiva de que puedan aprender leyes físicas fundamentales, como el movimiento, la cinemática humana (como las características de la marcha), la dinámica de fluidos y otros fenómenos físicos conocidos que, al mismo tiempo, son al menos, visualmente familiar para los humanos.
Si la IA generativa pudiera alcanzar este hito, podría ser capaz de producir efectos visuales hiperrealistas que representen explosiones, inundaciones y posibles colisiones en múltiples tipos de objetos.
Si, por otro lado, el sistema de IA simplemente ha sido entrenado en miles (o cientos de miles) de videos que representan tales eventos, podría ser capaz de reproducir los datos del entrenamiento de manera bastante convincente cuando fue entrenado en un datos similares apuntan a la consulta de destino del usuario; todavía fallar si la consulta combina demasiados conceptos que, en dicha combinación, no están representados en absoluto en los datos.
Además, estas limitaciones no serían evidentes de inmediato, hasta que se impulsara el sistema con combinaciones desafiantes de este tipo.
Esto significa que un nuevo sistema generativo puede ser capaz de generar contenido de vídeo viral que, si bien es impresionante, puede crear una impresión falsa de las capacidades y la profundidad de comprensión del sistema, porque la tarea que representa no es un desafío real para el sistema.
Por ejemplo, un evento relativamente común y bien difundido, como ‘un edificio es derribado’podría estar presente en varios vídeos en un conjunto de datos utilizado para entrenar un modelo que se supone que tiene cierta comprensión de la física. Por lo tanto, presumiblemente el modelo podría generalizar bien este concepto e incluso producir resultados genuinamente novedosos dentro de los parámetros aprendidos en abundantes videos.
Este es un en distribución Por ejemplo, donde el conjunto de datos contiene muchos ejemplos útiles para que el sistema de IA aprenda.
Sin embargo, si uno tuviera que pedir un ejemplo más extraño o engañoso, como ‘La Torre Eiffel es volada por invasores extraterrestres’se requeriría que el modelo combinara diversos dominios como “propiedades metalúrgicas”, “características de las explosiones”, “gravedad”, “resistencia al viento” y “naves espaciales extraterrestres”.
Este es un fuera de distribución (BUEN), que combina tantos conceptos entrelazados que es probable que el sistema no genere un ejemplo convincente o utilice de forma predeterminada el ejemplo semántico más cercano en el que fue entrenado, incluso si ese ejemplo no se ajusta a las indicaciones del usuario.
Excepto que el conjunto de datos fuente del modelo contenía VFX basados en CGI al estilo de Hollywood que representaban el mismo evento o uno similar, tal representación requeriría absolutamente que lograra una comprensión bien generalizada y dúctil de las leyes físicas.
Restricciones físicas
El nuevo artículo –una colaboración entre Bytedance, la Universidad de Tsinghua y Technion– sugiere no sólo que modelos como Sora no no Realmente internalizamos las leyes físicas deterministas de esta manera, pero la ampliación de los datos (un enfoque común en los últimos 18 meses) parece, en la mayoría de los casos, no producir ninguna mejora real en este sentido.
El artículo explora no sólo los límites de la extrapolación de leyes físicas específicas –como el comportamiento de los objetos en movimiento cuando chocan o cuando se obstruye su camino– sino también la capacidad de un modelo para generalización combinatoria – casos en los que las representaciones de dos principios físicos diferentes se fusionan en un único resultado generativo.
Un vídeo resumen del nuevo artículo. Fuente: https://x.com/bingyikang/status/1853635009611219019
Las tres leyes físicas seleccionadas para el estudio de los investigadores fueron movimiento parabólico; movimiento lineal uniforme; y colisión perfectamente elástica.
Como se puede ver en el vídeo de arriba, los hallazgos indican que modelos como Sora realmente no internalizan las leyes físicas, sino que tienden a reproducir datos de entrenamiento.
Además, los autores descubrieron que facetas como el color y la forma se entrelazan tanto en el momento de la inferencia que una bola generada probablemente se convertiría en un cuadrado, aparentemente porque un movimiento similar en un ejemplo de conjunto de datos presentaba un cuadrado y no una bola (ver ejemplo en video). incrustado arriba).
El documento, que ha involucrado notablemente al sector de la investigación en las redes sociales, concluye:
‘Nuestro estudio sugiere que el escalado por sí solo es insuficiente para que los modelos de generación de vídeo descubran leyes físicas fundamentales, a pesar de su papel en el éxito más amplio de Sora…
‘…(Los hallazgos) indican que la ampliación por sí sola no puede abordar el problema de OOD, aunque sí mejora el rendimiento en otros escenarios.
‘Nuestro análisis en profundidad sugiere que la generalización del modelo de vídeo se basa más en hacer referencia a ejemplos de capacitación similares que en aprender reglas universales. Observamos un orden de priorización de color > tamaño > velocidad > forma en este comportamiento “basado en casos”.
“(Nuestro) estudio sugiere que el escalado ingenuo es insuficiente para que los modelos de generación de vídeo descubran leyes físicas fundamentales”.
Cuando se le preguntó si el equipo de investigación había encontrado una solución al problema, uno de los autores del artículo comentó:
‘Lamentablemente no lo hemos hecho. En realidad, esta es probablemente la misión de toda la comunidad de IA”.
Método y datos
Los investigadores utilizaron un codificador automático variacional (VAE) y arquitecturas DiT para generar muestras de video. En esta configuración, las representaciones latentes comprimidas producidas por el VAE funcionan en conjunto con el modelado del proceso de eliminación de ruido de DiT.
Los vídeos se entrenaron sobre Stable Diffusion V1.5-VAE. El esquema se mantuvo fundamentalmente sin cambios, con solo mejoras arquitectónicas de final de proceso:
‘(Conservamos) la mayoría de los mecanismos originales de convolución 2D, normalización de grupo y atención en las dimensiones espaciales.
‘Para inflar esta estructura en un codificador automático espacio-temporal, convertimos los últimos bloques de muestreo 2D del codificador y los primeros bloques de muestreo 2D del decodificador en bloques 3D, y empleamos múltiples capas 1D adicionales para mejorar el modelado temporal. ‘
Para permitir el modelado de video, el VAE modificado se entrenó conjuntamente con imágenes de HQ y datos de video, con el componente 2D Generative Adversarial Network (GAN) nativo de la arquitectura SD1.5 aumentado para 3D.
El conjunto de datos de imágenes utilizado fue la fuente original de Stable Diffusion, LAION-Aesthetics, con filtrado, además de DataComp. Para los datos de vídeo, se seleccionó un subconjunto de los conjuntos de datos Vimeo-90K, Panda-70m y HDVG.
Los datos se entrenaron para un millón de pasos, con un recorte aleatorio de tamaño y un giro horizontal aleatorio aplicados como procesos de aumento de datos.
Volteando
Como se señaló anteriormente, el proceso de aumento de datos de giro horizontal aleatorio puede ser un inconveniente a la hora de entrenar un sistema diseñado para producir un movimiento auténtico. Esto se debe a que la salida del modelo entrenado puede considerar ambos direcciones de un objeto y provocar inversiones aleatorias cuando intenta negociar estos datos contradictorios (ver el video incrustado arriba).
Por otro lado, si uno gira horizontalmente volteando apagadoes más probable que el modelo produzca resultados que se adhieran a solo una dirección aprendido de los datos de entrenamiento.
Por lo tanto, no hay una solución fácil al problema, excepto que el sistema realmente asimila todas las posibilidades de movimiento tanto de la versión nativa como de la versión invertida, una facilidad que los niños desarrollan fácilmente, pero que aparentemente es más desafiante para los modelos de IA. .
Pruebas
Para el primer conjunto de experimentos, los investigadores formularon un simulador 2D para producir videos de movimiento de objetos y colisiones que concuerden con las leyes de la mecánica clásica, lo que proporcionó un conjunto de datos controlado y de gran volumen que excluyó las ambigüedades de los videos del mundo real. evaluación de los modelos. Para crear estos videos se utilizó el motor de juegos de física Box2D.
Las pruebas se centraron en los tres escenarios fundamentales enumerados anteriormente: movimiento lineal uniforme, colisiones perfectamente elásticas y movimiento parabólico.
Se utilizaron conjuntos de datos de tamaño creciente (que van desde 30.000 a tres millones de vídeos) para entrenar modelos de diferente tamaño y complejidad (DiT-S a DiT-L), y los primeros tres fotogramas de cada vídeo se utilizaron para el acondicionamiento.
Los investigadores encontraron que los resultados de la distribución (ID) aumentaron bien con cantidades crecientes de datos, mientras que las generaciones OOD no mejoraron, lo que indica deficiencias en la generalización.
Los autores señalan:
“Estos hallazgos sugieren la incapacidad del escalado para realizar razonamientos en escenarios OOD”.
A continuación, los investigadores probaron y entrenaron sistemas diseñados para exhibir competencia en la generalización combinatoria, en la que dos movimientos contrastantes se combinan para (con suerte) producir un movimiento cohesivo que sea fiel a la ley física detrás de cada uno de los movimientos separados.
Para esta fase de las pruebas, los autores utilizaron el simulador PHYRE, creando un entorno 2D que representa múltiples objetos de diversas formas en caída libre, chocando entre sí en una variedad de interacciones complejas.
Las métricas de evaluación para esta segunda prueba fueron Fréchet Video Distance (FVD); Índice de Similitud Estructural (SSIM); Relación señal-ruido máxima (PSNR); Métricas de similitud de percepción aprendida (LPIPS); y un estudio en humanos (indicado como “anormal” en los resultados).
Se crearon tres escalas de conjuntos de datos de entrenamiento: 100.000 vídeos, 0,6 millones de vídeos y entre 3 y 6 millones de vídeos. Se utilizaron los modelos DiT-B y DiT-XL, debido a la mayor complejidad de los vídeos, utilizándose el primer fotograma para el acondicionamiento.
Los modelos fueron entrenados para un millón de pasos con una resolución de 256×256, con 32 fotogramas por vídeo.
El resultado de esta prueba sugiere que simplemente aumentar el volumen de datos es un enfoque inadecuado:
El documento dice:
«Estos resultados sugieren que tanto la capacidad del modelo como la cobertura del espacio de combinación son cruciales para la generalización combinatoria. Esta idea implica que las leyes de escalamiento para la generación de vídeo deberían centrarse en aumentar la diversidad de combinaciones, en lugar de limitarse a aumentar el volumen de datos”.
Finalmente, los investigadores realizaron más pruebas para intentar determinar si un modelo de generación de video realmente puede asimilar las leyes físicas o si simplemente memoriza y reproduce datos de entrenamiento en el momento de la inferencia.
Aquí examinaron el concepto de generalización “basada en casos”, donde los modelos tienden a imitar ejemplos de entrenamiento específicos cuando se enfrentan a situaciones nuevas, además de examinar ejemplos de movimiento uniforme, específicamente, cómo la dirección del movimiento en los datos de entrenamiento influye en las predicciones del modelo entrenado. .
Dos conjuntos de datos de entrenamiento, para movimiento uniforme y colisiónfueron seleccionados, cada uno de los cuales consta de videos de movimiento uniforme que representan velocidades entre 2,5 y 4 unidades, y los primeros tres fotogramas se utilizan como acondicionamiento. Valores latentes como velocidad se omitieron y, después del entrenamiento, se realizaron pruebas en escenarios tanto visibles como invisibles.
A continuación vemos los resultados de la prueba de generación de movimiento uniforme:
Los autores afirman:
“(Con) una gran brecha en el conjunto de entrenamiento, el modelo tiende a generar videos donde la velocidad es alta o baja para parecerse a los datos de entrenamiento cuando los fotogramas iniciales muestran velocidades de rango medio”.
Para las pruebas de colisión, intervienen muchas más variables y se requiere que el modelo aprenda una función no lineal bidimensional.
Los autores observan que la presencia de ejemplos “engañosos”, como el movimiento inverso (es decir, una pelota que rebota en una superficie e invierte su curso), puede engañar al modelo y hacer que genere predicciones físicamente incorrectas.
Conclusión
Si un algoritmo que no es de IA (es decir, un método de procedimiento ‘preparado’) contiene reglas matemáticas Para el comportamiento de fenómenos físicos como fluidos u objetos bajo gravedad o presión, existe un conjunto de constantes inmutables disponibles para una representación precisa.
Sin embargo, los hallazgos del nuevo artículo indican que no se desarrolla ninguna relación equivalente o comprensión intrínseca de las leyes físicas clásicas durante el entrenamiento de modelos generativos, y que cantidades crecientes de datos no resuelven el problema, sino que lo oscurecen, porque un mayor número de Hay vídeos de entrenamiento disponibles para que el sistema los imite en el momento de la inferencia.
* Mi conversión de las citas en línea de los autores a hipervínculos.
Publicado por primera vez el martes 26 de noviembre de 2024