Los avances significativos en los modelos de lenguajes grandes (LLM) han inspirado el desarrollo de modelos de lenguajes grandes multimodales (MLLM). Los primeros esfuerzos de MLLM, como LLaVA, MiniGPT-4 e InstructBLIP, demuestran notables capacidades de comprensión multimodal. Para integrar los LLM en dominios multimodales, estos estudios exploraron la proyección de características desde un codificador específico de modalidad previamente entrenado, como CLIP, en el espacio de entrada de los LLM, lo que permite la comprensión y el razonamiento multimodal dentro de la columna vertebral del transformador. Aunque existen varias opciones de diseño para MLLM, como codificadores de visión, adaptadores de alineación de características y conjuntos de datos, el entrenamiento para la mayoría de estos modelos se adhiere al paradigma de generación autorregresiva, que ha demostrado ser eficaz para la generación de texto en LLM. A pesar de sus sólidas capacidades de comprensión multimodal, estos modelos se centran principalmente en la percepción visual y carecen de la capacidad de generar resultados multimodales más allá del texto.
Los modelos transformadores han demostrado un gran éxito en el modelado autorregresivo en el procesamiento del lenguaje natural. Inspirándose en tal progreso, estudios anteriores han aplicado directamente el mismo modelo autorregresivo para conocer la dependencia de los píxeles de la imagen para la generación de imágenes y videos. Por ejemplo, VideoPoet emplea una arquitectura transformadora de solo decodificador para sintetizar videos de alta calidad a partir de entradas multimodales. Más recientemente, LlamaGen ha demostrado que una arquitectura de modelo de lenguaje grande como Llama puede modelar tokens de imágenes de forma autorregresiva, logrando un rendimiento decente en la generación de imágenes condicionales de clase.
En este artículo, analizaremos Show-O, un transformador unificado que integra comprensión y generación multimodal. A diferencia de los modelos totalmente autorregresivos, Show-O unifica el modelado de difusión autorregresivo y discreto para manejar de forma adaptativa entradas y salidas de modalidades diversas y mixtas. El modelo unificado admite de manera flexible una amplia gama de tareas de visión y lenguaje, incluida la respuesta visual a preguntas, la generación de texto a imagen, la extrapolación/pintura guiada por texto y la generación de modalidad mixta. En varios puntos de referencia, Show-O demuestra un rendimiento comparable o superior al de los modelos individuales existentes con una cantidad equivalente o mayor de parámetros, destacando su potencial como modelo básico de próxima generación.
En este marco, el modelo tiene la tarea de predecir el ruido gaussiano agregado a las representaciones latentes continuas. Por el contrario, otros modelos como D3PM, Mask-predict, ARDM y MaskGIT utilizan un proceso de corrupción discreto como alternativa a la difusión gaussiana. Específicamente, una imagen se representa como una secuencia de tokens discretos utilizando tokenizadores de imágenes, con cada token asociado con una etiqueta categórica. La distribución simbólica se transforma en una distribución uniforme mediante un proceso de muestreo estocástico. Durante el entrenamiento, una parte de estos tokens se enmascara aleatoriamente y el modelo se entrena para predecir los valores originales de los tokens enmascarados. En este trabajo, Show-O adopta modelado de difusión discreta para la generación visual.
En los últimos años, han surgido avances significativos en los dos pilares clave de la inteligencia multimodal: comprensión y generación. Para la comprensión multimodal, Modelos multimodales de lenguaje grande (MLLM)) como LLaVA han demostrado capacidades excepcionales en tareas de visión y lenguaje, como la respuesta visual a preguntas (VQA). Para la generación visual, los modelos probabilísticos de difusión de eliminación de ruido (DDPM) han revolucionado los paradigmas generativos tradicionales, logrando un rendimiento sin precedentes en la generación de texto a imagen/vídeo.
Dados estos logros en campos individuales, es natural explorar el potencial de conectarlos. Trabajos recientes han intentado ensamblar modelos expertos de estos dos dominios diferentes para formar un sistema unificado que pueda manejar tanto la comprensión como la generación multimodal. Sin embargo, los intentos existentes a menudo implican modelos separados de comprensión y generación. Por ejemplo, NExT-GPT emplea un modelo de lenguaje base para la comprensión multimodal, pero requiere un modelo de difusión previamente entrenado adicional para la generación de imágenes. Esto plantea la pregunta: ¿puede un solo transformador manejar tanto la comprensión como la generación multimodal?
Recientemente, Chameleon demostró que esto es posible. Específicamente, Chameleon permite la fusión de diferentes modalidades para generar tokens de texto e imagen a través de modelado autorregresivo. Si bien tiene sentido modelar tokens de texto de forma autorregresiva, no está tan claro si modelar parches o píxeles de imágenes de la misma manera es óptimo. Un cuello de botella clave en la predicción autorregresiva de una imagen es la gran cantidad de pasos de muestreo necesarios, especialmente cuando se trata de imágenes de mayor resolución. Los modelos de difusión continua han mostrado un rendimiento superior en la generación visual en comparación con los autorregresivos.
Esto nos lleva a explorar si un solo transformador puede integrar modelos autorregresivos y de difusión. Show-O imagina un nuevo paradigma en el que el texto se representa como tokens discretos y se modela de forma autorregresiva, mientras que los píxeles continuos de la imagen se modelan mediante difusión de eliminación de ruido. Sin embargo, integrar estas dos técnicas distintas en una sola red no es trivial debido a las diferencias entre tokens de texto discretos y representaciones de imágenes continuas. Además, los modelos de difusión suelen basarse en dos modelos distintos: un codificador de texto y una red de eliminación de ruido.
Para abordar esto, Show-O presenta un novedoso modelo unificado capaz de manejar tareas de generación y comprensión multimodal utilizando modelos mixtos autorregresivos y de difusión. Show-O se basa en un LLM previamente capacitado y aprovecha sus capacidades de modelado autorregresivo para el razonamiento basado en texto. Inspirado en otros trabajos, Show-O emplea difusión discreta de eliminación de ruido para modelar tokens de imágenes en lugar de representaciones continuas. Además, Show-O codifica inherentemente información condicional de texto, eliminando la necesidad de codificadores de texto adicionales. Al utilizar tokenizadores de texto e imágenes, Show-O puede procesar diversos datos de entrada y tareas, proporcionando respuestas autorregresivas para tareas de visión y lenguaje y generando imágenes mediante difusión de eliminación de ruido discreta.
Show-O demuestra un rendimiento comparable y, en algunos casos, mejor que los modelos individuales con una cantidad equivalente o mayor de parámetros en varios puntos de referencia. A diferencia de la generación de imágenes autorregresivas, el marco Show-O requiere aproximadamente 20 veces menos pasos de muestreo, lo que lo hace intrínsecamente más rápido. Además, el marco Show-O admite aplicaciones posteriores como pintura guiada por texto y extrapolación sin necesidad de ajustes, como se demuestra en la siguiente imagen.
Show-O también tiene potencial para la generación de modalidades mixtas, como la generación de fotogramas clave de vídeo intercalados con descripciones de texto, lo que resulta prometedor para la generación de vídeos de formato largo. Además, el marco Show-O investiga el impacto de las representaciones de imágenes discretas y continuas en la comprensión multimodal, ofreciendo información para futuros diseños de modelos unificados.
La siguiente figura presenta una comparación de las características del modelo entre el marco Show-O y los métodos existentes en varios dominios. Show-O se destaca como un modelo unificado que integra técnicas avanzadas tanto para la comprensión como para la generación multimodal.
En resumen, las principales contribuciones de este trabajo son las siguientes:
- Show-O es un modelo unificado que integra comprensión y generación multimodal mediante un único transformador.
- Show-O unifica el modelado de difusión autorregresivo y discreto dentro de un transformador, manejando texto e imágenes de manera efectiva.
- El marco Show-O supera o iguala los modelos de referencia individuales con parámetros equivalentes o mayores en términos de comprensión multimodal y puntos de referencia de generación.
- Show-O admite aplicaciones posteriores como pintura basada en texto y extrapolación sin ajustes y demuestra potencial para la generación de modalidad mixta.
- Show-O explora el impacto de diferentes tipos de representacionesproporcionando información valiosa para mejorar la comprensión multimodal en modelos unificados.
En los últimos años, un número cada vez mayor de estudios se ha centrado en modelos de lenguaje multimodal unificado capaces tanto de comprensión como de generación. Algunos esfuerzos utilizan representaciones continuas intercaladas con tokens de texto para el modelado autorregresivo para generar imágenes. SEED-X propone un sistema básico unificado y versátil capaz de manejar tareas de generación y comprensión multimodal. En este enfoque, las representaciones de imágenes continuas del codificador CLIP ViT se combinan con tokens de texto y se introducen en un modelo de lenguaje grande (LLM) para realizar la predicción de la siguiente palabra y la regresión de la representación de la imagen. Chameleon presenta una familia de modelos modales mixtos basados en tokens capaces de comprender y generar imágenes. Este enfoque representa todas las modalidades como tokens discretos, utilizando una arquitectura unificada basada en transformadores y entrenando el modelo desde cero de un extremo a otro. En comparación, Show-O también adopta tokens discretos para representar todas las modalidades, pero utiliza un proceso de difusión discreto en lugar de modelado autorregresivo para la generación visual.
SHOW-O: Metodología y Arquitectura
El objetivo principal detrás del marco Show-O es desarrollar un modelo unificado que integre modelos autorregresivos y de difusión para la comprensión y generación multimodal conjunta. Desarrollar un modelo unificado de este tipo plantea desafíos importantes, y las cuestiones centrales giran en torno a: i) definir el espacio de entrada/salida del modelo; ii) unificar varios tipos de datos de entrada de diferentes modalidades; iii) integrar el modelado autorregresivo y de difusión en un solo transformador; y iv) entrenar eficazmente dicho modelo unificado.
Show-O aborda estos desafíos con las siguientes soluciones:
- Show-O construye el espacio de entrada/salida tokenizando datos de texto e imágenes en tokens discretos.
- Show-O presenta su arquitectura predeterminada y una estrategia de indicación unificada para estructurar modalidades y datos de entrada.
- Show-O demuestra cómo incorporar modelado autorregresivo y de difusión dentro de un solo transformador.
- Show-O presenta un proceso de capacitación de tres etapas para entrenar eficazmente el modelo unificado.
Tokenización
Dado que el Show-O propuesto se basa en LLM previamente capacitadoses natural realizar un aprendizaje unificado en el espacio discreto. Al mantener un vocabulario unificado que incluye texto discreto y tokens de imágenes, Show-O tiene la tarea del mismo objetivo de aprendizaje: predecir tokens discretos.
Tokenización de texto
Show-O se basa en un LLM previamente entrenado y se utiliza el mismo tokenizador para la tokenización de datos de texto sin ninguna modificación.
Tokenización de imágenes
Después de MAGVIT-v2, Show-O entrena un cuantificador sin búsquedas utilizando alrededor de 35 millones de datos de imágenes. El cuantificador mantiene un libro de códigos de tamaño 8192 y codifica imágenes con una resolución de 256 × 256 en tokens discretos de 16 × 16. Se elige MAGVIT-v2 por su facilidad de ajuste, lo que lo hace adecuado como tokenizador de video con capacidad de compresión temporal, un aspecto que Show-O planea explorar en el futuro. Un enfoque alternativo es utilizar diferentes tokenizadores para la comprensión y la generación, respectivamente. Inspirándose en estudios existentes, Show-O también extrae representaciones de imágenes continuas del codificador MAGVIT-v2 y CLIP-ViT previamente entrenado para explorar mejoras en las capacidades de comprensión multimodal. En las siguientes secciones, el Show-O predeterminado emplea tokens de imágenes discretas como aporte tanto para la comprensión como para la generación multimodal. Para simplificar, las secciones de metodología detallarán únicamente el Show-O predeterminado.
Arquitectura
Show-O hereda la arquitectura de LLM existentes sin modificaciones de arquitectura, excepto anteponer una operación QK-Norm a cada capa de atención. Show-O se inicializa con los pesos de un LLM previamente entrenado y expande el tamaño de la capa de incrustación incorporando 8,192 nuevas incrustaciones que se pueden aprender para tokens de imágenes discretas. A diferencia de los modelos de difusión de última generación que requieren un codificador de texto adicional, Show-O codifica inherentemente información condicional de texto para la generación de texto a imagen.
Indicaciones unificadas
Para realizar un aprendizaje unificado sobre la comprensión y generación multimodal, Show-O utiliza una estrategia de indicaciones unificada para formatear varios tipos de datos de entrada. Dado un par imagen-texto (x, y), primero los tokenizadores de imagen y texto lo convierten en M tokens de imagen y N tokens de texto, respectivamente. Luego, los tokens se forman en una secuencia de entrada según el tipo de tarea, como se ilustra en la siguiente figura.
Al emplear este diseño rápido, Show-O puede codificar eficazmente varios datos de entrada para la comprensión multimodal, la generación de texto a imagen y la generación de modalidad mixta como datos secuenciales. Esta configuración permite que el aprendizaje unificado funcione sin problemas en todas las secuencias para estas diversas tareas. Una vez capacitado, se le puede pedir a Show-O que maneje una amplia gama de tareas de visión y lenguaje, incluida la respuesta visual a preguntas y la generación de texto a imagen.
Mecanismo de omniatención
A diferencia de los trabajos existentes que modelan secuencias únicamente de forma autorregresiva, Show-O introduce un mecanismo de omniatención, que le permite modelar varios tipos de señales de distintas maneras. Este mecanismo de atención integral cambia de forma adaptativa entre atención causal y atención total según el formato de la secuencia de entrada. La siguiente figura ilustra ejemplos de omniatención para diferentes secuencias de entrada.
Específicamente, Show-O procesa tokens de texto dentro de la secuencia a través de atención causal, mientras que los tokens de imágenes se manejan utilizando atención total, lo que permite que cada token interactúe de manera integral con todos los demás. En la comprensión multimodal, los tokens de texto pueden atender a todos los tokens de imágenes anteriores, mientras que en la generación de texto a imagen, los tokens de imágenes pueden interactuar con todos los tokens de texto anteriores. La omniatención retiene el conocimiento de razonamiento del texto del LLM previamente capacitado y mejora la eficiencia de la generación de imágenes al reducir los pasos de muestreo. Además, admite diversas aplicaciones posteriores, como pintura y extrapolación, sin necesidad de realizar ajustes. Cuando se le dan solo tokens de texto, el mecanismo pasa por defecto a la atención causal.
SHOW-O: Experimentos y Resultados
La siguiente tabla presenta la capacidad de comprensión multimodal de Show-O en puntos de referencia públicos, como subtítulos de imágenes y tareas visuales de respuesta a preguntas.
La versión actual de Show-O se basa en Phi-1.5 y, por lo tanto, la contraparte de solo comprensión de Show-O, LLaVA-v1.5-Phi-1.5, sirve como base directa. Show-O muestra un rendimiento comparable en todas las métricas de evaluación al LLaVA-v1.5-Phi-1.5 de referencia, que se dedica únicamente a la comprensión multimodal. Esto demuestra el gran potencial del marco Show-O para unificar la comprensión y la generación multimodal dentro de un solo transformador. En comparación con modelos de solo comprensión como InstructBLIP, Qwen-VL-Chat y mPLUG-Owl2, Show-O, a pesar de tener un tamaño de modelo mucho más pequeño, logra un rendimiento competitivo en los puntos de referencia POPE, MME, Flickr30k y VQAv2, y realiza mejor en el punto de referencia GQA. En comparación con modelos unificados con muchos más parámetros, como NExT-GPT-13B y Chameleon-34B, Show-O también logra un rendimiento sólido en el punto de referencia Flickr30k y funciona mucho mejor en el punto de referencia VQAv2.
Dados estos resultados prometedores, Show-O se concibe como un posible modelo básico de próxima generación para unificar la comprensión y la generación. Estos resultados también demuestran el potencial de escalar Show-O para lograr un rendimiento de vanguardia.
Comparaciones cualitativas
Presentamos comparaciones cualitativas con modelos basados en difusión, como SDv1.5, SDXL y el modelo autorregresivo LlamaGen, junto con modelos unificados como LWM y SEED-X, como se demuestra en la siguiente figura.
Show-O demuestra la capacidad de generar imágenes realistas con contenido consistente descrito en mensajes de texto tanto cortos como largos. En comparación con SDv1.5 y LlamaGen, Show-O muestra una mejor calidad visual y una alineación imagen-texto más sólida. Por ejemplo, en la segunda columna, tanto SDv1.5 como LlamaGen no comprenden completamente el mensaje de texto y pierden atributos como “puesta de sol” y “domos azules” en las imágenes generadas. En comparación con SDXL, Show-O proporciona una calidad visual y una alineación comparables, como se ve en ejemplos como “una carrera de autos de rally” y “un contraste impresionante con la vibrante puesta de sol”.
Pintura interna y extrapolación guiadas por texto
Show-O admite naturalmente la extrapolación y la pintura interna basada en texto sin necesidad de ningún ajuste. La siguiente figura ilustra varios ejemplos.
En la parte superior de la figura, dada una imagen de entrada y una máscara de pintura, Show-O puede transformar un tranvía rojo en un auto deportivo azul con curvas elegantes y ventanas polarizadas basándose en un mensaje de texto proporcionado por el usuario. Show-O también puede extrapolar la imagen original horizontal o verticalmente según el mensaje de texto proporcionado. Por ejemplo, en la segunda fila, Show-O extrapola una imagen agregando nuevos objetos, como “flores silvestres rojas”. Los píxeles tanto en la región pintada como en la extrapolada permanecen consistentes con la imagen original. Estos ejemplos demuestran claramente las ventajas inherentes de Show-O sobre los modelos autorregresivos para aplicaciones posteriores.
Pensamientos finales
En este artículo hemos hablado de Show-O, un transformador unificado que integra comprensión y generación multimodal. A diferencia de los modelos totalmente autorregresivos, Show-O unifica el modelado de difusión autorregresivo y discreto para manejar de forma adaptativa entradas y salidas de modalidades diversas y mixtas. El modelo unificado admite de manera flexible una amplia gama de tareas de visión y lenguaje, incluida la respuesta visual a preguntas, la generación de texto a imagen, la extrapolación/pintura guiada por texto y la generación de modalidad mixta. En varios puntos de referencia, Show-O demuestra un rendimiento comparable o superior al de los modelos individuales existentes con una cantidad equivalente o mayor de parámetros, destacando su potencial como modelo básico de próxima generación. En este marco, el modelo tiene la tarea de predecir el ruido gaussiano agregado a las representaciones latentes continuas. Por el contrario, otros modelos como D3PM, Mask-predict, ARDM y MaskGIT utilizan un proceso de corrupción discreto como alternativa a la difusión gaussiana. Show-O es el primero en unificar el modelado de difusión autorregresivo y discreto, lo que le permite manejar diferentes modalidades de distintas maneras. Amplios resultados experimentales demuestran que Show-O es comparable o incluso mejor que los modelos expertos individuales en una amplia gama de tareas de visión y lenguaje. Esto resalta su potencial como modelo de fundación de próxima generación.