Saltar al contenido

MiniGPT-5: Generación Entrelazada de Visión y Lenguaje mediante Vokens Generativos

12/01/2024
Minigpt-5: Generación Entrelazada De Visión Y Lenguaje Mediante Vokens Generativos

En los últimos años, los Modelos de Lenguaje de Gran Escala (LLM) han capturado la atención de desarrolladores de IA en todo el mundo debido a avances en el Procesamiento del Lenguaje Natural (NLP). Estos modelos han establecido nuevos referentes en la generación y comprensión de texto. Sin embargo, a pesar del progreso en la generación de texto, producir imágenes que coincidan coherentemente con narrativas textuales sigue siendo un desafío. Para enfrentar esto, los desarrolladores han introducido un enfoque innovador de generación de visión y lenguaje basado en «vokens generativos», cerrando la brecha para armonizar las salidas de texto e imagen.

Introducción a MiniGPT-5

Con los recientes avances en marcos de LLM, y aplicaciones basadas en estos marcos, la integración de características multimedia es un campo que ha visto un aumento en su popularidad ya que también demuestra ser un avance vital que impulsa una amplia gama de aplicaciones, desde herramientas de creación de contenido de punta hasta agentes de diálogo multimodal de vanguardia. Con investigación y desarrollo continuos, los modelos de lenguaje y visión se encuentran en un punto en el que se está trabajando para facilitarles la generación de datos tanto de texto como visuales sin problemas. La capacidad de los LLM para generar datos multimodales de manera fluida ayudará a mejorar las interacciones en diferentes dominios, incluyendo comercio electrónico, medios de comunicación y realidad virtual.[automatic_youtube_gallery type="search" search="MiniGPT-5: Generación Entrelazada de Visión y Lenguaje mediante Vokens Generativos" cache="2419200" per_page="1" thumb_excerpt="0" player_description="0"]

Desafíos de las Interacciones Multimodales

Finalmente, el objetivo es permitir que los modelos sinteticen, reconozcan y respondan de una manera consistente y lógica utilizando modalidades textuales y visuales, jugando un papel crucial en armonizar el flujo de información y creando narrativas lógicas y consistentes. La necesidad de lograr una mezcla de modalidades textuales y visuales está impulsada principalmente por la necesidad de interacciones multimodales más fluidas, integradas e interactivas en LLMs, y lograr finalmente la generación de lenguaje y visión alternados. Sin embargo, lograr interacciones multimodales integradas e interactivas en LLMs es una tarea complicada plagada de numerosos desafíos que incluyen:

  1. Aunque los LLM actuales son extremadamente eficientes y capaces en cuanto a generación de texto y procesamiento de pares texto-imagen, no entregan un rendimiento satisfactorio al generar imágenes.
  2. El desarrollo de estos modelos de visión y lenguaje depende en gran medida de datos enfocados en temas específicos que dificultan que los modelos alineen el texto generado con sus imágenes correspondientes.
  3. Finalmente, existe la necesidad de idear estrategias más efectivas a medida que con un aumento en sus capacidades, los requerimientos de memoria de LLM también aumentan, especialmente al realizar tareas descendentes.

Metodología, Arquitectura y Marco de MiniGPT-5

Para facilitar a los modelos de lenguaje de gran escala con capacidades de generación de datos multimodales, el modelo MiniGPT-5 introduce un marco que busca integrar modelos de generación de texto a imagen y modelos de lenguaje multimodales de gran escala preentrenados. MiniGPT-5 introduce además «vokens generativos», tokens visuales especiales que permiten a los desarrolladores abordar las discrepancias en diferentes dominios al poder entrenar directamente con imágenes en bruto.

Etapa de Entrada Multimodal

Los desarrollos de LLMs en el pasado reciente han sacado a la luz sus capacidades de comprensión multimodal, permitiendo procesar imágenes como una entrada secuencial. El marco MiniGPT-5 hace uso de vokens generativos especialmente diseñados para emitir características visuales en un intento por expandir las habilidades de comprensión multimodal de LLM a la generación de datos multimodales.

Codificación Multimodal

El codificador visual preentrenado en MiniGPT-5 transforma cada imagen de entrada en una característica y cada token de texto se incrusta como un vector. Las características del indicador de entrada se generan cuando estas incrustaciones se concatenan entre sí.

Añadiendo Vokens en Modelos de Lenguaje de Gran Escala

Tradicionalmente, el vocabulario de un Modelo de Lenguaje de Gran Escala consiste solo en tokens textuales, por lo que los desarrolladores trabajando en MiniGPT-5 tuvieron que cerrar la brecha entre los generativos y los LLMs tradicionales. El marco MiniGPT-5 introduce un conjunto de tokens especiales como tokens generativos en el vocabulario del LLM. Luego, el marco aprovecha el estado de salida oculto del LLM para estos vokens especiales para la generación de imágenes subsiguiente.

Ajuste Fino Eficiente en Parámetros o PEFT

PEFT (Parameter Efficient Fine Tuning) es un concepto crucial utilizado para entrenar LLMs y aún así las aplicaciones de PEFT en entornos multimodales todavía están por explorarse en gran medida. MiniGPT-5 utiliza PEFT sobre el codificador del marco MiniGPT-4 para entrenar al modelo a entender mejor los indicadores o instrucciones, mejorando incluso el rendimiento general del modelo en entornos novedosos o de cero disparos.

Generación de Salida Multimodal

Para alinear el modelo generativo con los tokens generativos con precisión, MiniGPT-5 formula un módulo de mapeo compacto para igualar las dimensiones e incorporar pérdidas supervisoras, incluyendo la pérdida de modelo de difusión latente y la pérdida de espacio de texto. La pérdida supervisor de difusión latente alinea las características visuales apropiadas con los tokens directamente, mientras que la pérdida de espacio de texto ayuda al modelo a aprender las posiciones correctas de los tokens. Dado que los vokens generativos en MiniGPT-5 están guiados directamente por las imágenes, el marco no requiere que las imágenes tengan una descripción completa, lo que resulta en un aprendizaje libre de descripciones.

Generación de Espacio de Texto

MiniGPT-5 sigue el método de modelado de lenguaje casual para generar tanto vokens como textos en el espacio de texto conjuntamente y durante la fase de entrenamiento. Los desarrolladores anexan los vokens a la posición de las imágenes verdaderas y entrenan al modelo para predecir vokens dentro de la generación de texto.

Asignación de Características de Voken para Generación de Imágenes

Después de generar el espacio de texto, el marco alinea el estado de salida oculto con el espacio de características condicionales de texto del modelo de generación de texto a imagen. El marco también admite un módulo de asignación de características que incluye un modelo MLP de doble capa, una secuencia de características decodificables aprendibles y un modelo transformador codificador-decodificador de cuatro capas.

Generación de Imágenes con Modelo de Difusión Latente o LDM

Para generar las imágenes requeridas en el proceso de denoising, MiniGPT-5 utiliza las características de mapeo como entrada condicional. El marco también emplea un Modelo de Difusión Latente (LDM) para orientación, ya que durante la fase de entrenamiento, la imagen de verdad terrena se convierte primero en una característica latente utilizando un VAE preentrenado, tras lo cual, los desarrolladores obtienen la característica ruidosa latente añadiendo algo de ruido.

Entrenamiento y Resultados de MiniGPT-5

Cuando se trabaja en MiniGPT-5, los desarrolladores observaron que entrenar directamente en un conjunto de datos de texto e imagen entrelazados limitados puede resultar en imágenes de calidad disminuida y desalineación, dado el cambio de dominio significativo entre los dominios de imagen y texto. Para mitigar este problema, los desarrolladores adoptaron dos estrategias de entrenamiento distintas:

  1. Incorporación de técnicas de orientación sin clasificador que mejoran la efectividad de los tokens generativos durante el proceso de difusión.
  2. La segunda estrategia se divide en dos etapas: una etapa inicial de pre-entrenamiento que se centra principalmente en alinear características gruesas y una etapa de ajuste fino que facilita el aprendizaje de características.

Orientación sin Clasificador o CFG

La idea de aprovechar CFG para la generación multimodal surgió como resultado de un intento de mejorar la consistencia y lógica entre las imágenes y textos generados, y se introduce CFG durante el proceso de difusión de texto a imagen.

Estrategia de Entrenamiento en Dos Etapas

Dado el cambio de dominio significativo observado entre la generación de texto-imagen y la generación de puro texto, MiniGPT-5 usa una estrategia en dos etapas para entrenamiento:

  1. Etapa de Alineación Unimodal o UAS.
  2. Etapa de Aprendizaje Multimodal o MLS.

Benchmarks y Resultados de MiniGPT-5

Para evaluar su rendimiento en generación multimodal de manera comprensiva, el equipo de desarrollo de MiniGPT-5 compara su rendimiento con otros modelos de base prominentes, subrayando así la efectividad del enfoque de MiniGPT-5. Además, la estructura de MiniGPT-5 también cuenta con entradas humanas para evaluar y valorar el rendimiento del modelo.

Evaluación Final del Paso VIST

En una serie de experimentos, MiniGPT-5 se propuso generar imágenes correspondientes y los resultados se resumen en la tabla siguiente. Como se puede ver, el marco MiniGPT-5 en todos los ajustes puede superar el marco SD2 ajustado fino, destacando así la efectividad del enfoque de MiniGPT-5.

En este artículo, hemos hablado sobre MiniGPT-5, una técnica de generación de lenguaje y visión entrelazada que introduce el concepto de «vokens generativos» en un intento de aprovechar las capacidades de los LLM para generar datos multimodales al alinear el modelo de lenguaje de gran escala con un modelo de generación de texto a imagen preentrenado. Hemos discutido los componentes esenciales y la arquitectura general del marco de MiniGPT-5 junto con los resultados que indican mejoras sustanciales en rendimiento y eficiencia en comparación con los modelos de referencia y de punta actuales. MiniGPT-5 aspira a establecer un nuevo referente en el dominio de la generación de contenido y datos multimodales y tiene como objetivo resolver los desafíos enfrentados por modelos previos al intentar resolver el mismo problema.