Los modelos de Inteligencia Artificial generativa se han convertido en un tópico de gran interés en discusiones dentro del campo de la IA por un buen tiempo. El éxito reciente de los modelos generativos 2D ha pavimentado el camino para los métodos que aplicamos actualmente para crear contenido visual. A pesar de que la comunidad de IA ha tenido un avance significativo con los modelos generativos 2D, la generación de contenido en 3D permanece siendo un desafío significativo para los marcos de IA generativos en profundidad. Esto es particularmente cierto en este instante en el que la demanda de contenido generado en 3D alcanza un pico histórico, impulsado por una amplia gama de videojuegos visuales, aplicaciones, realidad virtual e incluso cine. Es importante resaltar que mientras existen marcos para la IA generativa en 3D que brindan resultados aceptables para ciertas categorías y tareas, aún no pueden generar objetos en 3D de manera eficiente. Esta situación se puede atribuir a una carencia de datos en 3D extensos para entrenar los marcos de IA. De forma reciente, los desarrolladores han propuesto aprovechar la orientación que brindan los modelos generativos de texto a imagen (T2I) previamente entrenados, un enfoque que ha mostrado resultados prometedores.
Visión general de DreamCraft3D
En esta publicación, examinaremos el marco DreamCraft3D, un modelo jerárquico para generar contenido 3D que produce objetos 3D coherentes y de alta fidelidad. El marco DreamCraft3D utiliza una imagen de referencia 2D como guía en el paso de esculpir la geometría, optimizando la textura mientras se enfoca en los problemas de coherencia encontrados por los métodos actuales. Además, el marco DreamCraft3D emplea un modelo de difusión dependiente de la vista para la destilación de las escalas, ayudando a esculpir una geometría que contribuye a una representación coherente.
Profundizaremos más en el marco DreamCraft3D en la generación de contenido 3D. Además, exploraremos el concepto de aprovechar modelos T2I previamente entrenados para la generación de contenido 3D y examinaremos cómo el marco DreamCraft3D pretende utilizar este enfoque para generar contenido de alta fidelidad 3D realista.
DreamCraft3D: Una Introducción
DreafCraft3D está diseñado como un canal jerárquico para la generación de contenido 3D. El marco DreamCraft3D intenta utilizar un marco generativo T2I para producir imágenes 2D de alta calidad usando un mensaje de texto. Este método permite que el marco DreamCraft3Dortalece las habilidades de los modelos de difusión 2D más recientes para representar la semántica visual descrita en el mensaje de texto, conservando simultáneamente la libertad creativa que brindan estos marcos generativos de IA 2D. Posteriormente, la imagen generada se transforma a 3D mediante la aplicación de fases de aumento de textura geométrica y la escultura geométrica, donde se aplican técnicas específicas en cada etapa, ayudadas por la descomposición de los problemas.
La Geometría en DreamCraft3D
En lo que respecta a la geometría, el marco DreamCraft3D focaliza gran parte de sus esfuerzos en la estructura 3D global y la consistencia de vistas múltiples, dejando espacio para compromisos en las texturas detalladas de las imágenes. Una vez que el marco supera los asuntos relacionados con la geometría, cambia su foco hacia la optimización de texturas coherentes y realistas implementando una difusión 3D consciente que inicializa el enfoque de optimización en 3D. Existen dos consideraciones de diseño claves para las dos fases de optimización, la Escultura Geométrica y la Mejora de Textura.
Dicho todo, sería seguro describir a DreamCraft3D como un marco generativo de IA que aprovecha un flujo de trabajo jerárquico para la generación de contenido 3D, para transformar esencialmente imágenes 2D en sus contrapartes 3D, mientras mantiene la consistencia 3D de manera holística.
Aprovechar modelos T2I anteriores derivados de Texto a Imagen
La idea de aprovechar modelos T2I derivados previamente para generar contenido en 3D fue presentada por primera vez por el marco DreamFusion en 2022. DreamFusion buscaba imponer una pérdida de Muestra de Destilación de Puntajes o SDS, para optimizar el marco 3D de manera que las representaciones en puntos de vista aleatorios se alinearían con las distribuciones de imágenes condicionadas por el texto, interpretadas por un eficiente marco de difusión de texto a imagen. Aunque el enfoque del DreamFusion entregó resultados decentes, surgieron dos problemas principales, borrosidad y saturación excesiva. Para abordar estos problemas, los trabajos recientes implementan varias estrategias de optimización de etapas para mejorar la pérdida de destilación 2D, lo que lleva a mejoras en la calidad y realismo de las imágenes 3D generadas.
No obstante, a pesar del éxito reciente de estos marcos, no pueden igualar la habilidad de los marcos generativos 2D para sintetizar contenido complejo. Además, estos marcos suelen estar plagados del “problema de Janus”, una condición en la que las representaciones 3D que aparentan ser plausibles individualmente, muestran inconsistencias estilísticas y semánticas cuando se examinan como un todo.
Para abordar los problemas encontrados en trabajos anteriores, el marco DreamCraft3D explora la posibilidad de utilizar un flujo completo jerárquico para la generación de contenido 3D y busca inspiración en el proceso artístico manual en el que un concepto se describe primero en un borrador 2D, después el artista esculpe la geometría bruta, refina los detalles geométricos y pinta texturas de alta fidelidad. Siguiendo la misma pauta, el marco DreamCraft3D descompone las tareas de generación de contenido o imágenes 3D en varios pasos manejables. Comienza generando una imagen 2D de alta calidad usando un texto, y procede a usar la mejora de textura y la esculpida geométrica para pasar la imagen a las etapas 3D. Dividiendo el proceso en etapas sucesivas, el marco DreamCraft3D logra maximizar el potencial de la generación jerárquica que resulta en una generación de imágenes 3D de superior calidad.
Como se puede observar en las imágenes de arriba, el marco DreamCraft3D es capaz de producir imágenes creativas y contenido 3D con texturas realistas y estructuras geométricas intrincadas. En la primera imagen, vemos el cuerpo de Son Goku, un personaje de anime mezclado con la cabeza de un jabalí corriendo, mientras que la segunda imagen muestra un Beagle vestido con el traje de un detective.
LEE MÁS ARTÍCULOS SOBRE: Ciencia de Datos con IA.
LEE LA ENTRADA ANTERIOR: Google presenta MedLM, una familia de modelos generativos de IA enfocados en la atención médica.