Saltar al contenido

Intel Labs progresa en el desarrollo de visión por PC con dos nuevos modelos de IA

28/12/2023

Una nueva generación de modelado de IA: VI-Depth 1.0 y MiDaS 3.1

Los innovadores modelos IA de código abierto VI-Depth 1.0 y MiDaS 3.1 vienen a optimizar la estimación de profundidad en aplicaciones de visión por computadora.

La complejidad de estimar la profundidad es un reto para la visión por computadora, esencial en el desarrollo de innumerables aplicaciones en robótica, realidad aumentada (AR) y realidad virtual (VR). Las soluciones actuales a menudo encuentran obstáculos al estimar las distancias con precisión, un componente vital para garantizar la planificación del movimiento y la evitación de bloqueos en la navegación visual. Por esta razón, los investigadores de Intel Labs están dando respuesta a este desafío con el lanzamiento de dos revolucionarios modelos de IA para la estimación de profundidad monocular: un modelo específico para la visión-inercial y otro para la robusta estimación de profundidad relativa (RDE).

Error 403 The request cannot be completed because you have exceeded your quota. : quotaExceeded

Mejorando la precisión: el papel de MiDaS 3.1

El último modelo RDE, llamado MiDaS versión 3.1, es capaz de generar una robusta profundidad relativa utilizando únicamente una imagen. Gracias a su entrenamiento en un conjunto de datos grande y diverso, puede funcionar eficientemente en una amplia variedad de tareas y entornos. El más reciente actualización de MiDaS ha conseguido aumentar la precisión del modelo RDE aproximadamente un 30% mediante la integración de un conjunto de formación más amplio y la actualización de sus redes troncales de codificador.

El modelo MiDaS se ha integrado en numerosos proyectos, especialmente en Stable Diffusion 2.0, donde facilita la función de profundidad de la imagen, la cual infiere la profundidad de una imagen de entrada y luego genera nuevas imágenes utilizando tanto información textual como de profundidad. Esta tecnología podría abrir la puerta a nuevas aplicaciones virtuales, inclusive la reconstrucción de escenas de crímenes para juicios, entornos terapéuticos para la salud mental y experiencias de juego inmersivas.

VI-Depth: Integración de datos inerciales para mejorar la precisión

Intel Labs impulsa avances en visión por computadora con dos innovadores modelos de IA

El gran rendimiento del modelo RDE permite una utilidad generalizada, sin embargo, la falta de escala puede limitar su utilidad para tareas posteriores que requieran profundidad métrica como el mapeo, planificación, navegación, reconocimiento de objetos, reconstrucción 3D y edición de imágenes. A través de su nuevo modelo IA llamado VI-Depth, los investigadores de Intel Labs están dando una solución a este problema.

VI-Depth es un sistema de estimación de profundidad visual-inercial que integra la estimación de profundidad monocular y la odometría visual-inercial (VIO) para conseguir estimaciones de profundidad densas con una escala métrica. Este enfoque brinda una estimación precisa de la profundidad que puede ser de gran utilidad en la reconstrucción de escenas, el mapeo y la manipulación de objetos.

La incorporación de datos inerciales puede ayudar a resolver problemas de ambigüedad de escala. La mayoría de los dispositivos móviles ya están equipados con unidades de medida inercial (IMU). La alineación global establece la escala global apropiada, mientras que la llamada alineación de escala densa (Dense Scale Alignment – SML) actúa localmente para ajustar regiones a la profundidad métrica adecuada. La red SML se basa en MiDaS como punto de partida del codificador. Al combinar la estimación de profundidad basada en datos con el modelo de predicción de profundidad relativa MiDaS y la unidad de medición del sensor IMU, VI-Depth puede generar una profundidad métrica densa más confiable para cada píxel de una imagen.

Las últimas innovaciones de Intel Labs, MiDaS 3.1 y VI-Depth 1.0 ya están disponibles en GitHub bajo una licencia de código abierto MIT.

LEE MÁS ARTÍCULOS SOBRE: Automoción con IA.

LEE LA ENTRADA ANTERIOR: OpenAI presenta GPT-4 LLM multimodal: la IA más avanzada hasta ahora.