Investigadores alemanes han desarrollado un innovador sistema portátil, alimentado por GPU, diseñado para facilitar a los invidentes interactuar con su entorno de forma más segura. Este nuevo sistema busca resolver uno de los principales retos a los que se enfrentan los programas de visión por computadora en tiempo real: el reconocimiento de obstáculos transparentes como el cristal.
El documento publicado por el Instituto de Tecnología de Karlsruhe describe el diseño de un sistema de usuario conocido como Trans4Trans. Este sistema consta de unas gafas inteligentes que están conectadas a una carcasa de GPU portátil, esencialmente, un ordenador portátil compacto. El sistema puede capturar imágenes a color y de profundidad con una resolución de 640×480 píxeles en tiempo real, imágenes que luego se procesan mediante un modelo de segmentación semántica.
El sistema Trans4Trans utiliza auriculares de conducción ósea para proporcionar retroalimentación acústica adaptativa ante los posibles peligros detectados en el entorno.
Además, el sistema Trans4Trans ha sido probado con éxito en la plataforma de realidad aumentada Microsoft HoloLens 2, demostrando una segmentación completa y consistente de obstáculos potencialmente peligrosos, como pueden ser las puertas de cristal.
Arquitectura
Trans4Trans implementa un enfoque combinado que utiliza, por un lado, un codificador y por otro un decodificador basados en transformadores. Además, utiliza una tecnología patentada denominada Módulo de Emparejamiento de Transformadores (TPM), capaz de recopilar mapas de características generados mediante códigos de agrupación densos. Por su parte, el decodificador basado en transformadores puede analizar de manera consistente los mapas de características generados por su correspondiente codificador.
Cada TPM está compuesto por una sola capa basada en transformadores, siendo un componente esencial que permite minimizar el uso de recursos, haciendo así que el sistema sea más ligero y portátil. El decodificador contiene cuatro etapas que reflejan simétricamente al codificador, asociando un módulo TPM a cada una de ellas. Así, el sistema puede optimizar el uso de recursos al combinar la funcionalidad de múltiples enfoques en un único sistema cohesivo, en lugar de implementar dos modelos separados en una secuencia de trabajo lineal.
Hardware
Las gafas inteligentes que utiliza el sistema incorporan un sensor RealSense R200 RGB-D. Por su parte, el ordenador portátil que actúa como anfitrión en el sistema implementa un GPUNVIDIA AGX Xavier, especialmente diseñada para sistemas integrados, que cuenta con 384 núcleos NVIDIA CUDA y 48 núcleos Tensor.
El sensor R200 destaca por ofrecer una proyección por dispersión y adaptación estéreo pasiva, características que lo hacen muy adecuado para su uso tanto en interiores como en exteriores. La proyección por dispersión resulta particularmente útil a la hora de evaluar superficies transparentes, ya que mejora y aclara los datos visuales entrantes sin que éstos se vean afectados por fuentes de luz extremas. Por otro lado, las capacidades en infrarrojos del sensor también ayudan a obtener una geometría distinta y a generar mapas de profundidad procesables, características esenciales para la detección y evasión de obstáculos en el contexto del proyecto.
Evitando la sobrecarga cognitiva del usuario
Es necesario que el sistema pueda balancear de forma adecuada la frecuencia de los datos y la cantidad de información proporcionada, ya que el usuario debe ser capaz de interpretar de manera coherente su entorno a través del audio y la vibración.
Por este motivo, Trans4Trans limita el volumen de datos en la retroalimentación, estableciendo un umbral predefinido de un metro, en lugar de requerir que el usuario se adapte a una variedad de configuraciones de vibración dependiendo de las diferentes distancias a los objetos y barreras que se encuentre en su camino.
Evaluando Trans4Trans
El sistema Trans4Trans se sometió a pruebas en dos sets de datos relacionados con la segmentación de objetos transparentes:
Trans10K-V2 desarrollado por la Universidad de Hong Kong et al, el cual contiene 10.428 imágenes de objetos transparentes para su validación, entrenamiento y prueba; y el set de datos Stanford2D3D, que contiene 70.496 imágenes de objetos de transparencia mixta, capturadas con una resolución de 1080×1080.
En los ensayos realizados, Trans4Trans demostró ser capaz de segmentar aquellos objetos transparentes que habían sido categorizados erróneamente por el Trans2Seg proyecto que fue publicado a principios del año 2021 por los mismos investigadores. A diferencia de este último, que utiliza un codificador basado en el modelo de red neuronal convolucional (CNN) y un decodificador basado en transformadores, Trans4Trans utiliza únicamente una arquitectura de codificador-decodificador basada en transformadores, lo que resulta en un mejor rendimiento y una gran mejora en la capacidad de procesamiento de la visión por transformada (PVT).
Este algoritmo ha conseguido resultados de vanguardia en la segmentación de un número específico de clases transparentes, incluyendo objetos como: frascos, ventanas, puertas, tazas, cajas y botellas.
LEE MÁS ARTÍCULOS SOBRE: Noticias de IA.
LEE LA ENTRADA ANTERIOR: ¿Modelos de aprendizaje automático prediseñados o personalizados?.