
La investigación en inteligencia artificial plantea el uso de controles de volumen independientes para diálogos, música y efectos de sonido
Estudio dirigido por Mitsubishi para extraer diferentes elementos de audio mediante inteligencia artificial
Un reciente proyecto de investigación liderado por Mitsubishi ha explorado la viabilidad de separar una fuente de audio original en tres partes distintas, desglosando la pista de sonido en voz, música y efectos sonoros (por ejemplo, ruido de fondo). Al considerarse un esquema de procesamiento de datos después de su recopilación, este planteamiento puede abrir las puertas a que futuras generaciones de plataformas de reproducción multimedia, incluyendo equipos de uso cotidiano, puedan ofrecer controles de volumen de tres puntos. De esta manera, se posibilitaría al usuario incrementar el volumen de los diálogos o disminuir el volumen de la música de una banda sonora.
Una herramienta para ajustar diferentes aspectos de la banda sonora
En el siguiente breve video de apoyo a la investigación que acompaña (ver al final del artículo para el video completo), se pueden apreciar diferentes facetas de la banda sonora enfatizadas cuando el usuario desliza un controlador a través de un triángulo con cada uno de los tres componentes de audio en una esquina:[automatic_youtube_gallery type="search" search="La investigación en Inteligencia Artificial anticipa controles de volumen independientes para diálogos, música y efectos de sonido." cache="2419200" per_page="1" thumb_excerpt="0" player_description="0"]
Un breve fragmento del vídeo que acompaña al artículo (ver inserción al final del artículo). A medida que el usuario arrastra el cursor hacia una de las tres facetas extraídas en la interfaz de usuario triangular (a la derecha), el audio enfatiza esa parte de la banda sonora tripartita. Aunque el vídeo más largo cita una serie de ejemplos adicionales en YouTube, estos parecen no estar disponibles actualmente.Fuente: https://vimeo.com/634073402
Detalle del estudio de Mitsubishi sobre la separación de audio
El article que respalda este estudio lleva por título El problema de la horquilla del cóctel: separación tríada de audio para bandas sonoras del mundo real y procede de investigadores del laboratorio de Investigación de Mitsubishi Electric (MERL) con sede en Cambridge, en el estado de Massachusetts, y del Departamento de Ingeniería de Sistemas Inteligentes de la Universidad de Illinois en Indianápolis.
Desglosar los elementos de una banda sonora
Los investigadores han llamado a este desafío ‘El problema del cóctel’ debido a que este supone el aislamiento de elementos fuertemente enmarañados de una banda sonora, generando así una hoja de ruta que se asemeja a una horquilla (ver imagen a continuación). En la práctica, las bandas sonoras en varios canales (es decir, estéreo y superiores) pueden contener diferentes cantidades de tipos de contenido, como diálogos, música y ambiente, sobre todo teniendo en cuenta que el diálogo suele predominar en el canal central en mezclas Dolby 5.1. Sin embargo, actualmente, la muy activa área de investigación de la separación de audio se enfoca en capturar estos elementos a partir de una única banda sonora integrada, al igual que en el caso de la investigación actual.
Trabajo enfocado en extraer voz en diversos contextos
Las investigaciones más recientes se han centrado en extraer la voz en una variedad de entornos, a menudo con el objetivo de eliminar el ruido del audio de la voz para su posterior interacción con sistemas de procesamiento de lenguaje natural (PLN), pero también para el aislamiento de grabaciones vocales en archivos, ya sea para crear versiones sintéticas de voces reales (incluso en el caso de cantantes fallecidos), o para facilitar la creación de versiones de música estilo karaoke.
Una base de datos para cada elemento a extraer
Hasta ahora, no se ha prestado mucha atención a cómo se podría utilizar este tipo de tecnología de inteligencia artificial para proporcionar a los usuarios más control sobre la mezcla de una banda sonora. Por eso, los investigadores han formalizado el problema y han generado una nueva base de datos como apoyo para la investigación continua sobre la separación de las bandas sonoras de diversos tipos, y han probado este enfoque en varios sistemas existentes de separación de audio.
El nuevo conjunto de datos que los autores han desarrollado se llama Descomponer y remasterizar (DnR, por sus siglas en inglés), y se deriva de conjuntos de datos anteriores LibriDiscurso, Archivo de música gratuito y el Conjunto de datos de sonido libre 50k (FSD50K). Para aquellos que deseen trabajar con DnR desde cero, el conjunto de datos debe reconstruirse a partir de las tres fuentes originales; en caso contrario, pronto estará disponible en Zenodo, según afirman los autores. Sin embargo, el enlace a GitHub proporcionado para obtener las utilidades de extracción de fuentes no está activo actualmente, por lo que aquellos interesados pueden tener que esperar un poco.
Los investigadores han comprobado que la estructura CrossNet un-mix (XUMX), propuesta por Sony en mayo, funciona particularmente bien con DnR.
Escenarios de uso del aprendizaje automático
Los autores afirman que sus modelos que utilizan aprendizaje automático para realizar extracciones funcionan bien con las bandas sonoras de YouTube, aunque las evaluaciones presentadas en el artículo se basan en datos sintéticos, y el video principal de apoyo proporcionado (ver a continuación) es hasta la fecha el único que parece estar disponible.
Cada uno de los tres conjuntos de datos utilizados incluye una colección del tipo de salida que se debe separar de una banda sonora: FSD50K se ocupa de los efectos de sonido y presenta 50.000 clips de audio mono de 44,1 kHz etiquetados con 200 tags que pertenecen a la ontología AudioSet de Google; el Archivo de música gratuito presenta 100.000 canciones en estéreo que cubren 161 géneros musicales, aunque los autores han utilizado un subconjunto que contiene 25.000 canciones, para emparejarse con FSD50K; y LibriSpeech aporta al conjunto de datos DnR 100 horas de muestras de audiolibros como archivos de audio mp3 de 44,1 kHz.
Próximos pasos en la investigación
Los autores prevén más trabajo en el conjunto de datos y en la combinación de los modelos separados desarrollados para realizar evaluaciones adicionales en sistemas de reconocimiento de voz y clasificación de sonido. Así, planean generar automáticamente subtítulos para sonidos del habla y no relacionados con el habla. También pretenden evaluar enfoques de remezcla que podrían reducir los artefactos perceptivos, que aún se considera un problema central al descomponer una banda sonora de audio fusionada en sus componentes constituyentes.
Este tipo de separación de audio podría estar disponible en el futuro en televisores inteligentes que incorporen redes de inferencia altamente optimizadas. No obstante, es probable que las primeras implementaciones requieran cierto tiempo de preprocesamiento y espacio de almacenamiento. Samsung ya emplea redes neuronales locales para realce, mientras que Sony usa su Procesador cognitivo XR, el cual se utiliza en la gama Bravia de la compañía y permite analizar y reinterpretar bandas sonoras de contenido en directo a través de IA integrada liviana.
El deseo de un mayor control sobre la banda sonora
La demanda de un mayor control sobre la mezcla de una banda sonora se presenta con regularidad, y la mayoría de las soluciones ofrecidas tienen que lidiar con el hecho de que la banda sonora ya ha sido adaptada de acuerdo con los estándares actuales (y las suposiciones sobre lo que quiere la audiencia) por las industrias de cine y televisión.
Un usuario, molestado por la sorprendente disparidad de niveles de volumen entre varios elementos de las bandas sonoras de las películas, se precipitó lo suficiente como para desarrollar un regulador de volumen automático basado en hardware capaz de ecualizar el volumen para películas y televisión.
Aunque los televisores inteligentes ofrecen una amplia gama de métodos para intentar aumentar el volumen de los diálogos frente a niveles de volumen grandiosos para la música, todos están luchando contra las decisiones tomadas en el momento de la mezcla y, posiblemente, las visiones de los productores de contenido que desean que la audiencia experimente sus bandas sonoras exactamente como fueron creadas.
Es probable que los productores de contenido se molesten con esta posible adición a la «cultura de la remezcla», ya que varias figuras de la industria ya han expresado su descontento contra los algoritmos predeterminados basados en TV de postprocesamiento como suavizado de movimiento.
