Saltar al contenido

HierSpeech++: Inferencia Variacional Jerárquica para Síntesis de Voz Zero-Shot

31/12/2023

Los logros recientes y la progresión en las habilidades de los grandes modelos de lenguaje han tenido una relevancia crucial en las innovaciones de los sistemas basados ​​en LLM para tareas de generación de audio y síntesis de voz, particularmente en la modalidad de cero disparos. Los sistemas tradicionales de síntesis de voz han experimentado mejoras notables como resultado del ensamblaje de características adicionales como códecs de audio neuronales para unidades discretas de audio y voz. A pesar de que estos sistemas de síntesis de voz y audio presentan resultados satisfactorios, todavía existe potencial de mejora, ya que los sistemas de audio actuales basados ​​en LLM tienen principalmente tres limitaciones esenciales.

  1. Tienden a generar automáticamente una salida de audio que, finalmente, resulta en una falta de robustez y velocidades lentas de interferencia, lo que produce una deficiente pronunciación, interrupciones o repeticiones. 
  2. Suelen depender en exceso de unidades de voz discretas o de códecs de audio neuronales previamente entrenados. 
  3. A menudo requieren una gran cantidad de datos de entrenamiento. 

Para resolver los problemas mencionados anteriormente y potenciar las habilidades de los modelos de síntesis de voz y audio basados ​​en LLM, los ingenieros han diseñado HierSpeech++, un sintetizador de voz de cero disparos robusto y eficiente para conversiones de voz y texto a voz (TTS). El sistema HierSpeech++ se basa en los conocimientos adquiridos de marcos jerárquicos de síntesis de voz que no sólo mejoran la solidez, sino que también incrementan la expresividad de la voz sintética generada y simultáneamente realzan la naturalidad y la similitud del hablante del habla generada de manera artificial, incluso en un escenario de cero disparos. 

Error 403 The request cannot be completed because you have exceeded your quota. : quotaExceeded

En este artículo, exploraremos en profundidad el sistema HierSpeech++ y daremos una vista general a la arquitectura, la funcionalidad y los resultados del modelo en comparación con los modelos más avanzados de generación de texto y audio. Así que, comencemos.

HierSpeech++: Inferencia Variacional Jerárquica para Síntesis de Voz en Cero Disparos

HierSpeech++ es un sistema de síntesis de voz a cero disparos veloz, sólido y eficiente que cuenta con un conducto de síntesis de voz jerárquico y, al adoptar este sistema de síntesis de voz de punta a punta, el modelo HierSpeech++ tiene la capacidad de maximizar la generación de formas de onda de alta calidad. Este sistema también cierra de forma jerárquica la brecha entre las representaciones semánticas y acústicas mediante el uso de una representación del habla autosupervisada como representación del habla semántica. De esta manera, busca resolver las limitaciones actuales de las adaptaciones de estilo. El modelo de síntesis de voz de punta a punta fue introducido por primera vez por el sistema VITS y adopta un VAE o codificador automático variacional combinado con entrenamiento adversario y normalización de flujo. Además, los sistemas basados ​​en VAE con un proceso de capacitación de punta a punta tienen la capacidad de generar audio de forma de onda de alta calidad con una calidad de síntesis de voz perceptual que es notablemente mejor que la generada por otros sistemas de síntesis de voz. 

La calidad de reconstrucción de audio de estos marcos puede ser potenciada aún más usando un AutoEncoder Variacional Condicional Jerárquico, como el que se usa en el marco de HierSpeech. A pesar de su potencial, los modelos basados en la formación de extremo a extremo tienen ciertas limitaciones, especialmente en el entorno de cero disparos, ya que, aunque pueden sintetizar muestras de voz con audio de alta calidad, la similitud de la voz del hablante en la clonación de voz de cero disparos todavía está plagada de complejidad computacional alta. Por otro lado, los modelos de síntesis de voz basados en difusión se comportan bien en términos de adaptaciones del hablante, pero aún están lejos de ser perfectos ya que utilizan un proceso de generación interactivo que ralentiza su velocidad de inferencia, suelen ser vulnerables a datos ruidosos y, como resultado de la discrepancia entre la formación y la inferencia del proceso de generación de dos etapas entre el Mel-espectrograma y el terreno generado, la calidad del audio es deficiente. 

LEE MÁS ARTÍCULOS SOBRE: Salud con IA.

LEE LA ENTRADA ANTERIOR: Sanford Health se une a las llamadas de la Casa Blanca sobre el desarrollo de IA.