Tabla de enlaces
Resumen y 1. Introducción
-
Trabajo relacionado
2.1 Texto a la generación vocal
2.2 Generación de texto a movimiento
2.3 Generación de audio a movimiento
-
Conjunto de datos de estrago
3.1 subconjunto de rap-vocal
3.2 subconjunto de movimiento de rap
-
Método
4.1 Formulación de problemas
4.2 MOVIMIENTO TOKENIZER VQ-VAE
4.3 tokenizador de audio vocal2unit
4.4 Modelado basic de autosuficiencia
-
Experimentos
5.1 Configuración experimental
5.2 Análisis de resultados principales y estudio de ablación 5.3
-
Conclusión y referencias
A. Apéndice
Dado un texto de la letra, nuestro objetivo es generar voces de estilo RAP y movimientos de todo el cuerpo, incluidos los movimientos del cuerpo, los gestos de las manos y las expresiones faciales que resuenan con la letra. Con la ayuda de nuestro conjunto de datos Rapverse, proponemos un marco novedoso que no solo representa textos, voces y movimientos como formas de token unificadas, sino que también integra el modelado de tokens en un modelo unificado. Como se ilustra en la Fig. 3, nuestro modelo consiste en múltiples tokenizers para el movimiento (Sec. 4.2) y las conversiones de token vocales (Sec. 4.3), así como un modelo basic de base de texto de texto-movimiento-Audio (Sec. 4.4) que se dirige a Audio Token Syntesize y Movement Token Creation, basado en la letra de Rap.
4.1 Formulación de problemas
4.2 MOVIMIENTO TOKENIZER VQ-VAE
4.3 tokenizador de audio vocal2unit
En basic, aprovechamos el marco auto-supervisado [45] En el dominio de resíntesis del habla para aprender representaciones vocales de las secuencias de audio. Específicamente, entrenamos un tokenizador de audio Vocal2Unit para construir una representación tokenizada discreta para la voz de canto humano. El tokenizador vocal consta de tres codificadores y un vocoder. Los codificadores incluyen tres partes diferentes: (1) el codificador semántico; (2) el codificador F0; y (3) el codificador del cantante. Presentaremos cada componente del modelo por separado.
4.4 Modelado basic de autosuficiencia
Después de optimizar a través de este objetivo de entrenamiento, nuestro modelo aprende a predecir el siguiente token, que puede decodificarse en diferentes características de modalidad. Este proceso es comparable a la generación de palabras de texto en modelos de lenguaje, mientras que la “palabra” en nuestro método, como <Face_02123>, no tiene información semántica explícita, pero puede decodificarse en características de modalidad continua.
Inferencia y desacoplamiento. En la etapa de inferencia, utilizamos diferentes tokens de inicio para especificar qué modalidad generar. La entrada textual se codifica como características para guiar la inferencia del token. También adoptamos un algoritmo de Prime-Okay para controlar la diversidad del contenido generado ajustando la temperatura, ya que generar voces y movimientos basados en la letra es un proceso de creación con múltiples respuestas posibles. Después de la predicción del token, se utiliza un algoritmo de desacoplamiento para procesar tokens de salida para asegurarse de que los tokens de diferentes modalidades estén separados y alineados temporalmente. Estos tokens discretos se decodificarán aún más en voces y movimientos alineados con texto.
Autores:
(1) Jiaben Chen, Universidad de Massachusetts Amherst;
(2) Xin Yan, Universidad de Wuhan;
(3) Yihang Chen, Universidad de Wuhan;
(4) Siyuan Cen, Universidad de Massachusetts Amherst;
(5) Qinwei MA, Universidad de Tsinghua;
(6) Haoyu Zhen, Universidad de Shanghai Jiao Tong;
(7) Kaizhi Qian, MIT-IBM Watson AI Lab;
(8) mentir Lu, Dolby Laboratories;
(9) Chuang Gan, Universidad de Massachusetts Amherst.