Home Ciencia y Tecnología La IA de texto a RAP convierte las letras en voces, gestos...

La IA de texto a RAP convierte las letras en voces, gestos y expresiones faciales

24
0

Resumen y 1. Introducción

  1. Trabajo relacionado

    2.1 Texto a la generación vocal

    2.2 Generación de texto a movimiento

    2.3 Generación de audio a movimiento

  2. Conjunto de datos de estrago

    3.1 subconjunto de rap-vocal

    3.2 subconjunto de movimiento de rap

  3. Método

    4.1 Formulación de problemas

    4.2 MOVIMIENTO TOKENIZER VQ-VAE

    4.3 tokenizador de audio vocal2unit

    4.4 Modelado basic de autosuficiencia

  4. Experimentos

    5.1 Configuración experimental

    5.2 Análisis de resultados principales y estudio de ablación 5.3

  5. Conclusión y referencias

A. Apéndice

Dado un texto de la letra, nuestro objetivo es generar voces de estilo RAP y movimientos de todo el cuerpo, incluidos los movimientos del cuerpo, los gestos de las manos y las expresiones faciales que resuenan con la letra. Con la ayuda de nuestro conjunto de datos Rapverse, proponemos un marco novedoso que no solo representa textos, voces y movimientos como formas de token unificadas, sino que también integra el modelado de tokens en un modelo unificado. Como se ilustra en la Fig. 3, nuestro modelo consiste en múltiples tokenizers para el movimiento (Sec. 4.2) y las conversiones de token vocales (Sec. 4.3), así como un modelo basic de base de texto de texto-movimiento-Audio (Sec. 4.4) que se dirige a Audio Token Syntesize y Movement Token Creation, basado en la letra de Rap.

4.1 Formulación de problemas

Figura 3: Descripción general de la tubería. Primero priorizamos todos los tokenizadores en datos solo de voz y solo de movimiento. Después de que hayamos practicado los tokenizadores de modalidad, podemos unificar el texto, la voz y el movimiento en el mismo espacio de tokens. Adoptamos un algoritmo de organización de mezcla para tokens de entrada para alinearse a través del eje temporal. Estos tokens de entrada mixtos se alimentan en el gran modelo de la Fundación de Audio de texto de texto para entrenar en tareas de predicción de tokens, guiados por las características codificadas de la entrada textual.Figura 3: Descripción general de la tubería. Primero priorizamos todos los tokenizadores en datos solo de voz y solo de movimiento. Después de que hayamos practicado los tokenizadores de modalidad, podemos unificar el texto, la voz y el movimiento en el mismo espacio de tokens. Adoptamos un algoritmo de organización de mezcla para tokens de entrada para alinearse a través del eje temporal. Estos tokens de entrada mixtos se alimentan en el gran modelo de la Fundación de Audio de texto de texto para entrenar en tareas de predicción de tokens, guiados por las características codificadas de la entrada textual.

4.2 MOVIMIENTO TOKENIZER VQ-VAE

4.3 tokenizador de audio vocal2unit

En basic, aprovechamos el marco auto-supervisado [45] En el dominio de resíntesis del habla para aprender representaciones vocales de las secuencias de audio. Específicamente, entrenamos un tokenizador de audio Vocal2Unit para construir una representación tokenizada discreta para la voz de canto humano. El tokenizador vocal consta de tres codificadores y un vocoder. Los codificadores incluyen tres partes diferentes: (1) el codificador semántico; (2) el codificador F0; y (3) el codificador del cantante. Presentaremos cada componente del modelo por separado.

4.4 Modelado basic de autosuficiencia

Después de optimizar a través de este objetivo de entrenamiento, nuestro modelo aprende a predecir el siguiente token, que puede decodificarse en diferentes características de modalidad. Este proceso es comparable a la generación de palabras de texto en modelos de lenguaje, mientras que la “palabra” en nuestro método, como <Face_02123>, no tiene información semántica explícita, pero puede decodificarse en características de modalidad continua.

Inferencia y desacoplamiento. En la etapa de inferencia, utilizamos diferentes tokens de inicio para especificar qué modalidad generar. La entrada textual se codifica como características para guiar la inferencia del token. También adoptamos un algoritmo de Prime-Okay para controlar la diversidad del contenido generado ajustando la temperatura, ya que generar voces y movimientos basados en la letra es un proceso de creación con múltiples respuestas posibles. Después de la predicción del token, se utiliza un algoritmo de desacoplamiento para procesar tokens de salida para asegurarse de que los tokens de diferentes modalidades estén separados y alineados temporalmente. Estos tokens discretos se decodificarán aún más en voces y movimientos alineados con texto.

Autores:

(1) Jiaben Chen, Universidad de Massachusetts Amherst;

(2) Xin Yan, Universidad de Wuhan;

(3) Yihang Chen, Universidad de Wuhan;

(4) Siyuan Cen, Universidad de Massachusetts Amherst;

(5) Qinwei MA, Universidad de Tsinghua;

(6) Haoyu Zhen, Universidad de Shanghai Jiao Tong;

(7) Kaizhi Qian, MIT-IBM Watson AI Lab;

(8) mentir Lu, Dolby Laboratories;

(9) Chuang Gan, Universidad de Massachusetts Amherst.


fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here