Home Ciencia y Tecnología La IA de texto a RAP convierte las letras en voces, gestos...

Ciencia y Tecnología

La IA de texto a RAP convierte las letras en voces, gestos y expresiones faciales

8 agosto 2025

Tabla de enlaces

Resumen y 1. Introducción

Trabajo relacionado

2.1 Texto a la generación vocal

2.2 Generación de texto a movimiento

2.3 Generación de audio a movimiento
Conjunto de datos de estrago

3.1 subconjunto de rap-vocal

3.2 subconjunto de movimiento de rap
Método

4.1 Formulación de problemas

4.2 MOVIMIENTO TOKENIZER VQ-VAE

4.3 tokenizador de audio vocal2unit

4.4 Modelado basic de autosuficiencia
Experimentos

5.1 Configuración experimental

5.2 Análisis de resultados principales y estudio de ablación 5.3
Conclusión y referencias

A. Apéndice

Dado un texto de la letra, nuestro objetivo es generar voces de estilo RAP y movimientos de todo el cuerpo, incluidos los movimientos del cuerpo, los gestos de las manos y las expresiones faciales que resuenan con la letra. Con la ayuda de nuestro conjunto de datos Rapverse, proponemos un marco novedoso que no solo representa textos, voces y movimientos como formas de token unificadas, sino que también integra el modelado de tokens en un modelo unificado. Como se ilustra en la Fig. 3, nuestro modelo consiste en múltiples tokenizers para el movimiento (Sec. 4.2) y las conversiones de token vocales (Sec. 4.3), así como un modelo basic de base de texto de texto-movimiento-Audio (Sec. 4.4) que se dirige a Audio Token Syntesize y Movement Token Creation, basado en la letra de Rap.

4.1 Formulación de problemas

4.2 MOVIMIENTO TOKENIZER VQ-VAE

4.3 tokenizador de audio vocal2unit

En basic, aprovechamos el marco auto-supervisado [45] En el dominio de resíntesis del habla para aprender representaciones vocales de las secuencias de audio. Específicamente, entrenamos un tokenizador de audio Vocal2Unit para construir una representación tokenizada discreta para la voz de canto humano. El tokenizador vocal consta de tres codificadores y un vocoder. Los codificadores incluyen tres partes diferentes: (1) el codificador semántico; (2) el codificador F0; y (3) el codificador del cantante. Presentaremos cada componente del modelo por separado.

4.4 Modelado basic de autosuficiencia

Después de optimizar a través de este objetivo de entrenamiento, nuestro modelo aprende a predecir el siguiente token, que puede decodificarse en diferentes características de modalidad. Este proceso es comparable a la generación de palabras de texto en modelos de lenguaje, mientras que la “palabra” en nuestro método, como <Face_02123>, no tiene información semántica explícita, pero puede decodificarse en características de modalidad continua.

Inferencia y desacoplamiento. En la etapa de inferencia, utilizamos diferentes tokens de inicio para especificar qué modalidad generar. La entrada textual se codifica como características para guiar la inferencia del token. También adoptamos un algoritmo de Prime-Okay para controlar la diversidad del contenido generado ajustando la temperatura, ya que generar voces y movimientos basados en la letra es un proceso de creación con múltiples respuestas posibles. Después de la predicción del token, se utiliza un algoritmo de desacoplamiento para procesar tokens de salida para asegurarse de que los tokens de diferentes modalidades estén separados y alineados temporalmente. Estos tokens discretos se decodificarán aún más en voces y movimientos alineados con texto.

Autores:

(1) Jiaben Chen, Universidad de Massachusetts Amherst;

(2) Xin Yan, Universidad de Wuhan;

(3) Yihang Chen, Universidad de Wuhan;

(4) Siyuan Cen, Universidad de Massachusetts Amherst;

(5) Qinwei MA, Universidad de Tsinghua;

(6) Haoyu Zhen, Universidad de Shanghai Jiao Tong;

(7) Kaizhi Qian, MIT-IBM Watson AI Lab;

(8) mentir Lu, Dolby Laboratories;

(9) Chuang Gan, Universidad de Massachusetts Amherst.

fuente

La IA de texto a RAP convierte las letras en voces, gestos y expresiones faciales

Tabla de enlaces

4.1 Formulación de problemas

4.2 MOVIMIENTO TOKENIZER VQ-VAE

4.3 tokenizador de audio vocal2unit

4.4 Modelado basic de autosuficiencia

LEAVE A REPLY Cancel reply

Reciente

La leyenda de Laliga llama a Marc-Andre Ter Stegen después de...

¿Ya está en marcha la enriquecimiento de AI?

Invertir en House: House OPO está volviendo a criar la cabeza

Jason, Kylie Kelce Asiste al funeral del compañero de papá Ed’s

¿Por qué una película de Bollywood alterada a IA ha provocado...

Los clubes de fútbol rusos dieron € 10.8 millones en fondos...

Elenco de ‘Freakier Friday’ reveló: 12 estrellas repiten sus papeles 20...

Akpom puede reemplazar la delap en Ipswich –Ambrose

‘Shubman Gill anotó la mayoría de las carreras pero …’: Ex...

Los veterinarios de 5 pasos toman antes de dejar a sus...