Home Ciencia y Tecnología Esta IA convierte las letras en presentaciones de canciones y baile totalmente...

Esta IA convierte las letras en presentaciones de canciones y baile totalmente sincronizadas

35
0

Resumen y 1. Introducción

  1. Trabajo relacionado

    2.1 Texto a la generación vocal

    2.2 Generación de texto a movimiento

    2.3 Generación de audio a movimiento

  2. Conjunto de datos de estrago

    3.1 subconjunto de rap-vocal

    3.2 subconjunto de movimiento de rap

  3. Método

    4.1 Formulación de problemas

    4.2 MOVIMIENTO TOKENIZER VQ-VAE

    4.3 tokenizador de audio vocal2unit

    4.4 Modelado basic de autosuficiencia

  4. Experimentos

    5.1 Configuración experimental

    5.2 Análisis de resultados principales y estudio de ablación 5.3

  5. Conclusión y referencias

A. Apéndice

En esta sección, evaluamos nuestro modelo propuesto en nuestro punto de referencia propuesto diseñado para la generación de movimiento vocal y de todo el cuerpo entero a partir de entradas textuales.

5.1 Configuración experimental

Métrica. Para evaluar la calidad de la generación de las voces de canto, utilizamos la puntuación de opinión media (MOS) para medir la naturalidad de la voz sintetizada. Para la síntesis de movimiento, evaluamos la calidad de la generación de los gestos manuales del cuerpo y el realismo de la cara, respectivamente. Específicamente, para la generación de gestos, utilizamos la distancia de inicio de Frechet (FID) basada en un extractor de características de [13] evaluar la distancia de las distribuciones de características entre las mociones generadas y reales, y la métrica de diversidad (DIV) para evaluar la diversidad de movimientos. Para la generación de cara, comparamos el Vertex MSE [66] y el vértice L1 Distinction LVD [68]. Finalmente, adoptamos Beat Fidelity (BC) [29] para medir la sincronía de movimiento generado y voces de canto.

Línea de base. Comparamos la calidad de la generación vocal con el método de generación vocal de vanguardia Diffsinger [32]. Y también adaptamos el modelo de texto a voz FastSpeech2 [51] para la generación vocal. Para la generación de movimiento, comparamos nuestro método con los métodos de texto a movimiento y los métodos de audio-Tomotion. Para los métodos de texto a movimiento, dado que no existe un trabajo de código abierto existente para el texto con la generación de movimiento de todo el cuerpo, comparamos con T2M-GPT basado en transformadores [69] y mld [4] para la generación del cuerpo. Para la generación de audio a movimiento, comparamos con Habibie et al. [15] y el modelo de Talkshow de Sota Mannequin [68]. Reportamos todos los resultados en Rapverse con una división de Prepare/Val/Check de 85%/7.5%/7.5%.

5.2 Análisis de resultados principales

Evaluaciones sobre generaciones conjuntas vocales y de movimiento de todo el cuerpo. Comparamos las líneas de base de la generación de movimiento basadas en texto y de audio en la tabla. 2 (a). Para tener en cuenta, nuestra configuración es diferente de todos los métodos existentes de las siguientes maneras. Primero, usamos las letras de RAP como nuestra entrada textual en lugar de descripciones textuales de movimiento, que contienen palabras rápidas de acción directa, como caminar y saltar; En segundo lugar, usamos texto para generar conjuntamente audio y movimiento, en lugar de usar audio para generar movimiento como lo hicieron los métodos basados en audio. Como se demuestra, nuestro modelo rivaliza con métodos de texto a movimiento y audio a movimiento en términos de métricas que miden la calidad de movimiento del cuerpo y la precisión del movimiento de la cara.

Además, la piedra angular de nuestro enfoque se encuentra en la generación simultánea de voces y movimiento, con el objetivo de lograr la alineación temporal entre estas modalidades. Este objetivo está justificado por nuestros resultados competitivos en la métrica BC, que evalúa la sincronía entre las voces de canto y los movimientos correspondientes, lo que subraya nuestro éxito en sincronizar estrechamente la generación de estas dos modalidades. Para el sistema en cascada, integramos el modelo Diffsinger de texto a Vocal con el modelo de audio a movimiento TalkShow. En comparación con el sistema en cascada, nuestra tubería de generación conjunta demuestra resultados superiores al tiempo que scale back las demandas computacionales durante las fases de entrenamiento e inferencia. En las arquitecturas en cascada, los errores tienden a acumularse a través de cada etapa. Específicamente, si el módulo de texto a vocal produce voces poco claras, posteriormente obstaculiza la capacidad del modelo de audio a movimiento para generar expresiones faciales precisas que se alinean con el contenido vocal.

Evaluaciones en generaciones vocales. También hemos comparado nuestro método con otras líneas de base de generación de texto de texto de última generación en la tabla. 2 (b). Si bien nuestro modelo unificado está entrenado para generar voces y movimiento simultáneamente, una tarea considerablemente más compleja que generar voces solo, su componente de generación vocal aún logra lograr resultados comparables a aquellos sistemas diseñados únicamente para generaciones vocales.

Tabla 3: Estudio de ablación. Comparamos con diseños comunes en marcos de generación de movimiento.Tabla 3: Estudio de ablación. Comparamos con diseños comunes en marcos de generación de movimiento.

5.3 Estudio de ablación

Presentamos los resultados de nuestro estudio de ablación en la tabla. 3. Inicialmente, exploramos la integración de un modelo de lenguaje grande pre-entrenado [48] para la generación multimodalidad, related al enfoque en [23]. Sin embargo, la eficacia de utilizar modelos de lenguaje previamente capacitados se queda atrás detrás de nuestro diseño personalizado, subrayando que el entrenamiento previo principalmente en tokens lingüísticos no facilita una predicción efectiva en múltiples modalidades como la voz y el movimiento. Además, estudiamos el impacto de nuestros VQ-VA de composición en la generación de movimiento. Por el contrario, se implementó una línea de base que emplea una sola VQVAE para la cuantización conjunta de movimientos faciales, de cuerpo y mano. Este enfoque condujo a una degradación notable en el rendimiento, particularmente marcado por un -2.89 disminución en el LVD. Esta disminución se puede atribuir a la preponderancia de los movimientos faciales en la actuación de un cantante. El uso de un solo modelo VQ-VAE para la dinámica de cuerpo completo compromete la representación detallada de las expresiones faciales, que son cruciales para la síntesis de movimiento realista y coherente.

Autores:

(1) Jiaben Chen, Universidad de Massachusetts Amherst;

(2) Xin Yan, Universidad de Wuhan;

(3) Yihang Chen, Universidad de Wuhan;

(4) Siyuan Cen, Universidad de Massachusetts Amherst;

(5) Qinwei MA, Universidad de Tsinghua;

(6) Haoyu Zhen, Universidad de Shanghai Jiao Tong;

(7) Kaizhi Qian, MIT-IBM Watson AI Lab;

(8) mentir Lu, Dolby Laboratories;

(9) Chuang Gan, Universidad de Massachusetts Amherst.


fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here