[Cal Bryant] Hacked un sistema de automatización del hogar hace años, que más recientemente utiliza voces Piper TTS (texto a voz) para varios fines no revelados. No satisfecho con las voces estándar de sonido robótico disponibles, [Cal] Establecer un experimento para Tune fino el modelo de voz Piper TTS AI usando un clon de una sola frase creada por una voz comercial TTS como punto de partida.
Antes del lanzamiento de Piper TTS En 2023, los sistemas TTS gratuitos existentes como espeluznante y Festival sonaba robótico y plano. Piper ofreció una producción mucho más pure, sin requerir recursos masivos para que se ejecute. Para cambiar el estilo de voz, el modelo Piper AI se puede volver a capacitar desde cero o ajustar con menos esfuerzo. En el último caso, el problema a resolver primero fue cómo generar el volumen necesario de frases de entrenamiento para ejecutar el ajuste del modelo de IA de Piper. Esto se resolvió utilizando un modelo de IA de peso pesado, Chatterbox, que es capaz del llamado entrenamiento de disparo cero. Mira la demostración de Chatterbox aquí.
La capacitación comenzó con un corpus de frases de prueba en formato de texto para garantizar una cobertura decente del inglés cotidiano. [Cal] utilizado Chatterbox para clonar audio desde un frase de prueba única Generado por un ‘sistema misterioso TTS’ y creó 1.300 frases de prueba de esta nueva voz. Este conjunto de audio sirvió como datos de capacitación para ajustar el modelo Piper AI en la plataforma GPU azotada.
Para verificar la precisión, [Cal] Utilizó el software program Whisper de OpenAI para transcribir el audio de regreso al texto, para comparar con el Corpus de texto authentic. Para superar los problemas con la puntuación y las diferencias entre el inglés de los Estados Unidos y el Reino Unido, el texto se convirtió en fonemas utilizando Espeak-NG, lo que resultó en una precisión de coincidencia de frases del 98%.
Después de muestrear el conjunto de entrenamiento con Sox, estaba listo para el sistema de entrenamiento Piper TTS. A pesar de toda la preparación, ejecutar el software program se sintió anticlimático. Algunas inconsistencias en el conjunto de datos requirieron la eliminación de algunos puntos de datos. Después de cinco días de entrenamiento estacionado afuera a la sombra debido a las preocupaciones sobre el calor, Tabla tensor indicó que la función de pérdida del modelo estaba convergiendo. Eso es AI-speak para: ¡el modelo estaba sintonizado y listo para la acción! Creemos que suena bastante resbaladizo.
Si toda esta nueva síntesis de discurso de AI es demasiado compleja y, bueno, un poco espeluznante para usted, ¿podemos ofrecer una solución más de los años ochenta para hacer hablar con cosas? Finalmente, la mayoría de las personas dan la capacidad de hablar por sentado, hasta que ya no pueden hacerlo. Aquí hay un equipo que usa IA de vanguardia para devolver a las personas esa habilidad.