Solo una pequeña fracción de los más de 7,000 idiomas en la Tierra está respaldada por modelos de inteligencia synthetic, por lo que hoy Nvidia Corp. anunciado Un nuevo conjunto de datos y modelos listos en masa de AI para apoyar el desarrollo de la traducción de IA de alta calidad para idiomas europeos.
El nuevo conjunto de datos, llamado Granary, es un corpus masivo de código abierto de audio multilingüe, que incluye más de un millón de horas de audio, más 650,000 horas de reconocimiento de voz y 350,000 horas de traducción del habla.
El equipo de AI de discurso de Nvidia colaboró con investigadores de la Universidad Carnegie Mellon y Fondazione Bruno Kessler para procesar datos de audio y discurso público sin etiquetar en información utilizable para la capacitación de IA. El conjunto de datos está disponible abiertamente y free of charge Github.
El granario incluye 25 idiomas europeos, que representan casi todos los 24 idiomas oficiales de la Unión Europea, además de ruso y ucraniano. El conjunto de datos también contiene idiomas con datos limitados disponibles, como croata, estonia y maltesa.
Esto es de important importancia porque proporcionar estos conjuntos de datos anotados por humanos subrepresentados permitirá a los desarrolladores crear tecnologías de habla más inclusivas para el público que hablan esos idiomas, mientras usan menos datos de capacitación en sus aplicaciones y modelos de IA.
Nvidia ajustó su conjunto de datos para idiomas europeos, centrándose en audio de alta calidad y anotación específica para esas familias de idiomas, lo que permite que los modelos usen menos datos. El equipo demostró en su trabajo de investigación Eso, en comparación con otros conjuntos de datos populares, se necesitan alrededor de la mitad de datos de capacitación granaria para lograr una alta precisión para el reconocimiento automático de voz y la traducción automática del habla.
Nuevos modelos de traducción y transcripción de AI
Junto con Granary, NVIDIA también lanzó nuevos modelos Canary and Paraket para demostrar lo que se puede crear con el conjunto de datos.
Los dos modelos son Canary-1B-V2, un modelo optimizado para una alta precisión en tareas complejas y ParkEET-TDT-0.6B-V6, un modelo más pequeño diseñado para tareas de traducción y transcripción de alta velocidad y baja latencia.
El nuevo Canary está disponible bajo una licencia bastante permisiva para el uso comercial y de investigación, ampliando los idiomas actuales de Canary de cuatro a 25. Ofrece una calidad de transcripción y traducción comparable a los modelos tres veces más grandes mientras se ejecuta una inferencia hasta 10 veces más rápido. Con 1 mil millones de parámetros, puede funcionar completamente en el dispositivo en la mayoría de los teléfonos inteligentes insignia de próxima generación para la traducción del habla en la marcha.
El periquito prioriza el alto rendimiento y es capaz de ingerir y transcribir 24 minutos de audio en un solo pase. Puede detectar el lenguaje de audio y transcribir sin indicaciones adicionales. Tanto Canary como Paraket proporcionan marcas de tiempo precisas de puntuación, capitalización y nivel de palabras en sus resultados.
Otros modelos de inteligencia synthetic que proporcionan capacidades multilingües masivas incluyen Cohere para la expansión AYA de AI, una familia de modelos multilingües de alto rendimiento desarrollados por el laboratorio de investigación sin fines de lucro administrado por la inicio de IA Cohere Inc. Es parte del Colección AYAuna de las colecciones de conjuntos de datos multilingües más grandes hasta la fecha, que incluye 513 millones de ejemplos e incluye AYA-101, un modelo de IA abierto capaz de cubrir más de 100 idiomas.
NVIDIA proporcionó información adicional sobre cómo ajustar los modelos utilizando el conjunto de datos de granero, como cómo la compañía capacitó a Canary and Paraket, en Github y ha puesto a disposición del nuevo conjunto de datos multilingüe masivo para los desarrolladores en Cara abrazada.
Imagen: nvidia
Apoye nuestra misión de mantener el contenido abierto y gratuito comprometiéndose con la comunidad de Thecube. Únase a la crimson de Alumni Belief de Thecubedonde los líderes tecnológicos se conectan, comparten inteligencia y crean oportunidades.
- 15m+ movies de espectadores de thecubeimpulsando conversaciones a través de IA, nubes, ciberseguridad y más
- 11.4k+ alumnos de thecube -Conéctese con más de 11,400 líderes tecnológicos y empresariales que dan forma al futuro a través de una crimson única basada en confianza.
Acerca de Siliconangle Media
Fundada por los visionarios tecnológicos John Furrier y Dave Vellante, Siliconangle Media ha construido un ecosistema dinámico de marcas de medios digitales líderes en la industria que alcanzan más de 15 millones de profesionales de la tecnología de élite. Nuestra nueva nube de video de IA de THECUBE está abriendo firme en la interacción de la audiencia, aprovechando la crimson neuronal de thecubeai.com para ayudar a las empresas de tecnología a tomar decisiones basadas en datos y mantenerse a la vanguardia de las conversaciones de la industria.