Krisp Technologies Inc., un proveedor líder de soluciones de inteligencia synthetic de voz en tiempo actual, anunció hoy el lanzamiento de Viva, su nuevo equipment de desarrollo de software program y modelo de software program de Voice Aislation AI diseñado para agentes de IA de voz.
La compañía también reveló que Viva ahora está procesando más de mil millones de minutos de audio de voz por mes a nivel mundial.
Viva, abreviatura de aislamiento de voz para agentes de voz, se integra en la ruta de audio de una aplicación. Aumenta la capacidad de los agentes de IA de voz para detectar la actividad de la voz y mejora su comportamiento de los turnos, ayudando a prevenir interrupciones falsas y creando conversaciones más naturales y efectivas.
Los consumidores están llegando a esperar más de las interacciones de voz de IA. En el pasado, las conversaciones con sistemas en línea eran rígidos y escritos, a menudo poco más que grabaciones glorificadas. Esos días están terminando. Hoy, los agentes de voz pueden mantener conversaciones reales, responder dinámicamente y adaptarse al contexto.
“El término de la industria para esto es el turno”, dijo el cofundador y director ejecutivo Davit Baghdasaryan en una entrevista exclusiva con Siliconangle. “La toma de turnos se vuelve realmente desordenada cuando hay ruido de fondo, especialmente voces de fondo. La IA se confunde mucho”.
La toma de turnos se refiere al flujo de conversación de ida y vuelta, o saber cuándo hablar y cuándo escuchar. Los humanos naturalmente hacen esto con ajustes verbales y no verbales en el habla, las pausas, la entonación y el lenguaje corporal.
En la voz, la toma de turnos se refiere a la detección de cuándo un usuario deja de hablar y cuándo es apropiado responder sin interrumpir o dejar un largo silencio. La falta de giro conduce a interacciones incómodas o antinaturales.
El modelo Viva de Krisp procesa el audio en menos de 20 milisegundos, lo que mejora significativamente la capacidad de respuesta. Puede mejorar la precisión de los turnos de hasta 3.5x, lo que contribuye a una reducción del 50% en las llamadas caídas y ayuda a aumentar la satisfacción del cliente.
A diferencia de los modelos que se basan en unidades de procesamiento de gráficos hambrientos de energía, Viva se ejecuta de manera eficiente en las unidades de procesamiento central, lo que lo hace splendid para la implementación en una amplia gama de dispositivos. Esto le permite operar ya sea integrado o junto con modelos más grandes sin interrumpir el rendimiento.
Esto es crítico para las empresas, ya que aumenta la precisión de la transcripción incluso en entornos ruidosos y elimina el audio irrelevante, como la televisión de fondo o las conversaciones no relacionadas, mejorando tanto la comprensión automatizada como la experiencia common del usuario.
La comunicación humana se basa en señales sutiles de audio y comportamiento. Mientras que las personas navegan por estas señales naturalmente, los agentes de voz aún luchan con ellas. Los sonidos de fondo, la risa o incluso las pausas pueden causar interrupciones o confusión en las respuestas de AI.
“Hay cinco, seis señales diferentes que provienen únicamente del audio”, explicó Baghdasaryan. “La IA debe ser consciente de estas señales si queremos tener una IA conversacional de nivel humano”.
Krisp diseñó Viva para reconocer y adaptarse a estas señales. Un modelo Viva, por ejemplo, filtra la risa, especialmente útil en entornos con niños, para que los bots no malinterpreten los sonidos como parte del discurso de un usuario.
“La risa es una gran cosa grande”, dijo Baghdasaryan. “Tenemos modelos que eliminan la risa para que el bot no sea interrumpido por él”.
Viva ya está integrado en los sistemas de agentes de IA utilizados por Decagon AI, Voxex.ai, Vapi Inc., Ultravox.ai (anteriormente Fixie.ai), LiveKit Inc. y algunos de los laboratorios de IA más grandes del mundo, donde está entregando mejoras medibles.
“Cuando nuestro equipo de desarrollo demostró las capacidades de Krisp, nos quedamos impresionados”, dijo Kumar Saurav, director de tecnología de Vodex. “Ver que nuestro bot continúa ininterrumpido, incluso en medio de un fuerte ruido de la oficina, fue un cambio de juego para nosotros”.
Baghdasaryan concluyó que con el hito de miles de millones de solicitudes de audio cada mes, Viva está preparada para permitir a los desarrolladores construir agentes de IA más receptivos y proporcionar una base para una mejor atención al cliente y compañeros virtuales.
Imagen: Siliconangle/Microsoft Designer
Apoye nuestro contenido gratuito abierto compartiendo e interactuando con nuestro contenido y comunidad.
Únete a Thecube Alumni Belief Community
Donde los líderes tecnológicos se conectan, comparten inteligencia y crean oportunidades
11.4k+
Purple de ex alumnos de cubos
Nivel C y técnico
Expertos en dominio
Conéctese con 11,413+ líderes de la industria de nuestra purple de líderes tecnológicos y empresariales que forman un efecto de purple confiable único.
Siliconangle Media es un líder reconocido en innovación de medios digitales que sirve al público innovador y marcas, que reúne tecnología de vanguardia, contenido influyente, concepts estratégicas y compromiso de audiencia en tiempo actual. Como la empresa matriz de Silicio, red de thecube, Investigación de THECUBE, Cube365, THECUBE AI y los superstudios de TheCube, como los establecidos en Silicon Valley y la Bolsa de Nueva York (NYSE) – Siliconangle Media opera en la intersección de medios, tecnología e IA. .
Fundada por los visionarios tecnológicos John Furrier y Dave Vellante, Siliconangle Media ha construido un poderoso ecosistema de marcas de medios digitales líderes en la industria, con un alcance de más de 15 millones de profesionales de la tecnología de élite. La nueva nube de video de AI de AI de la compañía, se está basando en la interacción de la audiencia, aprovechando la purple neuronal de thecubeai.com para ayudar a las empresas tecnológicas a tomar decisiones basadas en datos y mantenerse a la vanguardia de las conversaciones de la industria.