Omitir navegación

Azure Cognitive Services acelera la experiencia digital en el automóvil

Publicado el 5 enero, 2022

Vice President Strategy and Commercialization, Azure AI Platform

Imagen prominente

Microsoft está contribuyendo a rediseñar el sector de la automoción al proporcionar a los conductores sistemas de infoentretenimiento en el vehículo. Por ejemplo, el equipo de Azure colabora con XPENG con el fin de habilitar experiencias de voz con inteligencia artificial para clientes y marcas de automóviles. La solución proporciona al sector una nueva visión de la conversión de texto a voz y la voz expresiva, idiomas mundiales, fidelidad del hablante y personalización mediante autoservicio. XPENG se une a una tendencia creciente de los fabricantes de automóviles que se replantean la inversión en la voz ambiental.

“Este es un análisis vanguardista de la interacción con el vehículo mediante la voz en el sector de la automoción”, declaró Hao Chao, experto en productos de inteligencia artificial para automoción en XPENG. “La experiencia ofrece un nivel de voz natural totalmente nuevo. Gracias a nuestro profundo conocimiento de la movilidad humana, estamos encontrando muchos más escenarios donde aprovechar la tecnología de inteligencia artificial para lograr un alto nivel de intuición entre el conductor y la máquina”.

XPENG ha aprovechado la tecnología de conversión de texto a voz neuronal de Microsoft para su experiencia del usuario en el automóvil. El uso de la conversión de texto a voz neuronal de Microsoft con estilos emocionales permite a XPENG proporcionar una experiencia de escucha más agradable a sus clientes y evitar la fatiga auditiva. La conversión de texto a voz neuronal de Microsoft proporciona una fluidez y una naturalidad que son comparables a las de la voz humana. Combinada con voces multiemocionales, la conversión de texto a voz de Microsoft actúa como un sustituto innovador del sonido monótono que tienen actualmente muchos asistentes de automóviles.

“Estamos encantados de reinventar el modo en el que el habla y la voz pueden mejorar la vida de los conductores”, afirmó Binggong Ding, responsable de los productos de voz de Azure AI. “Desde un punto de vista técnico, realmente queremos convertir esto en un modelo que pueda servir a todas las marcas de automóviles y a sus desarrolladores. ¿Cómo podemos optimizar el uso de voz sintética para permitir una experiencia de voz de alta fidelidad sin comprometer la calidad del sonido? XPENG se ha basado en este desafío para proporcionar el asistente de voz que los clientes estaban buscando”.

El objetivo a largo plazo de Microsoft es convertir la funcionalidad de voces mundiales multiemocionales avanzadas en el nuevo estándar para las marcas y clientes de automóviles de todo el mundo. La tecnología que ha adoptado XPENG ha agregado decenas de estilos de voz, un control de la intensidad emocional único y la capacidad de deducción. Cubre 90 certificaciones de todo el mundo, incluidas directivas nacionales, requisitos normativos de los centros de datos y el RGPD de la UE, además de otros requisitos más exigentes de los titulares de las directivas de privacidad de los datos. Junto con los fabricantes de automóviles, Microsoft está creando nuevas experiencias de conducción con voz basadas en la funcionalidad de conversión de texto a voz y de voz en texto de Azure Cognitive Services para voz.

Innovación acelerada en el uso de la voz

La voz es la nueva interfaz de la tecnología de computación ambiental. La calidad de la conversión de texto a voz y de voz en texto ha mejorado en los últimos años, gracias a la investigación y a los avances tecnológicos que han sido posibles con el desarrollo de las redes neuronales. La conversión de voz en texto y de texto a voz de alta calidad satisfacen las necesidades del fabricante de automóviles para crear la próxima generación de una experiencia de voz moderna en el automóvil. La conversión de voz en texto de Microsoft ofrece una sólida funcionalidad de reconocimiento que es independiente del hablante y puede controlar el ruido ambiental durante la conducción. También incluye una voz más fluida y natural que puede ser un elemento diferenciador para los clientes y los fabricantes de automóviles. Tanto la conversión de voz en texto como la de texto a voz mejoran, además, el control manos libres del sistema de infoentretenimiento del automóvil. La conversión de texto a voz de Microsoft admite varios estilos de habla, como el chat, las noticias y el servicio de atención al cliente. Estos avances permiten a los conductores disfrutar de una experiencia de conducción más agradable. Para obtener más información sobre los recientes avances en la conversión de voz en texto y de texto a voz, consulte la documentación de voz a texto, con los resultados de la investigación, y estos artículos sobre haber alcanzado la paridad humana según el banco de pruebas de investigación Switchboard y lo cerca que se encuentra la conversión de texto a voz neuronal de la paridad humana.

Oferta de idiomas mundiales

Microsoft ayuda a los fabricantes de automóviles a hacer negocios en todo el mundo. Recientemente, alcanzó un hito de 100 idiomas y ahora admite 119 idiomas y variantes con 278 voces listas para usar. Esto concuerda con la visión de nuestra empresa de capacitar a todas las personas y organizaciones del planeta para lograr más cosas. “Cien idiomas es un buen hito para lograr nuestro objetivo de que todo el mundo pueda comunicarse, independientemente del idioma que hable”, afirmó Xuedong Huang, técnico de Microsoft y director de tecnología de Azure AI. Con más idiomas y sus variantes cubiertas, nos complace el hecho de hacer posibles experiencias de voz naturales e intuitivas para los fabricantes de automóviles.

Diferenciación con personalización

Microsoft permite a los fabricantes de automóviles desarrollar una voz de marca muy realista para interfaces de conversación más naturales, usando la funcionalidad de voz neuronal personalizada. La voz neuronal personalizada, que se basa en la tecnología de conversión de texto a voz neuronal y el modelo universal multihablante y multilingüe, permite crear voces sintéticas enriquecidas con estilos de habla o idiomas adaptables con solo 30 minutos de audio. La voz natural y realista que se obtiene con la funcionalidad de voz neuronal personalizada puede representar marcas y personas específicas, además de permitir a los usuarios interactuar con las aplicaciones de manera natural en forma de conversación. Eche un vistazo a esta entrada de blog si desea obtener una guía paso a paso para crear una voz neuronal personalizada.

Cumplimiento normativo e inteligencia artificial responsable

Microsoft se compromete a invertir en el cumplimiento de las normativas de todo el mundo para satisfacer los requisitos de cumplimiento normativo de los fabricantes de automóviles. El servicio de voz, que forma parte de Azure Cognitive Services, cuenta con las certificaciones de SOC, FedRAMP, PCI DSS, HIPAA, HITECH e ISO. Gracias al respaldo de la infraestructura de Azure, el servicio de voz ofrece también una seguridad, una disponibilidad, un cumplimiento normativo y una manejabilidad de nivel empresarial.
 
Microsoft se compromete a desarrollar tecnología de inteligencia artificial de forma responsable. Usamos diferentes características técnicas y de directivas para proteger frente a un uso indebido de la tecnología. Por ejemplo, estamos diseñando y lanzaremos Voz neuronal personalizada con la intención de proteger los derechos de las personas y de la sociedad, a fin de fomentar la interacción transparente entre equipos y humanos, y contrarrestar la proliferación de falsificaciones peligrosas y contenido engañoso. Esto está en línea con el compromiso de Microsoft de una inteligencia artificial responsable. Ese compromiso incluye notas de transparencia, que comunican el propósito, la funcionalidad y las limitaciones de un sistema de inteligencia artificial.

Más información

Azure Cognitive Services pone la inteligencia artificial al alcance de todos. Descubra cómo puede acelerar la innovación con una investigación de inteligencia artificial innovadora.