Passer la navigation

Accélérer l’expérience numérique à l’intérieur des véhicules avec Azure Cognitive Services

Publié le 5 janvier, 2022

Vice President Strategy and Commercialization, Azure AI Platform

Image héros

Microsoft aide à remodeler l’industrie automobile dans la manière dont elle sert ses conducteurs avec les systèmes d’infodivertissement dans les véhicules. Par exemple, Azure collabore avec XPENG pour activer des expériences vocales basées sur l’IA pour les marques et les clients du secteur de l’automobile. La solution fournit aux entreprises du secteur de toutes nouvelles fonctionnalités de prise de parole et d’expression vocale, des langues globales, la fidélité de l’orateur et une personnalisation libre-service. XPENG rejoint une tendance croissante dans laquelle les constructeurs automobiles repensent les investissements dans la voix environnementale.

« Il s’agit d’une exploration innovante de l’interaction vocale des véhicules dans le secteur automobile », a déclaré Hao Chao, expert senior des produits d’IA automobile chez XPENG. « L’expérience offre un tout nouveau niveau de discours naturel. Avec une compréhension approfondie de la mobilité urbaine, nous avons trouvé beaucoup plus de scénarios permettant de tirer parti de la technologie d’IA pour un haut niveau de l’intuition pilote-machine. »

XPENG s’est appuyé sur la technologie de synthèse vocale neuronale de Microsoft pour son expérience utilisateur en voiture. En utilisant la synthèse vocale de Microsoft avec des styles émotionnels, XPENG peut fournir une meilleure expérience d’écoute pour ses clients et combattre la fatigue de l’auditeur. La synthèse vocale de Microsoft fournit une aisance et un naturel comparables à ceux d’une voix humaine. Couplée à des voix multi-émotionnelles, la synthèse vocale Microsoft offre un remplacement bienvenu du son monotone de bon nombre d’assistants automobiles.

« Nous sommes ravis de réinventer la manière dont la parole et la voix peuvent améliorer la vie des conducteurs », a déclaré Binggong Ding, responsable des produits vocaux Azure AI. « D’un point de vue technique, nous voulons vraiment faire de ce modèle un modèle qui peut servir à l’ensemble des marques automobiles et à leurs développeurs. Comment pouvons-nous optimiser l’utilisation de la synthèse vocale pour permettre une expérience vocale haute fidélité sans compromettre la qualité du son ? XPENG s’appuie sur ce défi pour fournir l’assistant vocal que les clients recherchent. »

L’objectif à long terme de Microsoft est de créer des fonctionnalités avancées de voix multilingues et multinationales pour la nouvelle norme pour les marques de voitures et les consommateurs. La technologie adoptée par XPENG a ajouté des dizaines de styles vocaux, un contrôle unique de l’intensité émotionnelle et des capacités de déduction. Elle couvre 90 certifications dans le monde entier, notamment les politiques nationales, les exigences réglementaires en matière de centres de données et de RGPD (UE), ainsi que les exigences de confidentialité des données. En collaboration avec les constructeurs automobiles, Microsoft crée de nouvelles expériences de conduite grâce aux fonctionnalités de synthèse vocale et de reconnaissance vocale dans Azure Cognitive Services pour Speech.

Innovation vocale accélérée

La voix est la nouvelle interface de la technologie informatique ambiante. La qualité de la synthèse vocale et de la reconnaissance vocale a été améliorée au cours des dernières années en raison des évolutions technologiques et de la recherche qui ont été effectuées par le développement de réseaux neuronaux. La synthèse vocale et la reconnaissance vocale répondent aux besoins du constructeur automobile afin de créer la nouvelle génération d’expériences vocales dans les voitures modernes. La synthèse vocale Microsoft offre de puissantes fonctionnalités de reconnaissance qui sont indépendantes des orateurs et peuvent gérer le bruit ambiant pendant la conduite. La synthèse vocale Microsoft offre également une voix plus fluide et naturelle qui peut être une différenciation pour les constructeurs et les clients. La reconnaissance vocale et la synthèse vocale augmentent également le contrôle mains-libres du système d’infodivertissement des voitures. La synthèse vocale de Microsoft prend en charge plusieurs styles d’expression orale, par exemple, conversationnel, journalistique ou technique. Ces améliorations permettent aux conducteurs d’avoir une expérience de conduite plus agréable. Pour plus d’informations sur les améliorations récentes en synthèse vocale et reconnaissance vocale, consultez la documentation sur la synthèse vocale avec ses résultats de recherche, le banc d’essai sur la parité humaine pour le standard téléphonique et en quoi la synthèse vocale neuronale est proche de la parité humaine.

Offrir des langues globales

Microsoft aide les constructeurs automobiles à couvrir leur activité mondiale et vient d’atteindre l’étape majeure de 100 langues et prend maintenant en charge 119 langues et variantes avec 278 voix prêtes à l’emploi. Cela s’aligne sur la mission de notre entreprise, qui est de donner à chaque personne et à chaque organisation sur la planète les moyens d’accomplir davantage. « 100 langues est une bonne étape pour nous permettre d’atteindre notre ambition qui est que tout le monde puisse communiquer, quelle que soit la langue parlée», a déclaré Xuedong Huang, Microsoft Technical Fellow et directeur des nouvelles technologies Azure AI. Avec plus de langues avec leurs variantes couvertes, nous sommes ravis d’alimenter des expériences vocales naturelles et intuitives pour les constructeurs automobiles.

Différenciation avec la personnalisation

Microsoft donne les moyens aux fabricants automobiles d’élaborer une voix personnalisée très réaliste pour des interfaces conversationnelles naturelles en utilisant la fonctionnalité de voix neuronale personnalisée. S’appuyant sur la technologie de synthèse vocale neuronale et le modèle universel multi-voix multilingue, la voix neuronale personnalisée vous permet de créer des voix de synthèse riches en termes de styles d’élocution ou de plurilinguisme, dès 30 minutes d’audio. La voix réaliste et naturelle de la voix neuronale personnalisée peut représenter des marques, des personas spécifiques et permettre aux utilisateurs d’interagir de manière naturelle avec les applications dans un style conversationnel. Consultez ce blog pour obtenir un guide pas à pas sur la création d’une voix neuronale personnalisée.

Conformité et IA responsable

Microsoft s’engage à investir dans le respect des normes réglementaires dans le monde entier pour répondre aux exigences de conformité des constructeurs automobiles. Le service Speech, qui fait partie d’Azure Cognitive Services, est certifié par SOC, FedRAMP, PCI DSS, HIPAA, HITECH et ISO. S’appuyant sur l’infrastructure Azure, le service Speech offre également une sécurité, une disponibilité, une conformité et une facilité de gestion de classe Entreprise
 
Microsoft s’engage à développer la technologie IA de manière responsable. Nous utilisons différentes fonctionnalités techniques et de stratégie pour vous protéger contre l’utilisation incorrecte de la technologie. Par exemple, nous concevons et publions une voix neuronale personnalisée avec l’intention de protéger les droits des individus et de la société, en encourageant l’interaction transparente entre l'homme et l'ordinateur et en contrecarrant la prolifération de deepfakes dangereux et de contenu équivoque. Cela s’aligne sur l’engagement de Microsoft pour produire une IA responsable. Cet engagement inclut des notes de transparence, qui communiquent l’objectif, les capacités et les limites d’un système IA.

En savoir plus

Azure Cognitive Services met l’IA à portée de main. Découvrez comment accélérer l’innovation grâce à des recherches révolutionnaires sur l’IA.