Synthèse vocale

Convertissez le texte en langage réaliste pour des interfaces plus naturelles

Parlez comme un humain et non comme un robot

Utilisez la synthèse vocale (composant du service Speech) pour créer des applications et des services qui parlent naturellement. Donnez vie à vos solutions avec des dizaines de voix dans un large éventail de langues. Créez des voix réalistes avec la fonctionnalité de synthèse vocale neuronale basée sur des recherches de pointe en matière de technologie de synthèse vocale. Personnalisez les modèles pour créer une voix unique pour votre solution et votre marque.

Un langage réaliste

Activez une voix fluide et naturelle qui correspond aux schémas d’accent et à l’intonation des voix humaines.

Engagement mondial

Atteignez un public mondial avec plus de 80 voix et 45 langues et variantes.

Expériences personnalisées

Créez des voix uniques et personnalisées pour vos applications à partir de quelques minutes de données d’entraînement.

Audio optimisé

Ajustez la sortie vocale de vos scénarios en ajustant facilement des attributs tels que le débit, le volume et la prononciation.

Produisez des voix naturelles

Donnez une nouvelle voix à vos applications avec une intonation naturelle et humaine et une articulation claire. Grâce à l’utilisation des réseaux de neurones profonds, la fonctionnalité de synthèse vocale rend les voix des ordinateurs expressives et presque impossibles à distinguer de la voix parlée naturelle.

Anglais (États-Unis) : Jessa

Phrase Échantillon vocal
The third type, a logarithm of the unsigned fold change, is undoubtedly the most tractable.
As the name suggests, the original submarines came from Yugoslavia.
This is easy enough if you have an unfinished attic directly above the bathroom.

Anglais (États-Unis) : Guy

Phrase Échantillon vocal
Susan Candiotti reports they've given up their trip.
Carol knows my lifestyle.
The seagrass fiber is tough, durable, and smooth.

Chinois (CN) : Xiaoxiao

Phrase Échantillon vocal
您好,欢迎致电客服中心。我是华北地区的客服人员,工号0165。请问有什么可以帮您?
想和你表白,试了一万种方式,找了一千次时机,但都放弃了,最终只能原地踏步。
负责人Michael透露,新推出的紧凑型SUV搭载了智能的音响系统,可以语音控制volume大小。不过,车身的整体造型还是个secret。

Allemand (DE) : Katja

Phrase Échantillon vocal
Bestimmte Berufsgruppen sind nur noch schwer zu rekrutieren.
Sein Gedicht steckt voller Übertreibungen, die für den Schriftsteller allerdings typisch sind.
Er organisiert eine Unterstützung der schwächeren durch die stärksten Bundesländer.

Italien (IT) : Elsa

Phrase Échantillon vocal
Tenete conto di un fattore importante.
Alcuni prodotti in gran parte sono di buona qualità.
Crisi? Vietato rilassarsi, siamo ancora in emergenza.

Voulez-vous le créer ?

Impliquez des audiences mondiales en temps réel

Convertissez du texte en audio en temps réel et créez des expériences de conversation fluides. Atteignez un public mondial avec plus de 80 voix et 45 langues et variantes.

Langage Texte d’échantillon Échantillon vocal
English (US) An airport spokesman said more than 110 planes were damaged by hail.
Chinese (CN) 广告收入的比例高达90%以上
Japanese (JP) 皆様のご協力のたまものと
German (DE) Der Anstieg der Verbraucherpreise in der Eurozone verlangsamt sich weiter.
Spanish (ES) El alcalde de Santiago convoca a los medios para inaugurar dos semáforos.
Turkish (ES) Tren durduğu sırada vagonun ortasında bir patlama meydana geldi.

Voulez-vous le créer ?

Créez une voix unique pour votre marque

Créez votre voix unique sans une seule ligne de code, à partir de quelques minutes seulement d’entraînement audio. Développez une voix personnalisée hautement réaliste, à l’image de l’homme, en utilisant des modèles de réseaux neuronaux profonds avec la fonctionnalité de voix neuronale personnalisée, qui peut être utilisée pour des scénarios en temps réel et pour la synthèse de contenu audio de forme longue.

Langage

Qualité

Texte d’échantillon Échantillon vocal

Vous voulez commencer à construire votre propre modèle vocal ?

Adaptez facilement la sortie audio

Réglez votre texte pour le convertir en sortie audio en temps réel en contrôlant des paramètres tels que le débit, la prononciation, l’intensité, le volume, l’intonation et les pauses. Avec les voix neuronales, vous pouvez ajuster le style de conversation pour exprimer des émotions telles que la gaieté ou l’empathie, ou pour adapter des scénarios spécifiques, tels qu’une discussion avec un ton décontracté ou la diffusion d’informations pour un ton formel.

En savoir plus sur le réglage de la voix

Déployer en tout lieu, du cloud à la périphérie

Exécutez la synthèse vocale dans le cloud ou en local avec des conteneurs pour les scénarios où la sécurité des données et une faible latence sont primordiales. Les conteneurs Speech prennent à présent en charge les voix standard et personnalisées.

En savoir plus sur les fonctionnalités vocales dans des conteneurs

Sécurité pour l’entreprise

  • Microsoft investit plus de USD 1 billion par an dans la recherche et le développement en matière de cybersécurité.

  • Nous employons plus de 3 500 experts de sécurité qui se consacrent entièrement à la sécurité et à la confidentialité de vos données.

  • Azure a plus de certifications que tout autre fournisseur de services cloud. Affichez la liste complète.

Bénéficiez de la puissance, du contrôle et de la personnalisation dont vous avez besoin grâce à une tarification flexible

Payez uniquement en fonction de votre utilisation, sans coût de démarrage. Avec la synthèse vocale, vous payez au fur et à mesure, en fonction du nombre de caractères convertis en audio.

Guide sur les voix neuronales responsables

En savoir plus pour le déploiement responsable des voix de synthèse

Les voix de synthèse doivent être conçues de manière à gagner la confiance des autres. Découvrez les principes permettant de créer des voix de synthèse qui inspirent confiance en votre entreprise et vos services.

Lire nos instructions sur le déploiement responsable

Obtenir le consentement des talents vocaux

Aidez les talents vocaux à comprendre le fonctionnement de la synthèse vocale neuronale et comment l'exploiter lors du processus d'enregistrement audio.

Lire nos conseils de divulgation pour les talents vocaux

Transparence

Veillez à ce que les utilisateurs comprennent la voix de synthèse qu’ils entendent et à ce que le talent vocal sache comment sa voix sera utilisée.

Voir notre guide de divulgation En savoir plus sur notre approche responsable

Nous contacter

La fonctionnalité de voix neuronale personnalisée est en préversion contrôlée. Pour en savoir plus sur le processus de contrôle et sur l’accès, consultez cette page.

Commencez à utiliser la synthèse vocale en 3 étapes

Obtenez un accès instantané et $200 de crédit en créant un compte Azure gratuit.
Connectez-vous au portail Azure et ajoutez Speech.
Découvrez comment incorporer la synthèse vocale en consultant les démarrages rapides et la documentation.

Ressources de développement pour la synthèse vocale

Documentation et tutoriel

Commencez à utiliser la synthèse vocale.

Cours

Suivez un cours Pluralsight qui vous présente la synthèse vocale.

Suivre le cours

Questions fréquentes sur la synthèse vocale

  • Les voix standard sont créées à l’aide des techniques de synthèse paramétrique statistique et de synthèse concaténative. Ces voix sont très compréhensibles et naturelles et peuvent être utilisées pour permettre à vos applications de parler dans plus de 45 langues avec un large éventail d’options vocales.

    Les voix neuronales utilisent des réseaux neuronaux profonds pour dépasser les limites des systèmes de synthèse vocale traditionnels, avec mise en correspondance de modèles d’accent et d’intonation dans la langue parlée, et synthétisation des unités de discours en voix d’ordinateur. La synthèse vocale standard décompose la prosodie en étapes séparées pour l’analyse linguistique et la prédiction acoustique régies par des modèles indépendants, ce qui peut entraîner une voix de synthèse étouffée. Ici, les capacités neuronales exécutent la prédiction prosodique et la synthèse vocale simultanément, pour une voix plus naturelle et une énonciation plus fluide.
  • Pour obtenir la liste complète, consultez la documentation.

Commencer à utiliser Speech