Reconnaissance vocale

Convertissez rapidement de l’audio en texte pour offrir une réactivité naturelle.

L’API Reconnaissance vocale Cognitive Services offre une gamme de fonctionnalités que vous pouvez intégrer à vos applications pour prendre en charge divers scénarios de transcription, notamment la transcription de conversation, la transcription vocale et la transcription vocale personnalisée.

Transcription de conversation

Activez la transcription de réunion en personne. La transcription de conversation capture la parole en temps réel afin que tous les participants à la réunion puissent participer pleinement à la discussion, identifier qui a dit quoi et quand et suivre rapidement les prochaines étapes.

Voici les possibilités offertes par la transcription de conversation :

  • Capturez tout ce qui est dit dans la salle de réunion.
  • Aidez à protéger les données avec les certifications de sécurité et de conformité parmi les meilleures du secteur.
  • Prenez en charge les configurations de réunion et de conférence utilisant des microphones et des caméras vidéo, en les associant au SDK Speech Devices.

Voir en action

Une erreur s’est produite lors du chargement de cette démo, veuillez attendre et réessayer

Intervenant Transcription

Cette démonstration est incompatible avec votre navigateur. Pour une expérience optimale, utilisez un autre navigateur.

Voulez-vous le créer ?

Transcription de la parole

Convertissez un enregistrement vocal en texte. Appelez l’API pour reconnaître le signal audio provenant du microphone, d’autres sources audio de streaming en temps réel ou d’un fichier audio enregistré. À mesure que le signal audio est envoyé au serveur, des résultats de reconnaissance partielle sont renvoyés si vous le souhaitez.

Vous pouvez utiliser l’API pour générer des applications intelligentes déclenchées par la voix. Essayez la démonstration pour découvrir son fonctionnement. Sélectionnez votre langue cible, cliquez sur le microphone, puis commencez à parler. Ou cliquez simplement sur l’un des exemples de phrases vocales.*

Voir en action

Pour essayer la démo avec votre propre voix à l’aide d’un microphone, Passez à un autre navigateur prenant en charge WebRTC, par exemple, une version récente de Microsoft Edge, de Firefox ou de Chrome.

Voulez-vous le créer ?

Service de reconnaissance vocale personnalisé : Transcription de la parole avec un modèle personnalisé

Éliminez les obstacles à la reconnaissance vocale, tels que le style d’élocution, le bruit de fond et le vocabulaire. Nos technologies de reconnaissance vocale combinent plusieurs API pour produire la sortie texte. Les clients peuvent personnaliser les API en fonction de leurs besoins et des données disponibles.

Voir en action

Exemples de phrases

Base de référence

Discours personnalisé

Créez des modèles de langue personnalisés adaptés aux style oraux des utilisateurs

Ne laissez pas la diversité des vocabulaires et des styles de conversation bloquer la compréhension. Personnalisez le modèle de langage de la reconnaissance vocale de votre application en l’adaptant aux expressions de votre secteur, aux termes techniques, géographiques ou commerciaux, et même au style du locuteur.

Adaptez-vous à l’environnement de vos utilisateurs avec des modèles acoustiques personnalisés

Assurez-vous que la reconnaissance vocale de votre application peut fonctionner dans tous les environnements. Avec des modèles acoustiques personnalisés, vous pouvez tenir compte du bruit de fond et offrir à vos utilisateurs l’environnement qu’ils attendent.

Utilisez les modèles vocaux robustes de Microsoft

Activez une reconnaissance vocale puissante et personnalisée en créant vos propres modèles de reconnaissance vocale personnalisés en plus des modèles de pointe existants de Microsoft.

Voulez-vous le créer ?

Explorez un scénario vocal

Centre d’appels

Speech ServicesWith Speech Services, it is easy to transcribe every call. Index the transcription for full-text search or apply Text Analytics to detect sentiment, language and key phrases for insights. If your call center recordings involve specialized terminology, such as product names or IT jargon, create a custom language model to teach Speech Services the vocabulary. A custom acoustic model helps Speech Services understand speakers even with background noise or poor phone connections. For more information, read how batch transcription works with Speech Services.
  1. Présentation
  2. Flux

Services Speech

Présentation

Avec les services Speech, il est facile de transcrire chaque appel. Indexez la transcription pour effectuer une recherche en texte intégral ou appliquez l’analyse de texte afin de détecter le sentiment, la langue et les expressions clés et d’obtenir des insights. Si vos enregistrements de centres d’appels impliquent des termes spécialisés, par exemple, des noms de produits ou un jargon informatique, créez un modèle de langage personnalisé afin d’enseigner le vocabulaire aux services Speech. Un modèle acoustique personnalisé aide les services Speech à comprendre les orateurs même avec un bruit de fond ou de mauvaises connexions téléphoniques.

Pour plus d’informations, découvrez le fonctionnement de la transcription par lots avec les services Speech.

Flux

  1. 1 Adapter un modèle à votre domaine et déployer ce modèle
  2. 2 Charger vos enregistrements dans un conteneur d’objets blob
  3. 3 Créer une requête POST pour la transcription par lots
  4. 4 Les services Speech planifient le travail de transcription
  5. 5 Les fichiers stéréo sont divisés en deux canaux
  6. 6 Les fichiers mono subissent une diarisation pour distinguer les locuteurs
  7. 7 Télécharger la transcription à l’aide de l’ID de transcription

Explorer les API Cognitive Services

Vision par ordinateur

Dévoilez des informations pertinentes à partir d’images

Visage

Détectez, analysez, organisez et identifiez les visages dans vos photos

Ink Recognizer VERSION PRÉLIMINAIRE

Service d’intelligence artificielle qui reconnaît le contenu manuscrit, tel que l’écriture manuscrite, les formes et la mise en page de document manuscrit

Video Indexer

Tirez des insights de vos vidéos

Vision personnalisée

Personnalisez facilement vos modèles de vision par ordinateur pour les adapter à votre cas d’utilisation

Form Recognizer VERSION PRÉLIMINAIRE

Le service d’extraction de document optimisé par l’intelligence artificielle qui comprend vos formulaires

Analyse de texte

Évaluez facilement les sentiments et les thèmes pour comprendre ce que les clients recherchent

Traduction de texte Translator Text

Effectuez facilement une traduction automatique avec un simple appel d’API REST

QnA Maker

Distillez des informations au travers de réponses de style conversationnel dans lesquelles il est facile de naviguer

Language Understanding

Formez vos applications pour qu’elles comprennent les commandes de vos utilisateurs

Lecteur immersif VERSION PRÉLIMINAIRE

Donnez aux utilisateurs de tous âges et de toutes capacités les moyens de lire et de comprendre du texte

Services Speech

Services vocaux unifiés pour la reconnaissance vocale, la synthèse vocale et la traduction vocale

Reconnaissance de l’orateur VERSION PRÉLIMINAIRE

Identifier et vérifier les orateurs en fonction de leur voix

Content Moderator

Modération automatisée des images, textes et vidéos

Détecteur d’anomalies VERSION PRÉLIMINAIRE

Ajoutez aisément des fonctionnalités de détection d’anomalies à vos applications.

Personalizer VERSION PRÉLIMINAIRE

Un service d’IA qui offre une expérience utilisateur personnalisée

Utilisez le Kit de développement logiciel (SDK) Speech Devices pour construire un dispositif d’ambiance et créer un mot déclencheur personnalisé

En savoir plus