Riconoscimento vocale

Converti rapidamente l'audio in testo per una velocità di risposta naturale.

Riconoscimento vocale di Servizi cognitivi offre una vasta gamma di funzionalità che possono essere incorporate nelle tue app per supportare diversi scenari di trascrizione, tra cui trascrizione conversazione, trascrizione vocale e trascrizione di riconoscimento vocale personalizzato.

Trascrizione conversazione

Consenti la trascrizione di riunioni in prima persona. Trascrizione conversazione acquisisce il parlato in tempo reale in modo che tutti i partecipanti alla riunione possano contribuire attivamente alla discussione, identificare chi ha pronunciato una determinata frase in un momento specifico e fornire rapidamente informazioni di completamento per i passaggi successivi.

Usa Trascrizione conversazione per:

  • Acquisire parlato dall'intera sala riunioni.
  • Contribuire alla protezione dei dati con sicurezza leader di settore e certificazioni di conformità.
  • Supportare riunioni e conferenze che usano microfoni e videocamere tramite l'associazione con Speech Devices SDK.

Provala

Si è verificato un errore durante il caricamento di questa demo. Attendi e riprova.

Relatore Trascrizione

Questa demo non è compatibile con il browser. Per un'esperienza ottimale, usa un browser diverso.

Vuoi crearlo?

Trascrizione di parlato

Converti l'audio in testo. Chiama l'API per riconoscere l'audio proveniente dal microfono, da altre origini audio in streaming in tempo reale o da un file audio registrato. Quando l'audio viene inviato al server, vengono restituiti risultati parziali del riconoscimento, se richiesto.

Puoi usare l'API per creare app intelligenti attivate da comandi vocali. Prova la demo per scoprire come funziona. Seleziona la tua lingua di destinazione, quindi fai clic sul microfono e inizia a parlare. Puoi anche fare semplicemente clic su una delle frasi parlate di esempio.*

Provala

Per provare la demo con la tua voce usando un microfono, passa a un browser diverso con supporto per WebRTC, ad esempio una versione recente di Microsoft Edge, Firefox o Chrome.

Vuoi crearlo?

Servizio Riconoscimento vocale personalizzato: trascrizione vocale con un modello personalizzato

Supera gli ostacoli al riconoscimento vocale, come il modo di parlare, il vocabolario e il rumore di fondo. Le nostre tecnologie di riconoscimento vocale combinano più API per produrre l'output di testo. I clienti possono personalizzare le API in base alle proprie esigenze e ai dati disponibili.

Provala

Frasi di esempio

Baseline

Riconoscimento vocale personalizzato

Crea modelli di lingua personalizzati specifici per i modi di parlare degli utenti

Non consentire alle variazioni di vocaboli e ai modi di parlare di impedire la comprensione. Personalizza il modello di lingua del riconoscimento vocale della tua app adattandolo alle espressioni del tuo settore, ai vocaboli tecnici, ai termini geografici o relativi al settore di mercato e anche al modo di parlare del parlante.

Adattati all'ambiente dell'utente con i modelli acustici personalizzati

Assicurati che il riconoscimento vocale della tua app possa funzionare in tutti gli ambienti. Con modelli acustici personalizzati puoi tenere in considerazione il rumore di fondo e puoi adattarti agli ambienti previsti dei tuoi utenti.

Usa i modelli conversione voce/testo affidabili di Microsoft

Consenti il riconoscimento vocale avanzato e personalizzato creando modelli personalizzati di riconoscimento vocale basati sui modelli Microsoft esistenti all'avanguardia.

Vuoi crearlo?

Esplora uno scenario relativo al riconoscimento vocale

Call center

Speech ServicesWith Speech Services, it's easy to transcribe every call. Index the transcription for full-text search, or apply Text Analytics to detect sentiment, language, and key phrases for insights. If your call center recordings involve specialized terminology, such as product names or IT jargon, create a custom language model to teach Speech Services the vocabulary. A custom acoustic model helps Speech Services understand speakers even with background noise or poor phone connections. For more information, read how batch transcription works with Speech Services.
  1. Panoramica
  2. Flusso

Servizi Voce

Panoramica

I servizi Voce semplificano la trascrizione di ogni chiamata. Indicizza la trascrizione per una ricerca full-text o applica le funzionalità di Analisi del testo per rilevare il sentiment, la lingua e le frasi chiavi per ottenere informazioni dettagliate. Se le registrazioni del call center contengono terminologia specializzata, come nomi di prodotti o gergo IT, crea un modello linguistico personalizzato per insegnare il vocabolario specifico ai servizi Voce. Un modello acustico personalizzato aiuta i servizi Voce a comprendere i parlanti anche in caso di rumore di sottofondo o connessione telefonica di qualità ridotta.

Per altre informazioni, scopri di più sul funzionamento delle trascrizioni batch con i servizi Voce.

Flusso

  1. 1 Adatta un modello al tuo dominio e distribuisci tale modello
  2. 2 Carica le registrazioni in un contenitore BLOB
  3. 3 Crea una richiesta POST per una trascrizione batch
  4. 4 I servizi Voce pianificano il processo di trascrizione
  5. 5 I file stereo vengono suddivisi in due canali
  6. 6 I file mono vengono sottoposti a diarizzazione per distinguere tra i parlanti
  7. 7 Scarica la trascrizione usando l'ID trascrizione

Esplora le API Servizi cognitivi

Visione artificiale

Estrai informazioni di utilità pratica dalle immagini

Viso

Rileva, identifica, analizza, organizza e contrassegna con tag i visi nelle foto

Riconoscimento input penna ANTEPRIMA

Un servizio di intelligenza artificiale che riconosce contenuti di tipo input penna, tra cui scrittura manuale, forme e layout di documenti con input penna

Indicizzatore video

Informazioni dettagliate per i video

Servizio visione artificiale personalizzato

Puoi personalizzare facilmente i tuoi modelli di visione artificiale all'avanguardia per i tuoi casi d'uso specifici

Riconoscimento modulo ANTEPRIMA

Un servizio di estrazione di documenti basato su intelligenza artificiale in grado di comprendere i tuoi moduli

Analisi del testo

Valuta in tutta semplicità i sentimenti e gli argomenti per identificare con precisione le esigenze degli utenti

Traduzione testuale

Esegui traduzioni automatiche in tempo reale con una semplice chiamata API REST

QnA Maker

Estrai informazioni per ottenere risposte discorsive e facili da analizzare

Language Understanding

Insegna alle tue app a riconoscere i comandi degli utenti

Strumento di lettura immersiva ANTEPRIMA

Permetti a utenti di qualsiasi età e con qualsiasi livello di abilità di leggere e comprendere il testo

Servizi Voce

Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale

Riconoscimento del parlante ANTEPRIMA

Usa il riconoscimento vocale per identificare e verificare singole voci

Content Moderator

Moderazione automatizzata di immagini, testo e video

Rilevamento anomalie ANTEPRIMA

Aggiungi con facilità le funzionalità di Rilevamento anomalie alle tue app.

Personalizza esperienze ANTEPRIMA

Un servizio di intelligenza artificiale che offre un'esperienza utente personalizzata

Usa Speech Devices SDK per creare un dispositivo ambiente e una parola di attivazione personalizzata

Altre informazioni