Tipi di servizi API Voce
È possibile usare il servizio Voce di Servizi cognitivi di Azure per eseguire trasformazioni della lingua parlata, tra cui riconoscimento vocale, sintesi vocale, traduzione vocale e riconoscimento del parlante.
Nota
Usare Il servizio cognitivo di Azure per la lingua se si vogliono raccogliere informazioni dettagliate su termini o frasi o ottenere un'analisi contestuale dettagliata della lingua parlata o scritta.
Servizi
- Il riconoscimento vocale può convertire i flussi audio in testo in tempo reale o in batch.
- La sintesi vocale consente alle applicazioni di convertire il testo in parlato simile a quello umano.
- La traduzione vocale offre la traduzione vocale in più lingue e la traduzione vocale dei flussi audio.
Come scegliere un servizio di riconoscimento vocale
Questo diagramma di flusso consente di scegliere il servizio voce più adatto alle proprie esigenze:
Il lato sinistro del diagramma illustra i processi audio-audio o audio-to-text.
- Il riconoscimento vocale viene usato per convertire la voce da un'origine audio a un formato di testo.
- Il riconoscimento vocale viene usato per tradurre la voce in una lingua in un'altra lingua.
Il lato destro del diagramma illustra i processi da testo a audio.
- La sintesi vocale viene usata per generare audio parlato da un'origine di testo.
Casi d'uso comuni
La tabella seguente consiglia i servizi per alcuni casi d'uso comuni.
Caso d'uso | Servizio da usare |
---|---|
Fornire sottotitoli per video registrati o live | Riconoscimento vocale |
Creare una trascrizione di una telefonata o di una riunione | Riconoscimento vocale |
Implementare la dettatura automatica delle note | Riconoscimento vocale |
Determinare l'input dell'utente previsto per un'ulteriore elaborazione | Riconoscimento vocale |
Generare risposte vocali all'input dell'utente | Sintesi vocale |
Creare menu vocali per sistemi telefonici | Sintesi vocale |
Leggere messaggi di posta elettronica o sms ad alta voce in scenari pratici | Sintesi vocale |
Trasmettere annunci in luoghi pubblici, ad esempio stazioni ferroviarie o aeroporti | Sintesi vocale |
Produrre sottotitoli in tempo reale per una traduzione vocale o simultanea bidirezionale di una conversazione parlata | Riconoscimento vocale |
Autori di contributi
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai collaboratori seguenti.
Autori principali:
- Kruti Mehta | Azure Senior Fast-Track Engineer
- Oscar Shimabukuro | Senior Cloud Solution Architect
Altri collaboratori:
- Mick Alberts | Writer tecnico
- Ashish Chaintune | Senior Cloud Solution Architect
- Brandon Cowen | Senior Cloud Solution Architect
- Manjit Singh | Software Engineer
- Christina Skarpathiotaki | Senior Cloud Solution Architect
- Nathan Widdup | Azure Senior Fast-Track Engineer
Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.
Passaggi successivi
- Informazioni sul Servizio di riconoscimento vocale
- Post di blog sulle API Voce
- Percorso di apprendimento: Effettuare il provisioning e gestire Servizi cognitivi di Azure
- Percorso di apprendimento: Elaborare e tradurre la voce con Servizi voce cognitivi di Azure
Risorse correlate
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per