Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale
I servizi Voce unificati offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale e traduzione vocale. I servizi Voce offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale, traduzione vocale e riconoscimento del parlante.
Esplora le opzioni per i prezzi
Applica i filtri per personalizzare le opzioni per i prezzi in base alle tue esigenze.
I prezzi sono solo stime e non devono essere considerati offerte effettive. I prezzi effettivi possono variare in base al tipo di contratto stipulato con Microsoft, alla data di acquisto e al tasso di cambio della valuta. I prezzi vengono calcolati in dollari USA e vengono convertiti mediante i tassi del benchmark di Thomson Reuters aggiornati il primo giorno di ogni mese di calendario. Accedi al calcolatore dei prezzi di Azure per visualizzare i prezzi in base al programma/offerta corrente con Microsoft. Contatta uno specialista delle vendite di Azure per altre informazioni sui prezzi o per richiedere un'offerta. Per altre informazioni sui prezzi di Azure, vedi le Domande frequenti.
Gli enti del Governo degli Stati Uniti sono idonei per l'acquisto di servizi di Azure per enti pubblici da un provider LSP (Licensing Solution Provider) senza alcun impegno finanziario iniziale oppure direttamente tramite una sottoscrizione online con pagamento in base al consumo.
Importante: il prezzo R$ è semplicemente un riferimento. Si tratta di una transazione interna e il prezzo finale è soggetto ai tassi di cambio e all'aggiunta delle imposte sulle transazioni finanziarie. Non sarà rilasciato alcun documento eNF.
Gli enti del Governo degli Stati Uniti sono idonei per l'acquisto di servizi di Azure per enti pubblici da un provider LSP (Licensing Solution Provider) senza alcun impegno finanziario iniziale oppure direttamente tramite una sottoscrizione online con pagamento in base al consumo.
Importante: il prezzo R$ è semplicemente un riferimento. Si tratta di una transazione interna e il prezzo finale è soggetto ai tassi di cambio e all'aggiunta delle imposte sulle transazioni finanziarie. Non sarà rilasciato alcun documento eNF.
Gratuito (F0)
Categoria | Funzionalità | Prezzo |
---|---|---|
Riconoscimento vocale (fatturazione al secondo) |
Standard | 5 ore audio gratuite al mese |
Personalizzato |
5 ore audio gratuite al mese Hosting di endpoint: 1 modello gratuito al mese1 |
|
Audio multicanale trascrizione conversazione ANTEPRIMA | 5 ore audio gratuite al mese | |
Sintesi vocale (fatturazione per carattere) |
Neurale | 0.5 million caratteri gratuiti al mese |
Traduzione vocale (fatturazione al secondo) |
Standard | 5 ore audio gratuite al mese |
Riconoscimento del parlante (fatturazione per transazione) |
Verifica voce2 | 10,000 transazioni gratuite al mese |
Identificazione voce2 | 10,000 transazioni gratuite al mese | |
Archiviazione profili vocali | 10,000 transazioni gratuite al mese |
Pagamento a consumo: pagamento per ciò che si consuma
Categoria | Funzionalità | Prezzo |
---|---|---|
Riconoscimento vocale (fatturazione al secondo) |
Standard | $- per ora audio |
Personalizzato |
$- per ora audio Hosting di endpoint: $- per modello all'ora |
|
Funzionalità avanzate dei componenti aggiuntivi:
|
$- per ora audio per funzionalità | |
Audio multicanale trascrizione conversazione ANTEPRIMA | $- per ora audio1 | |
Sintesi vocale (fatturazione per carattere) |
Neurale |
Real-time & batch synthesis: $- per 1 milione
caratteri Creazione di audio di lunga durata: $- per 1 milione di caratteri |
Sintesi vocale2 |
Training: $- per ora di calcolo, fino a $- per training Real-time & batch synthesis: $- per 1 milione di caratteri Hosting di endpoint: $- per modello all'ora Creazione di audio di lunga durata: $- per 1 milione di caratteri |
|
Traduzione vocale (fatturazione al secondo) |
Standard | $- per ora audio |
Riconoscimento del parlante (fatturazione per transazione) |
Verifica voce3 | $- per 1,000 transazioni |
Identificazione voce3 | $- per 1,000 transazioni | |
Archiviazione profili vocali | $- per 1,000 profili vocali (10,000 profili vocali gratuiti al mese) |
Livelli di impegno
Istanza | Categoria | Funzionalità | Prezzo al mese | Eccedenza |
---|---|---|---|---|
Azure - Standard | Riconoscimento vocale | Standard | $- per 0 ore | $- all'ora |
$- per 2,000 ore | $- all'ora | |||
$- per 10,000 ore | $- all'ora | |||
$- per 50,000 ore | $- all'ora | |||
Personalizzato | $- per 2,000 ore | $- all'ora | ||
$- per 10,000 ore | $- all'ora | |||
$- per 50,000 ore | $- all'ora | |||
Sintesi vocale | Neurale1 | $- per 80milioni di caratteri | $- per 1milioni di caratteri | |
$- per 400milioni di caratteri | $- per 1milioni di caratteri | |||
$- per 2,000milioni di caratteri | $- per 1milioni di caratteri | |||
Contenitore connesso - Standard | Riconoscimento vocale | Standard | $- per 0 ore | $- all'ora |
$- per 2,000 ore | $- all'ora | |||
$- per 10,000 ore | $- all'ora | |||
$- per 50,000 ore | $- all'ora | |||
Personalizzato | $- per 2,000 ore | $- all'ora | ||
$- per 10,000 ore | $- all'ora | |||
$- per 50,000 ore | $- all'ora | |||
Sintesi vocale | Neurale1 | $- per 0milioni di caratteri | $- per 1milioni di caratteri | |
$- per 0milioni di caratteri | $- per 1milioni di caratteri | |||
$- per 80milioni di caratteri | $- per 1milioni di caratteri | |||
$- per 400milioni di caratteri | $- per 1milioni di caratteri | |||
$- per 2,000milioni di caratteri | $- per 1milioni di caratteri | |||
Contenitore disconnesso | Riconoscimento vocale | Standard |
Iscriversi per ottenere l'accesso
Altre informazioni |
|
Personalizzato |
Iscriversi per ottenere l'accesso
Altre informazioni |
|||
Sintesi vocale | Neurale1 |
Iscriversi per ottenere l'accesso
Altre informazioni |
Queste funzionalità sono deprecate e sono disponibili solo per i clienti esistenti. Controllare i dettagli e le informazioni su come eseguire la migrazione a nuove funzionalità.
Istanza | Categoria | Funzionalità | Prezzo |
---|---|---|---|
Gratuito - Web/Contenitore 1 richiesta simultanea |
Sintesi vocale | Standard | 5 million caratteri gratuiti al mese |
Personalizzato |
5 million caratteri gratuiti al mese Hosting di endpoint: 1 modello gratuito al mese |
||
Standard - Web/Contenitore 100 richieste simultanee per il modello di base 20 richieste simultanee per il modello personalizzato |
Sintesi vocale | Standard | $- per 1 milione di caratteri |
Personalizzato |
$- per 1 milione di caratteri Hosting di endpoint: $- per modello all'ora |
Prezzi e opzioni di acquisto di Azure

Contattaci direttamente
Informazioni dettagliate sui prezzi di Azure. È possibile ottenere informazioni sui prezzi per la soluzione cloud e sull'ottimizzazione dei costi e richiedere una proposta personalizzata.
Comunica con uno specialista venditeScopri le modalità di acquisto
Acquista servizi di Azure tramite il sito Web di Azure, un rappresentante Microsoft o un partner di Azure.
Esplora le opzioni disponibiliRisorse aggiuntive
Servizi Voce
Scopri di più sulle funzionalità e sulle capacità di Servizi Voce.
Calcolatore prezzi
Stima i costi mensili previsti per qualsiasi combinazione dei prodotti di Azure.
Documentazione
Vedi esercitazioni tecniche, video e altre risorse di Servizi Voce.
Domande frequenti
-
- Per Riconoscimento vocale e Traduzione vocale, l'utilizzo viene fatturato in incrementi di un secondo.
- Per Sintesi vocale: l'utilizzo viene fatturato per carattere. Consulta la definizione di carattere nella nota sui prezzi.
- Per Riconoscimento vocale e Sintesi vocale, l'hosting di endpoint per i modelli personalizzati viene fatturato al secondo per modello.
- Per i comandi personalizzati: la fatturazione viene rilevata come consumo di servizi di riconoscimento vocale, sintesi vocale e Language Understanding. I comandi personalizzati non introducono nuovi contatori per la fatturazione.
- Non è previsto alcun addebito per il training dei modelli di riconoscimento vocale. Gli unici costi sono relativi all'hosting di endpoint per modello dopo la distribuzione e quindi il costo per ora audio di riconoscimento vocale personalizzato.
-
Il servizio Voce consente agli utenti di adattare modelli baseline in base ai dati acustici e della lingua specifici, generando così modelli di conversione voce/testo personalizzati che si possono usare sia per il riconoscimento vocale che per la traduzione vocale.
-
Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi “recognize speech” e “wreck a nice beach” presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio “orientato a oggetti”, “spazio dei nomi” o “dot net”, ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.
-
Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese “speech” è costituita da quattro fonemi “s p iy ch”. Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.
-
Il servizio Voce offre una vasta gamma di caratteri voce per Sintesi vocale, ma Sintesi vocale neurale ti consente di creare una voce personalizzata specifica per le tue esigenze e il tuo marchio. Per altre informazioni, leggi il blog.
-
In alcuni scenari è possibile che un parlante o più parlanti usino più lingue nello stesso file audio o nella stessa presentazione live. Il rilevamento continuo della lingua ti permette di identificare una modifica nella lingua parlata e di trascrivere quindi accuratamente il parlato. Questa funzionalità sarà gratuita per l'anteprima privata e sarà accessibile tramite Speech SDK. Visita Docs per scoprire di più.
Contatta uno specialista delle vendite per ottenere informazioni dettagliate sui prezzi di Azure. Verifica i prezzi per la tua soluzione cloud.
Ottieni servizi cloud gratuiti e $200 di credito per esplorare Azure per 30 giorni.