Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale
I servizi Voce unificati offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale e traduzione vocale. I servizi Voce offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale, traduzione vocale e riconoscimento del parlante.
Esplora le opzioni per i prezzi
Applica i filtri per personalizzare le opzioni per i prezzi in base alle tue esigenze.
I prezzi sono solo stime e non sono da intendersi come quotazioni effettive. I prezzi effettivi possono variare a seconda del tipo di contratto stipulato con Microsoft, della data di acquisto e del tasso di cambio. I prezzi sono calcolati in dollari USA e convertiti in base ai tassi degli spot di chiusura di Londra acquisiti nei due giorni lavorativi precedenti l'ultimo giorno lavorativo della fine del mese precedente. Se i due giorni lavorativi precedenti la fine del mese cadono in un giorno festivo nei principali mercati, il giorno di riferimento del tasso è in genere il giorno immediatamente precedente ai due giorni lavorativi. Il tasso viene applicato a tutte le transazioni del mese successivo. Accedi al Calcolatore dei prezzi di Azure per visualizzare i prezzi in base al programma o all'offerta corrente con Microsoft. Contatta uno Specialista vendite di Azure per altre informazioni sui prezzi o per richiedere un preventivo. Vedi le domande frequenti sui prezzi di Azure.
Gli enti del Governo degli Stati Uniti sono idonei per l'acquisto di servizi di Azure per enti pubblici da un provider LSP (Licensing Solution Provider) senza alcun impegno finanziario iniziale oppure direttamente tramite una sottoscrizione online con pagamento in base al consumo.
Importante: il prezzo R$ è semplicemente un riferimento. Si tratta di una transazione interna e il prezzo finale è soggetto ai tassi di cambio e all'aggiunta delle imposte sulle transazioni finanziarie. Non sarà rilasciato alcun documento eNF.
Gli enti del Governo degli Stati Uniti sono idonei per l'acquisto di servizi di Azure per enti pubblici da un provider LSP (Licensing Solution Provider) senza alcun impegno finanziario iniziale oppure direttamente tramite una sottoscrizione online con pagamento in base al consumo.
Importante: il prezzo R$ è semplicemente un riferimento. Si tratta di una transazione interna e il prezzo finale è soggetto ai tassi di cambio e all'aggiunta delle imposte sulle transazioni finanziarie. Non sarà rilasciato alcun documento eNF.
Gratuito (F0)
Categoria | Funzionalità | Prezzo |
---|---|---|
Riconoscimento vocale (fatturazione al secondo) |
Standard | 5 ore audio gratuite al mese3 |
Personalizzato |
5 ore audio gratuite al mese3 Hosting di endpoint: 1 modello gratuito al mese1 |
|
Audio multicanale trascrizione conversazione ANTEPRIMA | 5 ore audio gratuite al mese | |
Sintesi vocale (fatturazione per carattere) |
Neurale | 0.5 million caratteri gratuiti al mese |
Traduzione vocale (fatturazione al secondo) |
Standard | 5 ore audio gratuite al mese |
Riconoscimento del parlante (fatturazione per transazione) |
Verifica voce2 | 10,000 transazioni gratuite al mese |
Identificazione voce2 | 10,000 transazioni gratuite al mese | |
Archiviazione profili vocali | 10,000 transazioni gratuite al mese |
Pagamento a consumo: pagamento per ciò che si consuma
Categoria | Prezzo | |
---|---|---|
Riconoscimento vocale (fatturazione al secondo) |
Standard |
Trascrizione in tempo reale: $- all'ora Trascrizione rapida: $- all'ora9 Trascrizione batch: $- all'ora1 |
Personalizzato |
Trascrizione in tempo reale: $- all'ora Trascrizione batch: $- all'ora1 Hosting di endpoint: $- per modello all'ora Training per Riconoscimento vocale personalizzato5: $- per ora di calcolo |
|
Funzionalità avanzate dei componenti aggiuntivi:
|
In tempo reale: $- per ora per funzionalità Batch (identificazione continua della lingua, diarizzazione): incluso in Standard/Personalizzato (senza costi aggiuntivi) |
|
Audio multicanale trascrizione conversazione ANTEPRIMA | $- all'ora2 | |
Traduzione vocale (fatturazione al secondo) |
Traduzione vocale in tempo reale | $- per ora audio3 |
Traduzione videoAnteprima |
Batch: $- per minuto video di output Modifica del contenuto: $- per minuto video di output Voce neurale personalizzata: $- per minuto video di output |
|
Sintesi vocale8 | Voce standard |
Neurale (in tempo reale e in batch): $- per 1 milione di caratteri Rete neurale HD (in tempo reale e in batch)4: $- per 1 milione di caratteri |
Voce personalizzata |
Voce professionale:
Sintesi (in tempo reale e in batch): $- per 1 milione di caratteri
Training del modello vocale: $- per ora di calcolo, fino a $- per training Hosting di endpoint: $- per modello all'ora |
|
Voce neurale personalizzata6:
Sintesi (in tempo reale e in batch): $- per 1 milione di caratteri
Creazione voce: gratuita Archiviazione profilo vocale: $- al mese per 1.000 profili vocali |
||
Funzionalità avanzate del componente aggiuntivo: avatar |
Standard:
Avatar interattivo (in tempo reale): $- al minuto
Video avatar (in batch): $- al minuto |
|
Personalizzato:
Training del modello avatar: $- per ora di calcolo
Avatar interattivo (in tempo reale): $- al minuto Video avatar (in batch): $- al minuto Hosting di endpoint: $- all’ora per modello |
||
Riconoscimento del parlante (fatturazione per transazione) |
Verifica voce7 | $- per 1,000 transazioni |
Identificazione voce7 | $- per 1,000 transazioni | |
Archiviazione profili vocali | $- per 1,000 profili vocali (10,000 profili vocali gratuiti al mese) |
Livelli di impegno - Azure - Standard
Categoria | Funzionalità | Prezzo al mese | Eccedenza |
---|---|---|---|
Riconoscimento vocale | Standard | $- per 2,000 ore | $- all'ora |
$- per 10,000 ore | $- all'ora | ||
$- per 50,000 ore | $- all'ora | ||
Personalizzato | $- per 2,000 ore | $- all'ora | |
$- per 10,000 ore | $- all'ora | ||
$- per 50,000 ore | $- all'ora | ||
Funzionalità avanzate dei componenti aggiuntivi:2
|
$- per 2,000 ore | $- all'ora | |
$- per 10,000 ore | $- all'ora | ||
$- per 50,000 ore | $- all'ora | ||
Sintesi vocale | Neurale1 | $- per 80milioni di caratteri | $- per 1milioni di caratteri |
$- per 400milioni di caratteri | $- per 1milioni di caratteri | ||
$- per 2,000milioni di caratteri | $- per 1milioni di caratteri |
1Include sia la sintesi in tempo reale che la sintesi in batch con voci neurali non HD e non AOAI predefinite. Voci HD, voci AOAI, Sintesi vocale neurale e Voce personale non sono incluse.
2Funzionalità del componente aggiuntivo Riconoscimento vocale in tempo reale, Identificazione continua della lingua e diarizzazione incluse nel riconoscimento vocale in batch.
Livelli impegno - Contenitore connesso
Categoria | Funzionalità | Prezzo al mese | Eccedenza |
---|---|---|---|
Riconoscimento vocale2 | Standard | $- per 2,000 ore | $- all'ora |
$- per 10,000 ore | $- all'ora | ||
$- per 50,000 ore | $- all'ora | ||
Personalizzato | $- per 2,000 ore | $- all'ora | |
$- per 10,000 ore | $- all'ora | ||
$- per 50,000 ore | $- all'ora | ||
Funzionalità avanzate dei componenti aggiuntivi:2
|
$- per 2,000 ore | $- all'ora | |
$- per 10,000 ore | $- all'ora | ||
$- per 50,000 ore | $- all'ora | ||
Sintesi vocale | Neurale1 | $- per 80milioni di caratteri | $- per 1milioni di caratteri |
$- per 400milioni di caratteri | $- per 1milioni di caratteri | ||
$- per 2,000milioni di caratteri | $- per 1milioni di caratteri |
1Include la sintesi in tempo reale con voci neurali non HD e non AOAI predefinite. Voci HD, voci AOAI e voci personalizzate (sia professionali che personali) non sono incluse. La sintesi in batch non è inclusa.
2I prezzi si applicano ai casi di utilizzo in tempo reale e in batch. Non esiste una tariffazione separata dei batch per i contenitori.
Per informazioni sui livelli di impegno, vedere la documentazione.
Livelli impegno - Contenitore disconnesso
Iscriviti per accedere ai comandi vocali in contenitori disconnessi oppure altre informazioni
Categoria | Funzionalità | Prezzo (all'anno) | Utilizzo massimo (all'anno) | Utilizzo del progetto (al mese) |
---|---|---|---|---|
Riconoscimento vocale2 | Standard |
$-
$- Iscriversi per ottenere l'accesso Altre informazioni |
120.000 ore
600.000 ore |
10,000 ore
50.000 ore |
Personalizzato |
$-
$- Iscriversi per ottenere l'accesso Altre informazioni |
120.000 ore
600.000 ore |
10,000 ore
50.000 ore |
|
Funzionalità avanzate dei componenti aggiuntivi:
|
$-
$- |
120.000 ore
600.000 ore |
10,000 ore
50.000 ore |
|
Sintesi vocale | Neurale1 |
$-
$- Iscriversi per ottenere l'accesso Altre informazioni |
4,8 miliardi di caratteri
24 miliardi di caratteri |
400 milioni di caratteri
2.000 milioni di caratteri |
1Include la sintesi in tempo reale con voci neurali non HD e non AOAI predefinite. Voci HD, voci AOAI e voci personalizzate (sia professionali che personali) non sono incluse. La sintesi in batch non è inclusa.
2I prezzi si applicano ai casi di utilizzo in tempo reale e in batch. Non esiste una tariffazione separata dei batch per i contenitori.
Queste funzionalità sono deprecate e sono disponibili solo per i clienti esistenti. Controllare i dettagli e le informazioni su come eseguire la migrazione a nuove funzionalità.
Istanza | Categoria | Funzionalità | Prezzo |
---|---|---|---|
Gratuito - Web/Contenitore 1 richiesta simultanea |
Sintesi vocale | Standard | 5 million caratteri gratuiti al mese |
Personalizzato |
5 million caratteri gratuiti al mese Hosting di endpoint: 1 modello gratuito al mese |
||
Standard - Web/Contenitore 100 richieste simultanee per il modello di base 20 richieste simultanee per il modello personalizzato |
Sintesi vocale | Standard | $- per 1 milione di caratteri |
Personalizzato |
$- per 1 milione di caratteri Hosting di endpoint: $- per modello all'ora |
Prezzi e opzioni di acquisto di Azure

Contattaci direttamente
Informazioni dettagliate sui prezzi di Azure. È possibile ottenere informazioni sui prezzi per la soluzione cloud e sull'ottimizzazione dei costi e richiedere una proposta personalizzata.
Comunica con uno specialista venditeScopri le modalità di acquisto
Acquista servizi di Azure tramite il sito Web di Azure, un rappresentante Microsoft o un partner di Azure.
Esplora le opzioni disponibiliRisorse aggiuntive
Voce di Azure AI
Scopri di più sulle funzionalità e sulle capacità di Voce di Azure AI.
Calcolatore prezzi
Stima i costi mensili previsti per qualsiasi combinazione dei prodotti di Azure.
Documentazione
Vedi esercitazioni tecniche, video e altre risorse di Voce di Azure AI.
Domande frequenti
-
- Per Riconoscimento vocale e Traduzione vocale, l'utilizzo viene fatturato in incrementi di un secondo.
- Per Sintesi vocale: l'utilizzo viene fatturato per carattere. Consulta la definizione di carattere nella nota sui prezzi.
- Per l'hosting della sintesi vocale neurale personalizzata: l'utilizzo viene fatturato per endpoint al secondo. Controllare i dettagli nella nota sui prezzi.
- Per l'archiviazione del profilo vocale personale: l'utilizzo viene fatturato per profilo vocale al giorno. Controllare i dettagli nella nota sui prezzi.
- Per Sintesi vocale avatar, l'utilizzo viene fatturato al secondo.
- Per Riconoscimento vocale e Sintesi vocale (Avatar incluso), l'hosting di endpoint per i modelli personalizzati viene fatturato al secondo per modello.
-
Il servizio Voce consente agli utenti di adattare modelli baseline in base ai dati acustici e della lingua specifici, generando così modelli di conversione voce/testo personalizzati che si possono usare sia per il riconoscimento vocale che per la traduzione vocale.
-
Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi “recognize speech” e “wreck a nice beach” presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio “orientato a oggetti”, “spazio dei nomi” o “dot net”, ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.
-
Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese “speech” è costituita da quattro fonemi “s p iy ch”. Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.
-
Il servizio Voce offre una vasta gamma di caratteri voce per Sintesi vocale, ma Sintesi vocale neurale ti consente di creare una voce personalizzata specifica per le tue esigenze e il tuo marchio. Per altre informazioni, leggi il blog.
-
L'identificazione della lingua consente di identificare un cambiamento nella lingua parlata e di trascrivere di conseguenza il discorso. Questa opzione può essere applicata in scenari in cui la lingua audio è sconosciuta o quando gli altoparlanti possono parlare più lingue. L'identificazione della lingua singola è disponibile senza costi aggiuntivi. L'identificazione continua della lingua è una funzionalità aggiuntiva avanzata. Consultare la documentazione per altre informazioni.
-
- La valutazione della pronuncia valuta la pronuncia del parlato e fornisce ai parlanti un feedback sull'accuratezza e sulla scorrevolezza dell'audio parlato. Con la valutazione della pronuncia, gli studenti di lingua possono esercitarsi, ottenere un feedback immediato e migliorare la propria pronuncia in modo da poter parlare e conferire con sicurezza. I docenti possono usare questa funzionalità per valutare la pronuncia di più altoparlanti in tempo reale. Visita docs per altre informazioni.
- I costi vengono addebitati come Riconoscimento vocale standard, ad esempio:
Per la valutazione di 8 secondi di riconoscimento vocale, verranno addebitati circa $-
Contatta uno specialista delle vendite per ottenere informazioni dettagliate sui prezzi di Azure. Verifica i prezzi per la tua soluzione cloud.
Ottieni servizi cloud gratuiti e $200 di credito per esplorare Azure per 30 giorni.