Ignora esplorazione

Prezzi di Servizi Voce

Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale

I servizi Voce unificati offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale e traduzione vocale. I servizi Voce offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale, traduzione vocale e riconoscimento del parlante.

Esplora le opzioni per i prezzi

Applica i filtri per personalizzare le opzioni per i prezzi in base alle tue esigenze.

I prezzi sono solo stime e non devono essere considerati offerte effettive. I prezzi effettivi possono variare in base al tipo di contratto stipulato con Microsoft, alla data di acquisto e al tasso di cambio della valuta. I prezzi vengono calcolati in dollari USA e vengono convertiti mediante i tassi del benchmark di Thomson Reuters aggiornati al primo giorno di ogni mese di calendario. Accedi al calcolatore prezzi di Azure per visualizzare i prezzi in base al programma/offerta corrente con Microsoft. Contatta uno specialista delle vendite di Azure per altre informazioni sui prezzi o per richiedere un'offerta. Vedi le domande frequenti sui prezzi di Azure.

Gratuito

Istanza Categoria Funzionalità Prezzo
Gratuito - Web/Contenitore
1 richiesta simultanea1
Riconoscimento vocale Standard2 5 ore audio gratuite al mese
Personalizzato 5 ore audio gratuite al mese
Hosting di endpoint: 1 modello gratuito al mese 3
Audio multicanale trascrizione conversazione ANTEPRIMA 4 5 ore audio gratuite al mese
Sintesi vocale Neurale 0.5 million caratteri gratuiti al mese
Traduzione vocale Standard 5 ore audio gratuite al mese
Riconoscimento del parlante Verifica voce 10,000 transazioni gratuite al mese
Identificazione voce 10,000 transazioni gratuite al mese
Archiviazione dati voce 10,000 transazioni gratuite al mese

Per informazioni dettagliate aggiuntive sulle quote e sui limiti per tutti i piani tariffari, vedi la documentazione.

1Per incrementare le richieste simultanee, vedi le istruzioni.

2Riconoscimento vocale includerà ora la valutazione della pronuncia per l'istanza Gratuita, ad esempio 5 ore di audio gratuite al mese, oltre all'istanza Standard, che seguirà i prezzi Standard di $1 per ora di audio.

3I modelli non usati verranno rimossi automaticamente dopo 7 giorni.

4Trascrizione conversazione multicanale consiglia un dispositivo con array di microfoni. Per altri dettagli puoi vedere Microsoft Speech Device SDK.

Pagamento a consumo: pagamento per ciò che si consuma

Istanza Categoria Funzionalità Prezzo
Standard - Web/Contenitore
100 richieste simultanee per il modello di base
20 richieste simultanee per il modello personalizzato1
Riconoscimento vocale Standard2 $- per ora audio
Personalizzato $- per ora audio
Hosting di endpoint: $- per modello all'ora
Audio multicanale trascrizione conversazione ANTEPRIMA $- per ora audio3
Sintesi vocale Neurale4 Sintesi in tempo reale: $- per 1 milione caratteri4
Creazione di audio di lunga durata: $- per 1 milione di caratteri
Sintesi vocale4, 5 Training: $- per ora di calcolo, fino a $- per training
Sintesi in tempo reale: $- per 1 milione di caratteri
Hosting di endpoint: $- per modello all'ora
Creazione di audio di lunga durata: $- per 1 milione di caratteri
Traduzione vocale Standard $- per ora audio
Riconoscimento del parlante Verifica voce $- per 1,000 transazioni
Identificazione voce $- per 1,000 transazioni
Archiviazione dati voce $- per 1,000 profili vocali (10,000 profili vocali gratuiti al mese)

Per informazioni dettagliate aggiuntive sulle quote e sui limiti per tutti i piani tariffari, vedi la documentazione.

1 Per incrementare le richieste simultanee, vedi le istruzioni.

2 Riconoscimento vocale includerà ora la valutazione della pronuncia per l'istanza Gratuita, ad esempio 5 ore di audio gratuite al mese, oltre all'istanza Standard, che seguirà i prezzi Standard di $1 per ora di audio.

3 Rispecchia i prezzi dell'anteprima pubblica. I prezzi per la disponibilità generale verranno annunciati successivamente in occasione della disponibilità a livello generale.

4 Sintesi vocale viene fatturato per ogni carattere convertito in parlato, inclusa la punteggiatura. Altre informazioni.

5 Sintesi vocale neurale (CNV) è una funzionalità di accesso limitato con versioni Pro e Lite. Con CNV Lite (anteprima pubblica), i clienti possono registrare la propria voce e creare un modello per dimostrazione/valutazione, prima di richiedere l'accesso a Pro. Scopri dove CNV è disponibile.

Livelli di impegno

Questo prezzo è a accesso limitato. Applicare qui.

Istanza Categoria Funzionalità Prezzo al mese Eccedenza
Azure - Standard Riconoscimento vocale Standard $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Sintesi vocale Neurale1 $- per 80milioni di caratteri $- per 1milioni di caratteri
$- per 400milioni di caratteri $- per 1milioni di caratteri
$- per 2,000milioni di caratteri $- per 1milioni di caratteri
Contenitore connesso - Standard Riconoscimento vocale Standard $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Sintesi vocale Neurale1 $- per 80milioni di caratteri $- per 1milioni di caratteri
$- per 400milioni di caratteri $- per 1milioni di caratteri
$- per 2,000milioni di caratteri $- per 1milioni di caratteri
Contenitore disconnesso Riconoscimento vocale Standard Iscriversi per ottenere l'accesso
Altre informazioni
Sintesi vocale Neurale1 Iscriversi per ottenere l'accesso
Altre informazioni
1 Solo sintesi in tempo reale, che non include la creazione di audio lunghi.

Queste funzionalità sono deprecate e sono disponibili solo per i clienti esistenti. Controllare i dettagli e le informazioni su come eseguire la migrazione a nuove funzionalità.

Istanza Categoria Funzionalità Prezzo
Gratuito - Web/Contenitore
1 richiesta simultanea
Sintesi vocale Standard 5 million caratteri gratuiti al mese
Personalizzato 5 million caratteri gratuiti al mese
Hosting di endpoint: 1 modello gratuito al mese
Standard - Web/Contenitore
100 richieste simultanee per il modello di base
20 richieste simultanee per il modello personalizzato
Sintesi vocale Standard $- per 1 milione di caratteri
Personalizzato $- per 1 milione di caratteri
Hosting di endpoint: $- per modello all'ora

Prezzi e opzioni di acquisto di Azure

Contattaci direttamente

Ottieni informazioni dettagliate sui prezzi di Azure. Ottieni informazioni sui prezzi per la tua soluzione cloud, scopri l'ottimizzazione dei costi e richiedi una proposta personalizzata.

Comunica con uno specialista vendite

Scopri le modalità di acquisto

Acquista servizi di Azure tramite il sito Web di Azure, un rappresentante Microsoft o un partner di Azure.

Esplora le opzioni disponibili

Risorse aggiuntive

Dettagli di Servizi Voce

Scopri di più sulle funzionalità e sulle capacità di Servizi Voce.

Calcolatore prezzi

Stima i costi mensili previsti per qualsiasi combinazione dei prodotti di Azure.

Documentazione

Vedi esercitazioni tecniche, video e altre risorse di Servizi Voce.

    • Per traduzione vocale, riconoscimento vocale e riconoscimento vocale con modello conversione voce/testo personalizzato: l'utilizzo viene fatturato in incrementi di un secondo.
    • Per sintesi vocale con voci personalizzate o sintesi vocale neurale: l'utilizzo viene fatturato per carattere. Consulta la definizione di carattere nella nota sui prezzi.
    • Per hosting modello conversione voce/testo personalizzato l'utilizzo viene fatturato su base oraria, mentre per l'hosting carattere voce personalizzato l'utilizzo è fatturato su base giornaliera.
    • Per i comandi personalizzati: la fatturazione viene rilevata come consumo di servizi di riconoscimento vocale, sintesi vocale e Language Understanding. I comandi personalizzati non introducono nuovi contatori per la fatturazione.
    • Non sono previsti addebiti per il training dei modelli conversione voce/testo. Gli unici costi previsti sono relativi all'hosting del modello dopo il training e quindi al costo per ogni ora di trascrizione vocale.
  • Il servizio Voce consente agli utenti di adattare modelli baseline in base ai dati acustici e della lingua specifici, generando così modelli di conversione voce/testo personalizzati che si possono usare sia per il riconoscimento vocale che per la traduzione vocale.

  • Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi “recognize speech” e “wreck a nice beach” presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio “orientato a oggetti”, “spazio dei nomi” o “dot net”, ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.

  • Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese “speech” è costituita da quattro fonemi “s p iy ch”. Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.

  • Il servizio Voce offre una vasta gamma di caratteri voce per Sintesi vocale, ma Sintesi vocale neurale ti consente di creare una voce personalizzata specifica per le tue esigenze e il tuo marchio. Per altre informazioni, leggi il blog.

  • In alcuni scenari è possibile che un parlante o più parlanti usino più lingue nello stesso file audio o nella stessa presentazione live. Il rilevamento continuo della lingua ti permette di identificare una modifica nella lingua parlata e di trascrivere quindi accuratamente il parlato. Questa funzionalità sarà gratuita per l'anteprima privata e sarà accessibile tramite Speech SDK. Visita Docs per scoprire di più.

Contatta uno specialista delle vendite per ottenere informazioni dettagliate sui prezzi di Azure. Verifica i prezzi per la tua soluzione cloud.

Ottieni servizi cloud gratuiti e $200 di credito per esplorare Azure per 30 giorni.

Aggiunto alla stima. Premi 'v' per visualizzare nel calcolatore
Serve aiuto?