Passa al contenuto principale

Prezzi di Servizi Voce

Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale

I servizi Voce unificati offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale e traduzione vocale. I servizi Voce offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale, traduzione vocale e riconoscimento del parlante.

Esplora le opzioni per i prezzi

Applica i filtri per personalizzare le opzioni per i prezzi in base alle tue esigenze.

I prezzi sono solo stime e non devono essere considerati offerte effettive. I prezzi effettivi possono variare in base al tipo di contratto stipulato con Microsoft, alla data di acquisto e al tasso di cambio della valuta. I prezzi vengono calcolati in dollari USA e vengono convertiti mediante i tassi del benchmark di Thomson Reuters aggiornati il primo giorno di ogni mese di calendario. Accedi al calcolatore dei prezzi di Azure per visualizzare i prezzi in base al programma/offerta corrente con Microsoft. Contatta uno specialista delle vendite di Azure per altre informazioni sui prezzi o per richiedere un'offerta. Per altre informazioni sui prezzi di Azure, vedi le Domande frequenti.

Gratuito (F0)

Categoria Funzionalità Prezzo
Riconoscimento vocale
(fatturazione al secondo)
Standard 5 ore audio gratuite al mese
Personalizzato 5 ore audio gratuite al mese
Hosting di endpoint: 1 modello gratuito al mese1
Audio multicanale trascrizione conversazione ANTEPRIMA 5 ore audio gratuite al mese
Sintesi vocale
(fatturazione per carattere)
Neurale 0.5 million caratteri gratuiti al mese
Traduzione vocale
(fatturazione al secondo)
Standard 5 ore audio gratuite al mese
Riconoscimento del parlante
(fatturazione per transazione)
Verifica voce2 10,000 transazioni gratuite al mese
Identificazione voce2 10,000 transazioni gratuite al mese
Archiviazione profili vocali 10,000 transazioni gratuite al mese

Per informazioni su quote, limiti e istruzioni su come aumentare le richieste simultanee, vedere la documentazione.

1I modelli non usati verranno rimossi automaticamente dopo 7 giorni.

2Riconoscimento del parlante è una funzionalità ad accesso limitato con necessità di richiedere l'accesso.

Pagamento a consumo: pagamento per ciò che si consuma

Categoria Funzionalità Prezzo
Riconoscimento vocale
(fatturazione al secondo)
Standard $- per ora audio
Personalizzato $- per ora audio
Hosting di endpoint: $- per modello all'ora
Funzionalità avanzate dei componenti aggiuntivi:
  • Identificazione della lingua
  • Diarizzazione batch per più di 3 altoparlanti
$- per ora audio per funzionalità
Audio multicanale trascrizione conversazione ANTEPRIMA $- per ora audio1
Sintesi vocale
(fatturazione per carattere)
Neurale Real-time & batch synthesis: $- per 1 milione caratteri
Creazione di audio di lunga durata: $- per 1 milione di caratteri
Sintesi vocale2 Training: $- per ora di calcolo, fino a $- per training
Real-time & batch synthesis: $- per 1 milione di caratteri
Hosting di endpoint: $- per modello all'ora
Creazione di audio di lunga durata: $- per 1 milione di caratteri
Traduzione vocale
(fatturazione al secondo)
Standard $- per ora audio
Riconoscimento del parlante
(fatturazione per transazione)
Verifica voce3 $- per 1,000 transazioni
Identificazione voce3 $- per 1,000 transazioni
Archiviazione profili vocali $- per 1,000 profili vocali (10,000 profili vocali gratuiti al mese)

Per informazioni su quote, limiti e istruzioni su come aumentare le richieste simultanee, vedere la documentazione.

1 Rispecchia i prezzi dell'anteprima pubblica. I prezzi per la disponibilità generale verranno annunciati successivamente in occasione della disponibilità a livello generale.

2 Sintesi vocale neurale (CNV) è una funzionalità di accesso limitato con versioni Pro e Lite. Con CNV Lite (anteprima pubblica), i clienti possono registrare la propria voce e creare un modello per dimostrazione/valutazione, prima di richiedere l'accesso a Pro. Scopri dove CNV è disponibile.

3 Riconoscimento del parlante è una funzionalità ad accesso limitato con necessità di richiedere l'accesso.

Livelli di impegno

Istanza Categoria Funzionalità Prezzo al mese Eccedenza
Azure - Standard Riconoscimento vocale Standard $- per 0 ore $- all'ora
$- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Personalizzato $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Sintesi vocale Neurale1 $- per 80milioni di caratteri $- per 1milioni di caratteri
$- per 400milioni di caratteri $- per 1milioni di caratteri
$- per 2,000milioni di caratteri $- per 1milioni di caratteri
Contenitore connesso - Standard Riconoscimento vocale Standard $- per 0 ore $- all'ora
$- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Personalizzato $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Sintesi vocale Neurale1 $- per 0milioni di caratteri $- per 1milioni di caratteri
$- per 0milioni di caratteri $- per 1milioni di caratteri
$- per 80milioni di caratteri $- per 1milioni di caratteri
$- per 400milioni di caratteri $- per 1milioni di caratteri
$- per 2,000milioni di caratteri $- per 1milioni di caratteri
Contenitore disconnesso Riconoscimento vocale Standard Iscriversi per ottenere l'accesso
Altre informazioni
Personalizzato Iscriversi per ottenere l'accesso
Altre informazioni
Sintesi vocale Neurale1 Iscriversi per ottenere l'accesso
Altre informazioni
1 Solo sintesi in tempo reale, che non include la creazione di audio lunghi.

Queste funzionalità sono deprecate e sono disponibili solo per i clienti esistenti. Controllare i dettagli e le informazioni su come eseguire la migrazione a nuove funzionalità.

Istanza Categoria Funzionalità Prezzo
Gratuito - Web/Contenitore
1 richiesta simultanea
Sintesi vocale Standard 5 million caratteri gratuiti al mese
Personalizzato 5 million caratteri gratuiti al mese
Hosting di endpoint: 1 modello gratuito al mese
Standard - Web/Contenitore
100 richieste simultanee per il modello di base
20 richieste simultanee per il modello personalizzato
Sintesi vocale Standard $- per 1 milione di caratteri
Personalizzato $- per 1 milione di caratteri
Hosting di endpoint: $- per modello all'ora

Prezzi e opzioni di acquisto di Azure

Contattaci direttamente

Informazioni dettagliate sui prezzi di Azure. È possibile ottenere informazioni sui prezzi per la soluzione cloud e sull'ottimizzazione dei costi e richiedere una proposta personalizzata.

Comunica con uno specialista vendite

Scopri le modalità di acquisto

Acquista servizi di Azure tramite il sito Web di Azure, un rappresentante Microsoft o un partner di Azure.

Esplora le opzioni disponibili

Risorse aggiuntive

Servizi Voce

Scopri di più sulle funzionalità e sulle capacità di Servizi Voce.

Calcolatore prezzi

Stima i costi mensili previsti per qualsiasi combinazione dei prodotti di Azure.

Documentazione

Vedi esercitazioni tecniche, video e altre risorse di Servizi Voce.

    • Per Riconoscimento vocale e Traduzione vocale, l'utilizzo viene fatturato in incrementi di un secondo.
    • Per Sintesi vocale: l'utilizzo viene fatturato per carattere. Consulta la definizione di carattere nella nota sui prezzi.
    • Per Riconoscimento vocale e Sintesi vocale, l'hosting di endpoint per i modelli personalizzati viene fatturato al secondo per modello.
    • Per i comandi personalizzati: la fatturazione viene rilevata come consumo di servizi di riconoscimento vocale, sintesi vocale e Language Understanding. I comandi personalizzati non introducono nuovi contatori per la fatturazione.
    • Non è previsto alcun addebito per il training dei modelli di riconoscimento vocale. Gli unici costi sono relativi all'hosting di endpoint per modello dopo la distribuzione e quindi il costo per ora audio di riconoscimento vocale personalizzato.
  • Il servizio Voce consente agli utenti di adattare modelli baseline in base ai dati acustici e della lingua specifici, generando così modelli di conversione voce/testo personalizzati che si possono usare sia per il riconoscimento vocale che per la traduzione vocale.

  • Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi “recognize speech” e “wreck a nice beach” presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio “orientato a oggetti”, “spazio dei nomi” o “dot net”, ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.

  • Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese “speech” è costituita da quattro fonemi “s p iy ch”. Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.

  • Il servizio Voce offre una vasta gamma di caratteri voce per Sintesi vocale, ma Sintesi vocale neurale ti consente di creare una voce personalizzata specifica per le tue esigenze e il tuo marchio. Per altre informazioni, leggi il blog.

  • In alcuni scenari è possibile che un parlante o più parlanti usino più lingue nello stesso file audio o nella stessa presentazione live. Il rilevamento continuo della lingua ti permette di identificare una modifica nella lingua parlata e di trascrivere quindi accuratamente il parlato. Questa funzionalità sarà gratuita per l'anteprima privata e sarà accessibile tramite Speech SDK. Visita Docs per scoprire di più.

Contatta uno specialista delle vendite per ottenere informazioni dettagliate sui prezzi di Azure. Verifica i prezzi per la tua soluzione cloud.

Ottieni servizi cloud gratuiti e $200 di credito per esplorare Azure per 30 giorni.

Aggiunto alla stima. Premi 'v' per visualizzare nel calcolatore
Serve aiuto?