Prezzi di Voce di Azure AI

Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale

I servizi Voce unificati offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale e traduzione vocale. I servizi Voce offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale, traduzione vocale e riconoscimento del parlante.

Esplora le opzioni per i prezzi

Applica i filtri per personalizzare le opzioni per i prezzi in base alle tue esigenze.

I prezzi sono solo stime e non sono da intendersi come quotazioni effettive. I prezzi effettivi possono variare a seconda del tipo di contratto stipulato con Microsoft, della data di acquisto e del tasso di cambio. I prezzi sono calcolati in dollari USA e convertiti in base ai tassi degli spot di chiusura di Londra acquisiti nei due giorni lavorativi precedenti l'ultimo giorno lavorativo della fine del mese precedente. Se i due giorni lavorativi precedenti la fine del mese cadono in un giorno festivo nei principali mercati, il giorno di riferimento del tasso è in genere il giorno immediatamente precedente ai due giorni lavorativi. Il tasso viene applicato a tutte le transazioni del mese successivo. Accedi al Calcolatore dei prezzi di Azure per visualizzare i prezzi in base al programma o all'offerta corrente con Microsoft. Contatta uno Specialista vendite di Azure per altre informazioni sui prezzi o per richiedere un preventivo. Vedi le domande frequenti sui prezzi di Azure.

Area:

Valuta:

Gratuito (F0)

Per informazioni su quote, limiti e istruzioni su come aumentare le richieste simultanee, vedere la documentazione.

¹I modelli non usati verranno rimossi automaticamente dopo 7 giorni.

²Riconoscimento del parlante è una funzionalità ad accesso limitato con necessità di richiedere l'accesso.

³Le ore audio gratuite per il riconoscimento vocale sono condivise tra Standard e Personalizzato. Batch non è supportato.
Categoria	Funzionalità	Prezzo
Riconoscimento vocale (fatturazione al secondo)	Standard	5 ore audio gratuite al mese³
	Personalizzato	5 ore audio gratuite al mese³ Hosting di endpoint: 1 modello gratuito al mese¹
	Audio multicanale trascrizione conversazione ^ANTEPRIMA	5 ore audio gratuite al mese
Sintesi vocale (fatturazione per carattere)	Neurale	0.5 million caratteri gratuiti al mese
Traduzione vocale (fatturazione al secondo)	Standard	5 ore audio gratuite al mese
Riconoscimento del parlante (fatturazione per transazione)	Verifica voce²	10,000 transazioni gratuite al mese
	Identificazione voce²	10,000 transazioni gratuite al mese
	Archiviazione profili vocali	10,000 transazioni gratuite al mese

Pagamento a consumo: pagamento per ciò che si consuma

Per informazioni su quote, limiti e istruzioni su come aumentare le richieste simultanee, vedere la documentazione.

Le ore di riconoscimento vocale vengono misurate come ore di audio inviato al servizio, fatturate in incrementi di un secondo.

¹ Rispecchia i prezzi dell'anteprima pubblica. I prezzi per la disponibilità generale verranno annunciati successivamente in occasione della disponibilità a livello generale.

² Sintesi vocale neurale (CNV) è una funzionalità di accesso limitato con versioni Pro e Lite. Con CNV Lite (anteprima pubblica), i clienti possono registrare la propria voce e creare un modello per dimostrazione/valutazione, prima di richiedere l'accesso a Pro. Scopri dove CNV è disponibile.

³ Riconoscimento del parlante è una funzionalità ad accesso limitato con necessità di richiedere l'accesso.

⁴ Per sfruttare i vantaggi di questo nuovo prezzo, è necessario usare la nuova API REST Riconoscimento vocale v3.2. Vedi Creare una trascrizione batch - Servizio cognitivo di Azure per la voce - Servizi di Azure AI | Microsoft Learn per informazioni sull'uso della nuova API di anteprima v3.2.

⁵ Le funzionalità avanzate dei componenti aggiuntivi sono incluse nel prezzo Batch per tutte le versioni dell'API Batch.

⁶ Il training per Riconoscimento vocale personalizzato si applica per la personalizzazione di qualsiasi modello di base rilasciato a partire dal 1° ottobre 2023.

⁷ Questo prezzo include 1 ingresso e uscita audio, fino a 2 lingue di traduzione del testo utilizzando la funzione riconoscimento vocale standard o personalizzata e la traduzione standard. Per la traduzione personalizzata o per più di 3 lingue di traduzione, fai riferimento alla pagina dei prezzi della traduzione Azure per intelligenza artificiale Traduzione testuale.

⁸ Questa opzione rispecchia i prezzi dell'anteprima pubblica. Il prezzo per la disponibilità generale verrà annunciato in seguito alla disponibilità generale. La voce neurale personalizzata è una funzionalità ad accesso limitato, riservata a determinati casi d'uso pre-approvati, a cui è necessario richiedere l'accesso. Per altre informazioni sul servizio, vedere il documento.

⁹ Avatar personalizzato è una funzionalità ad accesso limitato per cui è necessario richiedere l'accesso
Categoria	Funzionalità	Prezzo
Riconoscimento vocale (fatturazione al secondo)		Tempo reale	API Batch v3.2 o versione successiva⁴
	Standard	$- all'ora	$- all'ora
	Personalizzato	$- all'ora Hosting di endpoint: $- per modello all'ora	$- all'ora Hosting endpoint: N/D
	Training per Riconoscimento vocale personalizzato⁶	$- per ora di calcolo
	Funzionalità avanzate dei componenti aggiuntivi: Identificazione continua della lingua Diarizzazione Valutazione della pronuncia (prosodia, grammatica, vocabolario, argomento)	$- per ora per funzionalità	Identificazione della lingua continua e diarizzazione incluse⁵
	Audio multicanale trascrizione conversazione ^ANTEPRIMA	$- all'ora¹	N/D
Sintesi vocale (fatturazione per carattere)	Neurale	Sintesi batch e in tempo reale: $- per 1 milione di caratteri
	HD neurale	Sintesi e batch in tempo reale: $- per 1 milione di caratteri
	Sintesi vocale²	Training: $- per ora di calcolo, fino a $- per training Sintesi batch e in tempo reale: $- per 1 milione di caratteri Hosting di endpoint: $- per modello all'ora
	Voce neurale personalizzata⁸	Creazione voce: gratis Archiviazione profilo vocale: $- al mese per 1.000 profili vocali Sintesi: $- per 1 milione di caratteri
Avatar Sintesi vocale (fatturazione al secondo)	Avatar	Sintesi batch in tempo reale: $- al minuto
Avatar Sintesi vocale (fatturazione al secondo)	Avatar personalizzato⁹	Sintesi in tempo reale: $- al minuto Sintesi batch: $- al minuto Hosting di endpoint: $- all’ora per modello
Traduzione vocale (fatturazione al secondo)	Standard	$- per ora audio⁷
Riconoscimento del parlante (fatturazione per transazione)	Verifica voce³	$- per 1,000 transazioni
	Identificazione voce³	$- per 1,000 transazioni
	Archiviazione profili vocali	$- per 1,000 profili vocali (10,000 profili vocali gratuiti al mese)

Livelli di impegno - Azure - Standard

Categoria	Funzionalità	Prezzo al mese	Eccedenza
Riconoscimento vocale	Standard	$- per 2,000 ore	$- all'ora
		$- per 10,000 ore	$- all'ora
		$- per 50,000 ore	$- all'ora
	Personalizzato	$- per 2,000 ore	$- all'ora
		$- per 10,000 ore	$- all'ora
		$- per 50,000 ore	$- all'ora
	Funzionalità avanzate dei componenti aggiuntivi:² Identificazione continua della lingua Diarizzazione Valutazione della pronuncia (prosodia, grammatica, vocabolario, argomento)	$- per 2,000 ore	$- all'ora
		$- per 10,000 ore	$- all'ora
		$- per 50,000 ore	$- all'ora
Sintesi vocale	Neurale¹	$- per 80milioni di caratteri	$- per 1milioni di caratteri
		$- per 400milioni di caratteri	$- per 1milioni di caratteri
		$- per 2,000milioni di caratteri	$- per 1milioni di caratteri

¹Solo sintesi in tempo reale, che non include la creazione di audio lunghi.

²Funzionalità del componente aggiuntivo Riconoscimento vocale in tempo reale, Identificazione continua della lingua e diarizzazione incluse nel riconoscimento vocale in batch.

Livelli impegno - Contenitore connesso

Categoria	Funzionalità	Prezzo al mese	Eccedenza
Riconoscimento vocale²	Standard	$- per 2,000 ore	$- all'ora
		$- per 10,000 ore	$- all'ora
		$- per 50,000 ore	$- all'ora
	Personalizzato	$- per 2,000 ore	$- all'ora
		$- per 10,000 ore	$- all'ora
		$- per 50,000 ore	$- all'ora
	Funzionalità avanzate dei componenti aggiuntivi:² Identificazione della lingua Diarizzazione	$- per 2,000 ore	$- all'ora
		$- per 10,000 ore	$- all'ora
		$- per 50,000 ore	$- all'ora
Sintesi vocale	Neurale¹	$- per 80milioni di caratteri	$- per 1milioni di caratteri
		$- per 400milioni di caratteri	$- per 1milioni di caratteri
		$- per 2,000milioni di caratteri	$- per 1milioni di caratteri

¹Solo sintesi in tempo reale, che non include la creazione di audio lunghi.

²I prezzi si applicano ai casi di utilizzo in tempo reale e in batch. Non esiste una tariffazione separata dei batch per i contenitori.

Per informazioni sui livelli di impegno, vedere la documentazione.

Livelli impegno - Contenitore disconnesso

Iscriviti per accedere ai comandi vocali in contenitori disconnessi oppure altre informazioni

Categoria	Funzionalità	Prezzo (all'anno)	Utilizzo massimo (all'anno)	Utilizzo del progetto (al mese)
Riconoscimento vocale²	Standard	$- $- Iscriversi per ottenere l'accesso Altre informazioni	120.000 ore 600.000 ore	10,000 ore 50.000 ore
	Personalizzato	$- $- Iscriversi per ottenere l'accesso Altre informazioni	120.000 ore 600.000 ore	10,000 ore 50.000 ore
	Funzionalità avanzate dei componenti aggiuntivi: Identificazione della lingua Diarizzazione	$- $-	120.000 ore 600.000 ore	10,000 ore 50.000 ore
Sintesi vocale	Neurale¹	$- $- Iscriversi per ottenere l'accesso Altre informazioni	4,8 miliardi di caratteri 24 miliardi di caratteri	400 milioni di caratteri 2.000 milioni di caratteri

¹Solo sintesi in tempo reale, che non include la creazione di audio lunghi.

²I prezzi si applicano ai casi di utilizzo in tempo reale e in batch. Non esiste una tariffazione separata dei batch per i contenitori.

Queste funzionalità sono deprecate e sono disponibili solo per i clienti esistenti. Controllare i dettagli e le informazioni su come eseguire la migrazione a nuove funzionalità.

Istanza	Categoria	Funzionalità	Prezzo
Gratuito - Web/Contenitore 1 richiesta simultanea	Sintesi vocale	Standard	5 million caratteri gratuiti al mese
Gratuito - Web/Contenitore 1 richiesta simultanea	Sintesi vocale	Personalizzato	5 million caratteri gratuiti al mese Hosting di endpoint: 1 modello gratuito al mese
Standard - Web/Contenitore 100 richieste simultanee per il modello di base 20 richieste simultanee per il modello personalizzato	Sintesi vocale	Standard	$- per 1 milione di caratteri
	Sintesi vocale	Personalizzato	$- per 1 milione di caratteri Hosting di endpoint: $- per modello all'ora

Prezzi e opzioni di acquisto di Azure

Contattaci direttamente

Informazioni dettagliate sui prezzi di Azure. È possibile ottenere informazioni sui prezzi per la soluzione cloud e sull'ottimizzazione dei costi e richiedere una proposta personalizzata.

Comunica con uno specialista vendite

Scopri le modalità di acquisto

Acquista servizi di Azure tramite il sito Web di Azure, un rappresentante Microsoft o un partner di Azure.

Esplora le opzioni disponibili

Risorse aggiuntive

Domande frequenti

Domande frequenti sui prezzi di Azure

- Per Riconoscimento vocale e Traduzione vocale, l'utilizzo viene fatturato in incrementi di un secondo.
- Per Sintesi vocale: l'utilizzo viene fatturato per carattere. Consulta la definizione di carattere nella nota sui prezzi.
- Per l'hosting della sintesi vocale neurale personalizzata: l'utilizzo viene fatturato per endpoint al secondo. Controllare i dettagli nella nota sui prezzi.
- Per l'archiviazione del profilo vocale personale: l'utilizzo viene fatturato per profilo vocale al giorno. Controllare i dettagli nella nota sui prezzi.
- Per Sintesi vocale avatar, l'utilizzo viene fatturato al secondo.
- Per Riconoscimento vocale e Sintesi vocale (Avatar incluso), l'hosting di endpoint per i modelli personalizzati viene fatturato al secondo per modello.
Il servizio Voce consente agli utenti di adattare modelli baseline in base ai dati acustici e della lingua specifici, generando così modelli di conversione voce/testo personalizzati che si possono usare sia per il riconoscimento vocale che per la traduzione vocale.
Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi “recognize speech” e “wreck a nice beach” presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio “orientato a oggetti”, “spazio dei nomi” o “dot net”, ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.
Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese “speech” è costituita da quattro fonemi “s p iy ch”. Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.
Il servizio Voce offre una vasta gamma di caratteri voce per Sintesi vocale, ma Sintesi vocale neurale ti consente di creare una voce personalizzata specifica per le tue esigenze e il tuo marchio. Per altre informazioni, leggi il blog.
L'identificazione della lingua consente di identificare un cambiamento nella lingua parlata e di trascrivere di conseguenza il discorso. Questa opzione può essere applicata in scenari in cui la lingua audio è sconosciuta o quando gli altoparlanti possono parlare più lingue. L'identificazione della lingua singola è disponibile senza costi aggiuntivi. L'identificazione continua della lingua è una funzionalità aggiuntiva avanzata. Consultare la documentazione per altre informazioni.
- La valutazione della pronuncia valuta la pronuncia del parlato e fornisce ai parlanti un feedback sull'accuratezza e sulla scorrevolezza dell'audio parlato. Con la valutazione della pronuncia, gli studenti di lingua possono esercitarsi, ottenere un feedback immediato e migliorare la propria pronuncia in modo da poter parlare e conferire con sicurezza. I docenti possono usare questa funzionalità per valutare la pronuncia di più altoparlanti in tempo reale. Visita docs per altre informazioni.
- I costi vengono addebitati come Riconoscimento vocale standard, ad esempio:
  Per la valutazione di 8 secondi di riconoscimento vocale, verranno addebitati circa $-

Contatta uno specialista delle vendite per ottenere informazioni dettagliate sui prezzi di Azure. Verifica i prezzi per la tua soluzione cloud.

Richiedi un preventivo

Ottieni servizi cloud gratuiti e $200 di credito per esplorare Azure per 30 giorni.

Prova Azure gratuitamente

Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale

Esplora le opzioni per i prezzi

Gratuito (F0)

Pagamento a consumo: pagamento per ciò che si consuma

Livelli di impegno - Azure - Standard

Livelli impegno - Contenitore connesso

Livelli impegno - Contenitore disconnesso

Deprecato

Prezzi e opzioni di acquisto di Azure

Contattaci direttamente

Scopri le modalità di acquisto

Risorse aggiuntive

Voce di Azure AI

Calcolatore prezzi

Documentazione

Domande frequenti

In primo piano

Intelligenza artificiale + Machine Learning

Analisi

Calcolo

Contenitori

Database

DevOps

Strumenti per sviluppatori

Approccio ibrido e multi-cloud

Identità

Integrazione

Internet delle cose

Gestione e governance

Contenuti multimediali

Migrazione

Realtà mista

Dispositivi mobili

Rete

Sicurezza

Archiviazione

Web

Desktop virtuale Windows

Casi d'uso

Sviluppo di applicazioni

Intelligenza artificiale

Migrazione e modernizzazione cloud

Dati e analisi

Cloud ibrido e infrastruttura

Internet delle cose

Sicurezza e governance

Tipo di organizzazione

Risorse

Prezzi di Voce di Azure AI

Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale

Esplora le opzioni per i prezzi

Gratuito (F0)

Pagamento a consumo: pagamento per ciò che si consuma

Livelli di impegno - Azure - Standard

Livelli impegno - Contenitore connesso

Livelli impegno - Contenitore disconnesso

Deprecato

Prezzi e opzioni di acquisto di Azure

Contattaci direttamente

Scopri le modalità di acquisto

Risorse aggiuntive

Voce di Azure AI

Calcolatore prezzi

Documentazione

Domande frequenti