Passa al contenuto principale

Prezzi di Voce di Azure AI

Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale

I servizi Voce unificati offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale e traduzione vocale. I servizi Voce offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale, traduzione vocale e riconoscimento del parlante.

Esplora le opzioni per i prezzi

Applica i filtri per personalizzare le opzioni per i prezzi in base alle tue esigenze.

I prezzi sono solo stime e non sono da intendersi come quotazioni effettive. I prezzi effettivi possono variare a seconda del tipo di contratto stipulato con Microsoft, della data di acquisto e del tasso di cambio. I prezzi sono calcolati in dollari USA e convertiti in base ai tassi degli spot di chiusura di Londra acquisiti nei due giorni lavorativi precedenti l'ultimo giorno lavorativo della fine del mese precedente. Se i due giorni lavorativi precedenti la fine del mese cadono in un giorno festivo nei principali mercati, il giorno di riferimento del tasso è in genere il giorno immediatamente precedente ai due giorni lavorativi. Il tasso viene applicato a tutte le transazioni del mese successivo. Accedi al Calcolatore dei prezzi di Azure per visualizzare i prezzi in base al programma o all'offerta corrente con Microsoft. Contatta uno Specialista vendite di Azure per altre informazioni sui prezzi o per richiedere un preventivo. Vedi le domande frequenti sui prezzi di Azure.

Gratuito (F0)

Categoria Funzionalità Prezzo
Riconoscimento vocale
(fatturazione al secondo)
Standard 5 ore audio gratuite al mese3
Personalizzato 5 ore audio gratuite al mese3
Hosting di endpoint: 1 modello gratuito al mese1
Audio multicanale trascrizione conversazione ANTEPRIMA 5 ore audio gratuite al mese
Sintesi vocale
(fatturazione per carattere)
Neurale 0.5 million caratteri gratuiti al mese
Traduzione vocale
(fatturazione al secondo)
Standard 5 ore audio gratuite al mese
Riconoscimento del parlante
(fatturazione per transazione)
Verifica voce2 10,000 transazioni gratuite al mese
Identificazione voce2 10,000 transazioni gratuite al mese
Archiviazione profili vocali 10,000 transazioni gratuite al mese

Per informazioni su quote, limiti e istruzioni su come aumentare le richieste simultanee, vedere la documentazione.

1I modelli non usati verranno rimossi automaticamente dopo 7 giorni.

2Riconoscimento del parlante è una funzionalità ad accesso limitato con necessità di richiedere l'accesso.

3Le ore audio gratuite per il riconoscimento vocale sono condivise tra Standard e Personalizzato. Batch non è supportato.

Pagamento a consumo: pagamento per ciò che si consuma

Categoria Funzionalità Prezzo
Riconoscimento vocale
(fatturazione al secondo)
Tempo reale API Batch
v3.2 o versione successiva4
Standard $- all'ora $- all'ora
Personalizzato $- all'ora
Hosting di endpoint: $- per modello all'ora
$- all'ora
Hosting endpoint: N/D
Training per Riconoscimento vocale personalizzato6 $- per ora di calcolo
Funzionalità avanzate dei componenti aggiuntivi:
  • Identificazione continua della lingua
  • Diarizzazione
  • Valutazione della pronuncia (prosodia, grammatica, vocabolario, argomento)
$- per ora per funzionalità Identificazione della lingua continua e diarizzazione incluse5
Audio multicanale trascrizione conversazione ANTEPRIMA $- all'ora1 N/D
Sintesi vocale
(fatturazione per carattere)
Neurale Sintesi batch e in tempo reale: $- per 1 milione di caratteri
HD neurale Sintesi e batch in tempo reale: $- per 1 milione di caratteri
Sintesi vocale2 Training: $- per ora di calcolo, fino a $- per training
Sintesi batch e in tempo reale: $- per 1 milione di caratteri
Hosting di endpoint: $- per modello all'ora
Voce neurale personalizzata8 Creazione voce: gratis
Archiviazione profilo vocale: $- al mese per 1.000 profili vocali
Sintesi: $- per 1 milione di caratteri
Avatar Sintesi vocale (fatturazione al secondo) Avatar Sintesi batch in tempo reale: $- al minuto
Avatar personalizzato9 Sintesi in tempo reale: $- al minuto
Sintesi batch: $- al minuto
Hosting di endpoint: $- all’ora per modello
Traduzione vocale
(fatturazione al secondo)
Standard $- per ora audio7
Riconoscimento del parlante
(fatturazione per transazione)
Verifica voce3 $- per 1,000 transazioni
Identificazione voce3 $- per 1,000 transazioni
Archiviazione profili vocali $- per 1,000 profili vocali (10,000 profili vocali gratuiti al mese)

Per informazioni su quote, limiti e istruzioni su come aumentare le richieste simultanee, vedere la documentazione.

Le ore di riconoscimento vocale vengono misurate come ore di audio inviato al servizio, fatturate in incrementi di un secondo.

1 Rispecchia i prezzi dell'anteprima pubblica. I prezzi per la disponibilità generale verranno annunciati successivamente in occasione della disponibilità a livello generale.

2 Sintesi vocale neurale (CNV) è una funzionalità di accesso limitato con versioni Pro e Lite. Con CNV Lite (anteprima pubblica), i clienti possono registrare la propria voce e creare un modello per dimostrazione/valutazione, prima di richiedere l'accesso a Pro. Scopri dove CNV è disponibile.

3 Riconoscimento del parlante è una funzionalità ad accesso limitato con necessità di richiedere l'accesso.

4 Per sfruttare i vantaggi di questo nuovo prezzo, è necessario usare la nuova API REST Riconoscimento vocale v3.2. Vedi Creare una trascrizione batch - Servizio cognitivo di Azure per la voce - Servizi di Azure AI | Microsoft Learn per informazioni sull'uso della nuova API di anteprima v3.2.

5 Le funzionalità avanzate dei componenti aggiuntivi sono incluse nel prezzo Batch per tutte le versioni dell'API Batch.

6 Il training per Riconoscimento vocale personalizzato si applica per la personalizzazione di qualsiasi modello di base rilasciato a partire dal 1° ottobre 2023.

7 Questo prezzo include 1 ingresso e uscita audio, fino a 2 lingue di traduzione del testo utilizzando la funzione riconoscimento vocale standard o personalizzata e la traduzione standard. Per la traduzione personalizzata o per più di 3 lingue di traduzione, fai riferimento alla pagina dei prezzi della traduzione Azure per intelligenza artificiale Traduzione testuale.

8 Questa opzione rispecchia i prezzi dell'anteprima pubblica. Il prezzo per la disponibilità generale verrà annunciato in seguito alla disponibilità generale. La voce neurale personalizzata è una funzionalità ad accesso limitato, riservata a determinati casi d'uso pre-approvati, a cui è necessario richiedere l'accesso. Per altre informazioni sul servizio, vedere il documento.

9 Avatar personalizzato è una funzionalità ad accesso limitato per cui è necessario richiedere l'accesso

Livelli di impegno - Azure - Standard

Categoria Funzionalità Prezzo al mese Eccedenza
Riconoscimento vocale Standard $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Personalizzato $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Funzionalità avanzate dei componenti aggiuntivi:2
  • Identificazione continua della lingua
  • Diarizzazione
  • Valutazione della pronuncia (prosodia, grammatica, vocabolario, argomento)
$- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Sintesi vocale Neurale1 $- per 80milioni di caratteri $- per 1milioni di caratteri
$- per 400milioni di caratteri $- per 1milioni di caratteri
$- per 2,000milioni di caratteri $- per 1milioni di caratteri

1Solo sintesi in tempo reale, che non include la creazione di audio lunghi.

2Funzionalità del componente aggiuntivo Riconoscimento vocale in tempo reale, Identificazione continua della lingua e diarizzazione incluse nel riconoscimento vocale in batch.

Livelli impegno - Contenitore connesso

Categoria Funzionalità Prezzo al mese Eccedenza
Riconoscimento vocale2 Standard $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Personalizzato $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Funzionalità avanzate dei componenti aggiuntivi:2
  • Identificazione della lingua
  • Diarizzazione
$- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Sintesi vocale Neurale1 $- per 80milioni di caratteri $- per 1milioni di caratteri
$- per 400milioni di caratteri $- per 1milioni di caratteri
$- per 2,000milioni di caratteri $- per 1milioni di caratteri

1Solo sintesi in tempo reale, che non include la creazione di audio lunghi.

2I prezzi si applicano ai casi di utilizzo in tempo reale e in batch. Non esiste una tariffazione separata dei batch per i contenitori.

Per informazioni sui livelli di impegno, vedere la documentazione.

Livelli impegno - Contenitore disconnesso

Iscriviti per accedere ai comandi vocali in contenitori disconnessi oppure altre informazioni

Categoria Funzionalità Prezzo (all'anno) Utilizzo massimo (all'anno) Utilizzo del progetto (al mese)
Riconoscimento vocale2 Standard $-
$-
Iscriversi per ottenere l'accesso
Altre informazioni
120.000 ore
600.000 ore
10,000 ore
50.000 ore
Personalizzato $-
$-
Iscriversi per ottenere l'accesso
Altre informazioni
120.000 ore
600.000 ore
10,000 ore
50.000 ore
Funzionalità avanzate dei componenti aggiuntivi:
  • Identificazione della lingua
  • Diarizzazione
$-
$-
120.000 ore
600.000 ore
10,000 ore
50.000 ore
Sintesi vocale Neurale1 $-
$-
Iscriversi per ottenere l'accesso
Altre informazioni
4,8 miliardi di caratteri
24 miliardi di caratteri
400 milioni di caratteri
2.000 milioni di caratteri

1Solo sintesi in tempo reale, che non include la creazione di audio lunghi.

2I prezzi si applicano ai casi di utilizzo in tempo reale e in batch. Non esiste una tariffazione separata dei batch per i contenitori.

Queste funzionalità sono deprecate e sono disponibili solo per i clienti esistenti. Controllare i dettagli e le informazioni su come eseguire la migrazione a nuove funzionalità.

Istanza Categoria Funzionalità Prezzo
Gratuito - Web/Contenitore
1 richiesta simultanea
Sintesi vocale Standard 5 million caratteri gratuiti al mese
Personalizzato 5 million caratteri gratuiti al mese
Hosting di endpoint: 1 modello gratuito al mese
Standard - Web/Contenitore
100 richieste simultanee per il modello di base
20 richieste simultanee per il modello personalizzato
Sintesi vocale Standard $- per 1 milione di caratteri
Personalizzato $- per 1 milione di caratteri
Hosting di endpoint: $- per modello all'ora

Prezzi e opzioni di acquisto di Azure

Contattaci direttamente

Informazioni dettagliate sui prezzi di Azure. È possibile ottenere informazioni sui prezzi per la soluzione cloud e sull'ottimizzazione dei costi e richiedere una proposta personalizzata.

Comunica con uno specialista vendite

Scopri le modalità di acquisto

Acquista servizi di Azure tramite il sito Web di Azure, un rappresentante Microsoft o un partner di Azure.

Esplora le opzioni disponibili

Risorse aggiuntive

Voce di Azure AI

Scopri di più sulle funzionalità e sulle capacità di Voce di Azure AI.

Calcolatore prezzi

Stima i costi mensili previsti per qualsiasi combinazione dei prodotti di Azure.

Documentazione

Vedi esercitazioni tecniche, video e altre risorse di Voce di Azure AI.

    • Per Riconoscimento vocale e Traduzione vocale, l'utilizzo viene fatturato in incrementi di un secondo.
    • Per Sintesi vocale: l'utilizzo viene fatturato per carattere. Consulta la definizione di carattere nella nota sui prezzi.
    • Per l'hosting della sintesi vocale neurale personalizzata: l'utilizzo viene fatturato per endpoint al secondo. Controllare i dettagli nella nota sui prezzi.
    • Per l'archiviazione del profilo vocale personale: l'utilizzo viene fatturato per profilo vocale al giorno. Controllare i dettagli nella nota sui prezzi.
    • Per Sintesi vocale avatar, l'utilizzo viene fatturato al secondo.
    • Per Riconoscimento vocale e Sintesi vocale (Avatar incluso), l'hosting di endpoint per i modelli personalizzati viene fatturato al secondo per modello.
  • Il servizio Voce consente agli utenti di adattare modelli baseline in base ai dati acustici e della lingua specifici, generando così modelli di conversione voce/testo personalizzati che si possono usare sia per il riconoscimento vocale che per la traduzione vocale.

  • Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi “recognize speech” e “wreck a nice beach” presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio “orientato a oggetti”, “spazio dei nomi” o “dot net”, ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.

  • Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese “speech” è costituita da quattro fonemi “s p iy ch”. Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.

  • Il servizio Voce offre una vasta gamma di caratteri voce per Sintesi vocale, ma Sintesi vocale neurale ti consente di creare una voce personalizzata specifica per le tue esigenze e il tuo marchio. Per altre informazioni, leggi il blog.

  • L'identificazione della lingua consente di identificare un cambiamento nella lingua parlata e di trascrivere di conseguenza il discorso. Questa opzione può essere applicata in scenari in cui la lingua audio è sconosciuta o quando gli altoparlanti possono parlare più lingue. L'identificazione della lingua singola è disponibile senza costi aggiuntivi. L'identificazione continua della lingua è una funzionalità aggiuntiva avanzata. Consultare la documentazione per altre informazioni.

    • La valutazione della pronuncia valuta la pronuncia del parlato e fornisce ai parlanti un feedback sull'accuratezza e sulla scorrevolezza dell'audio parlato. Con la valutazione della pronuncia, gli studenti di lingua possono esercitarsi, ottenere un feedback immediato e migliorare la propria pronuncia in modo da poter parlare e conferire con sicurezza. I docenti possono usare questa funzionalità per valutare la pronuncia di più altoparlanti in tempo reale. Visita docs per altre informazioni.
    • I costi vengono addebitati come Riconoscimento vocale standard, ad esempio:
      Per la valutazione di 8 secondi di riconoscimento vocale, verranno addebitati circa $-

Contatta uno specialista delle vendite per ottenere informazioni dettagliate sui prezzi di Azure. Verifica i prezzi per la tua soluzione cloud.

Ottieni servizi cloud gratuiti e $200 di credito per esplorare Azure per 30 giorni.

Aggiunto alla stima. Premi 'v' per visualizzare nel calcolatore
Serve aiuto?