Passa a contenuti principali
Azure

Prezzi di Voce di Azure AI

Servizi Voce unificati per riconoscimento vocale, sintesi vocale e traduzione vocale

I servizi Voce unificati offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale e traduzione vocale. I servizi Voce offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale, traduzione vocale e riconoscimento del parlante.

Esplora le opzioni per i prezzi

Applica i filtri per personalizzare le opzioni per i prezzi in base alle tue esigenze.

I prezzi sono solo stime e non sono da intendersi come quotazioni effettive. I prezzi effettivi possono variare a seconda del tipo di contratto stipulato con Microsoft, della data di acquisto e del tasso di cambio. I prezzi sono calcolati in dollari USA e convertiti in base ai tassi degli spot di chiusura di Londra acquisiti nei due giorni lavorativi precedenti l'ultimo giorno lavorativo della fine del mese precedente. Se i due giorni lavorativi precedenti la fine del mese cadono in un giorno festivo nei principali mercati, il giorno di riferimento del tasso è in genere il giorno immediatamente precedente ai due giorni lavorativi. Il tasso viene applicato a tutte le transazioni del mese successivo. Accedi al Calcolatore dei prezzi di Azure per visualizzare i prezzi in base al programma o all'offerta corrente con Microsoft. Contatta uno Specialista vendite di Azure per altre informazioni sui prezzi o per richiedere un preventivo. Vedi le domande frequenti sui prezzi di Azure.

Gratuito (F0)

Categoria Funzionalità Prezzo
Riconoscimento vocale
(fatturazione al secondo)
Standard 5 ore audio gratuite al mese3
Personalizzato 5 ore audio gratuite al mese3
Hosting di endpoint: 1 modello gratuito al mese1
Audio multicanale trascrizione conversazione ANTEPRIMA 5 ore audio gratuite al mese
Sintesi vocale
(fatturazione per carattere)
Neurale 0.5 million caratteri gratuiti al mese
Traduzione vocale
(fatturazione al secondo)
Standard 5 ore audio gratuite al mese
Riconoscimento del parlante
(fatturazione per transazione)
Verifica voce2 10,000 transazioni gratuite al mese
Identificazione voce2 10,000 transazioni gratuite al mese
Archiviazione profili vocali 10,000 transazioni gratuite al mese
Speech services quotas and limits by tier (Free F0)

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

1I modelli non usati verranno rimossi automaticamente dopo 7 giorni.

2Speaker Recognition is a limited access feature with a need to apply for access.

3Le ore audio gratuite per il riconoscimento vocale sono condivise tra Standard e Personalizzato. Batch non è supportato.

Pagamento a consumo: pagamento per ciò che si consuma

Categoria Prezzo
Voice Live Pro (fatturazione per m token)VL1 Testo Input: $-
Input memorizzato nella cache: $-
Output: $-
Audio con Voce di Azure AI - Standard Input: $-
Input memorizzato nella cache: $-
Output: $-
Audio con Voce di Azure AI - PersonalizzatoVL2 Output: $-
Audio nativo con GPT-4o-Realtime Input: $-
Input memorizzato nella cache: $-
Output: $-
Voice Live Basic (fatturazione per m token)VL1 Testo Input: $-
Input memorizzato nella cache: $-
Output: $-
Audio con Voce di Azure AI - Standard Input: $-
Input memorizzato nella cache: $-
Output: $-
Audio con Voce di Azure AI - PersonalizzatoVL2 Output: $-
Audio nativo con GPT-4o Mini-Realtime Input: $-
Input memorizzato nella cache: $-
Output: $-
Voice Live Lite (fatturazione per m token)VL1 Testo Input: $-
Input memorizzato nella cache: $-
Output: $-
Audio con Voce di Azure AI - Standard Input: $-
Input memorizzato nella cache: $-
Output: $-
Audio con Voce di Azure AI - PersonalizzatoVL2 Output: $-
Audio nativo con Phi-MM Input: $-
Input memorizzato nella cache: $-
Riconoscimento vocale
(fatturazione al secondo)
Trascrizione standard Trascrizione in tempo reale: $- all'ora
Trascrizione rapida: $- all'ora9
Trascrizione batch: $- all'ora1
Trascrizione personalizzata Trascrizione in tempo reale: $- all'ora
Trascrizione batch: $- all'ora1
Hosting di endpoint: $- per modello all'ora
Training per Riconoscimento vocale personalizzato5: $- per ora di calcolo
Funzionalità avanzate dei componenti aggiuntivi:
  • Identificazione continua della lingua
  • Diarizzazione
  • Valutazione della pronuncia (prosodia, grammatica, vocabolario, argomento)
In tempo reale: $- per ora per funzionalità
Batch (identificazione continua della lingua, diarizzazione): incluso in Standard/Personalizzato (senza costi aggiuntivi)
Audio multicanale trascrizione conversazione ANTEPRIMA $- all'ora2
Traduzione vocale
(fatturazione al secondo)
Traduzione vocale in tempo reale $- per ora audio3
Live Interpreter Input audio: $- per ora audio
Output text: $- per 1 milione di caratteri
Output audio (Standard voice): $- per audio hourLI
Output audio (Custom voice): $- per audio hourLI
Traduzione video Video di input: $- all'ora
Video di output (voce Standard): $- all'ora
Video di output (voce personale): $- all'ora
Sintesi vocale8 Voce standard Neurale (in tempo reale e in batch): $- per 1 milione di caratteri
Rete neurale HD (in tempo reale e in batch)4: $- per 1 milione di caratteri
Voce personalizzata Voce professionale:
Sintesi (in tempo reale e in batch): $- per 1 milione di caratteri
Sintesi (rete neurale HD in tempo reale e in batch): $- per 1 milione di caratteri
Training del modello vocale: $- per ora di calcolo, fino a $- per training
Hosting di endpoint: $- per modello all'ora
Voce neurale personalizzata6:
Sintesi (in tempo reale e in batch): $- per 1 milione di caratteri
Creazione voce: gratuita
Archiviazione profilo vocale: $- al mese per 1.000 profili vocali
Funzionalità avanzate del componente aggiuntivo: avatar Standard:
Avatar interattivo (in tempo reale): $- al minuto
Avatar 4K interattivo (in tempo reale): $- al minuto
Video avatar (in batch): $- al minuto
Video avatar 4K (in batch): $- al minuto
Personalizzato:
Training del modello avatar: $- per ora di calcolo
Avatar interattivo (in tempo reale): $- al minuto
Avatar 4K interattivo (in tempo reale): $- al minuto
Video avatar (in batch): $- al minuto
Video avatar 4K (in batch): $- al minuto
Hosting di endpoint: $- all’ora per modello
Riconoscimento del parlante
(fatturazione per transazione)
Verifica voce7 $- per 1,000 transazioni
Identificazione voce7 $- per 1,000 transazioni
Archiviazione profili vocali $- per 1,000 profili vocali (10,000 profili vocali gratuiti al mese)
Speech-to-Text pricing details and features by tier

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

Le ore di riconoscimento vocale vengono misurate come ore di audio inviato al servizio, fatturate in incrementi di un secondo.

1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.

2Questa opzione riflette i prezzi dell'anteprima pubblica.

3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.

4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.

5Il training per Riconoscimento vocale personalizzato si applica per la personalizzazione di qualsiasi modello di base rilasciato a partire dal 1° ottobre 2023.

6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.

7Speaker Recognition is a limited access feature with a need to apply for access.

8Sintesi vocale: l'utilizzo della Sintesi vocale viene fatturato in base ai caratteri. L'avatar viene fatturato in base ai secondi. Il training e l'hosting del modello sono fatturati al secondo.

9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.

VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.

VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.

LIThis price includes text output

Livelli di impegno - Azure - Standard

Categoria Funzionalità Prezzo al mese Eccedenza
Riconoscimento vocale Standard $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Personalizzato $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Funzionalità avanzate dei componenti aggiuntivi:2
  • Identificazione continua della lingua
  • Diarizzazione
  • Valutazione della pronuncia (prosodia, grammatica, vocabolario, argomento)
$- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Sintesi vocale Neurale1 $- per 80milioni di caratteri $- per 1milioni di caratteri
$- per 400milioni di caratteri $- per 1milioni di caratteri
$- per 2,000milioni di caratteri $- per 1milioni di caratteri

1Include sia la sintesi in tempo reale che la sintesi in batch con voci neurali non HD e non AOAI predefinite. Voci HD, voci AOAI, Sintesi vocale neurale e Voce personale non sono incluse.

2Funzionalità del componente aggiuntivo Riconoscimento vocale in tempo reale, Identificazione continua della lingua e diarizzazione incluse nel riconoscimento vocale in batch.

Livelli impegno - Contenitore connesso

Categoria Funzionalità Prezzo al mese Eccedenza
Riconoscimento vocale2 Standard $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Personalizzato $- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Funzionalità avanzate dei componenti aggiuntivi:2
  • Identificazione della lingua
  • Diarizzazione
$- per 2,000 ore $- all'ora
$- per 10,000 ore $- all'ora
$- per 50,000 ore $- all'ora
Sintesi vocale Neurale1 $- per 80milioni di caratteri $- per 1milioni di caratteri
$- per 400milioni di caratteri $- per 1milioni di caratteri
$- per 2,000milioni di caratteri $- per 1milioni di caratteri

1Include la sintesi in tempo reale con voci neurali non HD e non AOAI predefinite. Voci HD, voci AOAI e voci personalizzate (sia professionali che personali) non sono incluse. La sintesi in batch non è inclusa.

2I prezzi si applicano ai casi di utilizzo in tempo reale e in batch. Non esiste una tariffazione separata dei batch per i contenitori.

See the documentation for information on Commitment tiers.

Livelli impegno - Contenitore disconnesso

Sign up to access speech in disconnected containers, or learn more

Categoria Funzionalità Prezzo (all'anno) Utilizzo massimo (all'anno) Utilizzo del progetto (al mese)
Riconoscimento vocale2 Standard $-
$-
Iscriversi per ottenere l'accesso
Altre informazioni
120.000 ore
600.000 ore
10,000 ore
50.000 ore
Personalizzato $-
$-
Iscriversi per ottenere l'accesso
Altre informazioni
120.000 ore
600.000 ore
10,000 ore
50.000 ore
Funzionalità avanzate dei componenti aggiuntivi:
  • Identificazione della lingua
  • Diarizzazione
$-
$-
120.000 ore
600.000 ore
10,000 ore
50.000 ore
Sintesi vocale Neurale1 $-
$-
Iscriversi per ottenere l'accesso
Altre informazioni
4,8 miliardi di caratteri
24 miliardi di caratteri
400 milioni di caratteri
2.000 milioni di caratteri

1Include la sintesi in tempo reale con voci neurali non HD e non AOAI predefinite. Voci HD, voci AOAI e voci personalizzate (sia professionali che personali) non sono incluse. La sintesi in batch non è inclusa.

2I prezzi si applicano ai casi di utilizzo in tempo reale e in batch. Non esiste una tariffazione separata dei batch per i contenitori.

Queste funzionalità sono deprecate e sono disponibili solo per i clienti esistenti. Controllare i dettagli e le informazioni su come eseguire la migrazione a nuove funzionalità.

Istanza Categoria Funzionalità Prezzo
Gratuito - Web/Contenitore
1 richiesta simultanea
Sintesi vocale Standard 5 million caratteri gratuiti al mese
Personalizzato 5 million caratteri gratuiti al mese
Hosting di endpoint: 1 modello gratuito al mese
Standard - Web/Contenitore
100 richieste simultanee per il modello di base
20 richieste simultanee per il modello personalizzato
Sintesi vocale Standard $- per 1 milione di caratteri
Personalizzato $- per 1 milione di caratteri
Hosting di endpoint: $- per modello all'ora

Prezzi e opzioni di acquisto di Azure

Contattaci direttamente

Informazioni dettagliate sui prezzi di Azure. È possibile ottenere informazioni sui prezzi per la soluzione cloud e sull'ottimizzazione dei costi e richiedere una proposta personalizzata.

Comunica con uno specialista vendite

Scopri le modalità di acquisto

Acquista servizi di Azure tramite il sito Web di Azure, un rappresentante Microsoft o un partner di Azure.

Esplora le opzioni disponibili

Risorse aggiuntive

Voce di Azure AI

Scopri di più sulle funzionalità e sulle capacità di Voce di Azure AI.

Calcolatore prezzi

Stima i costi mensili previsti per qualsiasi combinazione dei prodotti di Azure.

Documentazione

Vedi esercitazioni tecniche, video e altre risorse di Voce di Azure AI.

    • Per Riconoscimento vocale e Traduzione vocale, l'utilizzo viene fatturato in incrementi di un secondo.
    • For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
    • For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
    • For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
    • Per Sintesi vocale avatar, l'utilizzo viene fatturato al secondo.
    • Per Riconoscimento vocale e Sintesi vocale (Avatar incluso), l'hosting di endpoint per i modelli personalizzati viene fatturato al secondo per modello.
  • Il servizio Voce consente agli utenti di adattare modelli baseline in base ai dati acustici e della lingua specifici, generando così modelli di conversione voce/testo personalizzati che si possono usare sia per il riconoscimento vocale che per la traduzione vocale.

  • Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi “recognize speech” e “wreck a nice beach” presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio “orientato a oggetti”, “spazio dei nomi” o “dot net”, ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.

  • Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese “speech” è costituita da quattro fonemi “s p iy ch”. Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.

  • Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.

  • Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.

    • Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
    • It is charged as standard Speech to Text, example:
      For evaluation of 8 seconds of speech, you will be charged around $-

Contatta uno specialista delle vendite per ottenere informazioni dettagliate sui prezzi di Azure. Verifica i prezzi per la tua soluzione cloud.

Ottieni servizi cloud gratuiti e $200 di credito per esplorare Azure per 30 giorni.

Aggiunto alla stima. Premi 'v' per visualizzare nel calcolatore
Serve aiuto?