Prezzi di Servizi cognitivi - Servizi Voce

Usa le API di intelligence per abilitare funzionalità di visione artificiale, linguaggio e ricerca.

I servizi Voce unificati offrono un'ampia gamma di funzionalità di riconoscimento e generazione, ad esempio trascrizione vocale, sintesi vocale e traduzione vocale.

Dettagli prezzi

Sintesi vocale – Neurale è ora disponibile a livello generale. I prezzi indicati sono i prezzi per la disponibilità generale, che entreranno in vigore a partire dal 1° luglio 2019. Fino al 30 giugno 2019 verrà applicato uno sconto del 50%.

Il contenitore Voce è disponibile in anteprima pubblica.

Istanza Categoria Funzionalità Prezzo
Gratuito - Web/Contenitore
1 richiesta simultanea1
Riconoscimento vocale Standard 5 ore audio gratuite al mese
Riconoscimento vocale personalizzato 5 ore audio gratuite al mese
Hosting di endpoint del Riconoscimento vocale personalizzato2 1 modello gratuito al mese
Audio multicanale trascrizione conversazioneANTEPRIMA 3 5 ore audio gratuite al mese
Sintesi vocale Standard 5 milioni di caratteri gratuiti al mese
Neurale 0.5 milioni di caratteri gratuiti al mese
Voce personalizzata 5 milioni di caratteri gratuiti al mese
Hosting di endpoint del servizio Voce personalizzato2 1 modello gratuito al mese
Traduzione vocale Standard 5 ore audio gratuite al mese
Standard - Web/Contenitore
20 richiesta simultanea1
Riconoscimento vocale Standard $- per ora audio
Riconoscimento vocale personalizzato $- per ora audio
Hosting di endpoint del Riconoscimento vocale personalizzato $- per modello al mese
Audio multicanale trascrizione conversazioneANTEPRIMA 3 $- per ora audio4
Sintesi vocale Standard $- per 1 milione di caratteri
Neurale $- per 1 milione di caratteri5
Voce personalizzata $- per 1 milione di caratteri
Hosting di endpoint del servizio Voce personalizzato $- per modello al mese
Traduzione vocale Standard $- per ora audio

1Le richieste simultanee sono state applicate solo agli endpoint Web.

2I modelli non usati verranno rimossi automaticamente dopo 7 giorni.

3Trascrizione conversazione multicanale consiglia un dispositivo con array di microfoni. Per altri dettagli puoi vedere Microsoft Speech Device SDK.

4Rispecchia i prezzi dell'anteprima pubblica. I prezzi per la disponibilità generale verranno annunciati successivamente in occasione della disponibilità a livello generale.

5I prezzi indicati sono i prezzi per la disponibilità generale, che entreranno in vigore a partire dal 1° luglio 2019. Fino al 30 giugno 2019 verrà applicato uno sconto del 50% agli addebiti per sintesi vocale neurale. Vedi la documentazione sulle funzionalità neurali per le aree in cui è disponibile la Sintesi vocale neurale.

Supporto e contratto di servizio

  • Il supporto gratuito per la fatturazione e la gestione delle sottoscrizioni sono inclusi.
  • Microsoft garantisce la disponibilità di Servizi cognitivi in esecuzione nel livello Standard per almeno il 99,9% del tempo. Per la versione di valutazione gratuita non è previsto alcun contratto di servizio. Leggi il contratto di servizio

Domande frequenti

    • Per traduzione vocale, riconoscimento vocale e riconoscimento vocale con modello conversione voce/testo: l'utilizzo viene fatturato in base a incrementi di un secondo
    • Per sintesi vocale e sintesi vocale con carattere voce personalizzato: l'utilizzo è fatturato per carattere
    • Per hosting modello conversione voce/testo personalizzato l'utilizzo viene fatturato su base oraria, mentre per l'hosting carattere voce personalizzato l'utilizzo è fatturato su base giornaliera.
  • Il servizio Voce consente agli utenti di adattare modelli baseline in base ai dati acustici e della lingua specifici, generando così modelli di conversione voce/testo personalizzati che si possono usare sia per il riconoscimento vocale che per la traduzione vocale.

  • Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi "recognize speech" e "wreck a nice beach" presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio "orientato a oggetti", "spazio dei nomi" o "dot net", ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.

  • Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese "speech" è costituita da quattro fonemi "s p iy ch". Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.

  • I servizi Voce Microsoft offrono oltre 70 voci predefinite, ovvero caratteri voce, in più di 40 lingue per la conversione dei tuoi testi in audio. Con l'aumento degli assistenti virtuali e di altre applicazioni con funzionalità vocali, le aziende desiderano usare una voce esclusiva che rappresenti la società e che sia accuratamente progettata in base all'identità del marchio specifica. Ad esempio se stai sviluppando un chatbot per il servizio di assistenza clienti, puoi associarlo a una voce esclusiva della tua azienda per incentivare la fidelizzazione dei clienti. Allo stesso modo, uno sviluppatore di software di navigazione per auto può abilitare la sintesi vocale in varie voci personalizzate per arricchire l'esperienza utente.

    Con Voice Studio, il portale di creazione voci personalizzate, è più facile che mai. Usando dati audio personali, ovvero una voce umana registrata con i relativi script associati, puoi generare un carattere voce personalizzato che verrà distribuito nel servizio Sintesi vocale Microsoft e che può essere collegato nelle tue applicazioni con un endpoint API.

Risorse

Stimare i costi mensili per i servizi di Azure

Leggi le domande frequenti sui prezzi di Azure

Altre informazioni su Servizi cognitivi

Vedi esercitazioni tecniche, video e altre risorse

Aggiunto alla stima. Premi 'v' per visualizzare nel calcolatore

Apprendi e crea con $200 di credito e continua a usare le risorse gratuitamente