Prezzi di Servizi cognitivi - Servizio riconoscimento vocale personalizzato ANTEPRIMA

Usa le API di intelligenza artificiale per abilitare funzionalità di visione, sintesi vocale, linguaggio e conoscenza

Il Servizio riconoscimento vocale personalizzato ti permette di creare modelli di riconoscimento vocale personalizzati e distribuirli in un endpoint di riconoscimento vocale su misura per la tua applicazione. Con il Servizio riconoscimento vocale personalizzato, puoi personalizzare il modello di lingua del motore di riconoscimento vocale affinché impari il vocabolario della tua applicazione e il modo di parlare dei tuoi utenti. Puoi anche personalizzare il modello acustico del motore di riconoscimento vocale in modo che si adatti più efficacemente alla popolazione di utenti e all'ambiente previsti dell'applicazione.

La personalizzazione dei modelli è gratuita.

Dettagli prezzi

Distribuzione del modello personalizzato 0-1 - Gratuito
1+ - $-/modello/mese
Personalizzazione del modello Gratuito
Test dell'accuratezza 0-2 ore - Gratuito
2+ - $-/ora
Scalabilità orizzontale $-/unità/giorno in cui ogni unità consente di inviare cinque richieste simultanee
Nessuna traccia $-/modello/mese
Prezzi per le richieste 0-2 ore - Gratuito
2+ - $-/ora

Supporto e contratto di servizio

  • Supporto gratuito per la fatturazione e la gestione delle sottoscrizioni
  • Hai bisogno di supporto tecnico per i servizi in anteprima? Usa i nostri forum
  • Microsoft garantisce la disponibilità di Servizi cognitivi in esecuzione nel livello Standard per almeno il 99,9% del tempo. Per il livello Gratuito non è previsto alcun contratto di servizio. Leggi il Contratto di servizio
  • Il contratto di servizio non è disponibile durante il periodo di anteprima. Altre informazioni

Domande frequenti

Servizio riconoscimento vocale personalizzato

  • Il livello 1 consente di elaborare fino a quattro frammenti di audio, ossia quattro trascrizioni, contemporaneamente con risposta in tempo reale. Se l'utente invia più di quattro frammenti di audio simultanei, ogni frammento di audio successivo viene rifiutato e restituito con un codice di errore che indica un numero eccessivo di riconoscimenti simultanei. Lo stesso principio si applica al livello 2, che consente di elaborare 12 trascrizioni simultanee. Il livello gratuito invece permette di elaborare solo una trascrizione simultanea. Si presume che l'audio verrà caricato in tempo reale. Se l'audio viene caricato più rapidamente, ai fini della simultaneità la richiesta verrà comunque considerata come in corso fino al termine della durata dell'audio, anche se il risultato del riconoscimento è stato restituito in anticipo.

    Nota: per richiedere livelli di simultaneità più elevati, contattaci.

  • Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi "recognize speech" e "wreck a nice beach" presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio "orientato a oggetti", "spazio dei nomi" o "dot net", ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.

  • Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese "speech" è costituita da quattro fonemi "s p iy ch". Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.

  • Il riconoscimento Dettatura breve supporta espressioni con una durata massima di 15 secondi. Se usato in combinazione con la libreria client per il riconoscimento vocale, quando i dati vengono inviati al server, il client riceverà più risultati parziali e un risultato finale con le N migliori opzioni.

  • Il riconoscimento Dettatura continua supporta espressioni della durata massima di due minuti. Se usato in combinazione con la libreria client per il riconoscimento vocale, quando i dati vengono inviati al server, il client riceverà più risultati parziali e più risultati finali, in base alle posizioni di pausa della frase indicate dal server.

  • Se ad esempio un cliente usa il livello S1 per elaborare un milione di trascrizioni, gli verrà addebitato il prezzo del livello ($-), le prime 100,000 trascrizioni verranno fatturate a $- per 1,000 trascrizioni e le rimanenti 900,000 trascrizioni verranno fatturate a $- per 1,000 trascrizioni. L'importo fatturato al cliente sarà quindi pari a $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Vedi le informazioni relative al Servizio riconoscimento vocale personalizzato nella pagina Web di Servizi cognitivi Microsoft e nel sito Web dedicato al Servizio riconoscimento vocale personalizzato all'indirizzo www.cris.ai.

  • La distribuzione del modello personalizzato consiste nell'esecuzione del wrapping di un modello personalizzato e quindi nell'esposizione del modello come servizio. Il modello personalizzato distribuito risultante espone un endpoint tramite il quale è possibile accedervi. Gli utenti possono scegliere di distribuire tutti i modelli necessari.

  • Il Servizio di riconoscimento vocale personalizzato consente agli utenti di adattare i modelli baseline in base ai rispettivi dati acustici e relativi alla lingua. Questo processo viene definito personalizzazione del modello.

  • Quando viene creato un modello personalizzato, gli utenti possono caricare dati di test per valutare il modello appena creato. Gli utenti possono testare i nuovi modelli personalizzati con la quantità di dati necessaria, ovvero possono eseguire un numero illimitato di test dell'accuratezza.

  • Quando un modello personalizzato è stato distribuito, l'URI corrispondente può elaborare una richiesta audio alla volta. Per scenari che inviano contemporaneamente più di una richiesta audio all'URI, gli utenti possono scegliere di aumentare il numero di istanze con incrementi di cinque richieste simultanee alla volta. Per ottenere questo risultato, acquistare unità di scala. Ogni unità di scala garantisce fino a cinque richieste audio simultanee al costo di $200 per unità di scala. Se ad esempio un utente prevede di inviare all'endpoint 23 richieste audio contemporaneamente, dovrà acquistare cinque unità di scala per assicurare fino a 25 richieste simultanee.

  • La gestione dei log consente agli utenti di disattivare la registrazione per i modelli distribuiti. Gli utenti interessati alla privacy possono scegliere di disattivare la registrazione per un modello distribuito, al costo di $20 al mese.

  • I prezzi per le richieste sono relativi al costo dell'elaborazione di richieste audio da parte dell'endpoint di un modello personalizzato distribuito.

Generale

  • Le API Emozioni, Viso, LUIS (Language Understanding Intelligent Service), Riconoscimento vocale Bing e Sintesi vocale Bing vengono fatturate per ogni 1.000 chiamate di transazione dell'API quando viene effettuata attivamente la chiamata di un'API di produzione. La fatturazione è ripartita proporzionalmente per quantità specifiche di chiamate di transazione dell'API di produzione.

    Il servizio API Dettatura continua Bing viene fatturato per ogni ora di analisi dell'input vocale. La fatturazione è ripartita proporzionalmente in base ai singoli minuti.

    L'API Consigli e l'API Analisi del testo possono essere acquistate in unità dei livelli standard a un prezzo fisso. Ogni unità di un livello viene fornita con quantità incluse di transazioni dell'API. Se l'utente supera le quantità incluse, le eccedenze vengono addebitate in base alla tariffa specificata nella tabella dei prezzi sopra. Queste eccedenze vengono ripartite proporzionalmente e il servizio viene fatturato su base mensile. Le quantità incluse in un livello vengono reimpostate ogni mese.

  • L'utilizzo viene limitato ogni volta che si raggiunge il limite di transazioni del livello gratuito. I clienti non possono accumulare le eccedenze nel livello gratuito.

  • Se l'utilizzo in un livello Standard viene superato, l'account inizia ad accumulare eccedenze. Le eccedenze vengono fatturate ogni mese e vengono calcolate in base alla tariffa specificata per ogni livello.

  • Qualsiasi chiamata API, ad eccezione delle chiamate del punteggio batch, viene conteggiata come transazione. Le chiamate del punteggio batch vengono conteggiate in base al numero di elementi per cui deve essere calcolato il punteggio nella transazione.

  • L'utilizzo viene limitato ogni volta che si raggiunge il limite di transazioni del livello gratuito. I clienti non possono accumulare le eccedenze nel livello gratuito. Il punteggio batch non è supportato nel livello gratuito.

  • L'API Consigli può essere acquistata in unità dei livelli Standard a un prezzo fisso. Ogni unità di un livello viene fornita con quantità incluse di transazioni dell'API. Se l'utente supera le quantità incluse, le eccedenze vengono addebitate in base alla tariffa specificata nella tabella dei prezzi sopra. Queste eccedenze vengono ripartite proporzionalmente e il servizio viene fatturato su base mensile. Le quantità incluse in un livello vengono reimpostate ogni mese.

  • Le API di ricerca Bing, l'API Suggerimenti automatici Bing e l'API Controllo ortografico Bing vengono fatturate mensilmente. A seconda del livello acquistato saranno disponibili quantità di transazioni incluse definite come chiamate API. Le quantità incluse saranno sempre legate al mese di calendario, indipendentemente dalla data di inizio dell'utilizzo. Se l'utente supera le quantità incluse, le eccedenze vengono addebitate in base alla tariffa specificata nella tabella dei prezzi. Queste eccedenze non vengono ripartite proporzionalmente e il servizio viene fatturato su base mensile. Le quantità incluse per ogni livello vengono reimpostate ogni mese.

  • Visita la pagina https://www.microsoft.com/cognitive-services/en-US/subscriptions per richiedere versioni di valutazione gratuite.

  • Puoi eseguire l'aggiornamento a un livello superiore in qualsiasi momento. Le tariffe di fatturazione e le quantità incluse corrispondenti al livello superiore verranno applicate immediatamente.

Risorse

Calcolatore

Stimare i costi mensili per i servizi di Azure

Domande frequenti sugli acquisti

Leggi le domande frequenti sui prezzi di Azure

Dettagli sul prodotto

Altre informazioni su Servizi cognitivi

Documentazione

Rivedere esercitazioni tecniche, video e altre risorse

Iscriviti ora e ottieni $200 di crediti di Azure

Inizia oggi stesso