Ignora esplorazione

Prezzi di Servizi cognitivi - Servizio riconoscimento vocale personalizzato ANTEPRIMA

Usa le API di intelligenza artificiale per abilitare funzionalità di visione, sintesi vocale, linguaggio e conoscenza

Il Servizio riconoscimento vocale personalizzato ti permette di creare modelli di riconoscimento vocale personalizzati e distribuirli in un endpoint di riconoscimento vocale su misura per la tua applicazione. Con il Servizio riconoscimento vocale personalizzato, puoi personalizzare il modello di lingua del motore di riconoscimento vocale affinché impari il vocabolario della tua applicazione e il modo di parlare dei tuoi utenti. Puoi anche personalizzare il modello acustico del motore di riconoscimento vocale in modo che si adatti più efficacemente alla popolazione di utenti e all'ambiente previsti dell'applicazione.

Dettagli prezzi

La personalizzazione dei modelli è gratuita.

Istanza database elastico PrezzoANTEPRIMA
Gratuito Distribuzioni del modello 1 modello gratuito al mese
Personalizzazione dei modelli 3 ore gratuite al mese
Test dell'accuratezza 2 ore gratuite al mese
Scalabilità orizzontale N/D
Nessuna traccia N/D
Prezzi per le richieste 2 ore gratuite al mese
S2 Distribuzioni del modello $-/modello/mese
Personalizzazione dei modelli Senza limiti
Test dell'accuratezza 2 ore gratuite e quindi $-/ora
Scalabilità orizzontale $-/unità/giorno in cui ogni unità consente di inviare cinque richieste simultanee
Nessuna traccia $-/modello/mese
Prezzi per le richieste 2 ore gratuite e quindi $-/ora

Supporto e contratto di servizio

  • Il supporto gratuito per la fatturazione e la gestione delle sottoscrizioni sono inclusi.
  • Hai bisogno di supporto tecnico per i servizi in anteprima? Usa i nostri forum.
  • Microsoft garantisce la disponibilità di Servizi cognitivi in esecuzione nel livello Standard per almeno il 99,9% del tempo. Per la versione di valutazione gratuita non è previsto alcun contratto di servizio. Leggi il contratto di servizio
  • Il contratto di servizio non è disponibile durante il periodo di anteprima. Altre informazioni.

Domande frequenti

Servizio riconoscimento vocale personalizzato

  • Il livello 1 consente di elaborare fino a quattro frammenti di audio, ossia quattro trascrizioni, contemporaneamente con risposta in tempo reale. Se l'utente invia più di quattro frammenti di audio simultanei, ogni frammento di audio successivo viene rifiutato e restituito con un codice di errore che indica un numero eccessivo di riconoscimenti simultanei. Lo stesso principio si applica al livello 2, che consente di elaborare 12 trascrizioni simultanee. Il livello gratuito invece permette di elaborare solo una trascrizione simultanea. Si presume che l'audio verrà caricato in tempo reale. Se l'audio viene caricato più rapidamente, ai fini della simultaneità la richiesta verrà comunque considerata come in corso fino al termine della durata dell'audio, anche se il risultato del riconoscimento è stato restituito in anticipo.

    Nota: per richiedere livelli di simultaneità più elevati, contattaci.

  • Il modello di lingua è una distribuzione probabilistica sulle sequenze di parole. Il modello di lingua aiuta il sistema a decidere tra sequenze di parole con suoni simili, in base alla probabilità delle sequenze di parole stesse. Le frasi "recognize speech" e "wreck a nice beach" presentano un suono simile ma è molto più probabile che ricorra la prima e quindi il modello di lingua le assegnerà un punteggio più alto. Se prevedi che le query vocali inviate alla tua applicazione contengano vocaboli particolari, ad esempio nomi di prodotto o gergo specifico, che raramente vengono usati nel parlato normale, personalizzando il modello di lingua potrai ottenere prestazioni migliori. Ad esempio, se stai sviluppando un'app che permette di eseguire ricerche vocali in MSDN, è probabile che alcuni termini, come ad esempio "orientato a oggetti", "spazio dei nomi" o "dot net", ricorrano con maggiore frequenza rispetto a quanto accade nelle applicazioni vocali tipiche. Con la personalizzazione del modello di lingua, il sistema può apprendere questi termini.

  • Il modello acustico è un classificatore che etichetta brevi frammenti di audio in uno di più fonemi, o unità di suono, in ogni lingua. Questi fonemi possono quindi essere uniti per formare le parole. Ad esempio, la parola inglese "speech" è costituita da quattro fonemi "s p iy ch". Queste classificazioni vengono effettuate con una frequenza di 100 volte al secondo. La personalizzazione del modello acustico consente al sistema di perfezionare il riconoscimento vocale in ambienti atipici. Se ad esempio hai un'app progettata per essere usata dagli operai in un magazzino o in uno stabilimento, con un modello acustico personalizzato sarà possibile migliorare il riconoscimento vocale in presenza dei rumori tipici di questi ambienti.

  • Il riconoscimento Dettatura breve supporta espressioni con una durata massima di 15 secondi. Se usato in combinazione con la libreria client per il riconoscimento vocale, quando i dati vengono inviati al server, il client riceverà più risultati parziali e un risultato finale con le N migliori opzioni.

  • Il riconoscimento Dettatura continua supporta espressioni della durata massima di due minuti. Se usato in combinazione con la libreria client per il riconoscimento vocale, quando i dati vengono inviati al server, il client riceverà più risultati parziali e più risultati finali, in base alle posizioni di pausa della frase indicate dal server.

  • Se ad esempio un cliente usa il livello S1 per elaborare un milione di trascrizioni, gli verrà addebitato il prezzo del livello ($-), le prime 100,000 trascrizioni verranno fatturate a $- per 1,000 trascrizioni e le rimanenti 900,000 trascrizioni verranno fatturate a $- per 1,000 trascrizioni. L'importo fatturato al cliente sarà quindi pari a $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Vedi le informazioni relative al Servizio riconoscimento vocale personalizzato nella pagina Web di Servizi cognitivi Microsoft e nel sito Web dedicato al Servizio riconoscimento vocale personalizzato all'indirizzo www.cris.ai.

  • La distribuzione del modello personalizzato consiste nell'esecuzione del wrapping di un modello personalizzato e quindi nell'esposizione del modello come servizio. Il modello personalizzato distribuito risultante espone un endpoint tramite il quale è possibile accedervi. Gli utenti possono scegliere di distribuire tutti i modelli necessari.

  • Il Servizio di riconoscimento vocale personalizzato consente agli utenti di adattare i modelli baseline in base ai rispettivi dati acustici e relativi alla lingua. Questo processo viene definito personalizzazione del modello.

  • Quando viene creato un modello personalizzato, gli utenti possono caricare dati di test per valutare il modello appena creato. Gli utenti possono testare i nuovi modelli personalizzati con la quantità di dati necessaria, ovvero possono eseguire un numero illimitato di test dell'accuratezza.

  • Quando un modello personalizzato è stato distribuito, l'URI corrispondente può elaborare una richiesta audio alla volta. Per scenari che inviano contemporaneamente più di una richiesta audio all'URI, gli utenti possono scegliere di aumentare il numero di istanze con incrementi di cinque richieste simultanee alla volta. Per ottenere questo risultato, acquistare unità di scala. Ogni unità di scala garantisce fino a cinque richieste audio simultanee al costo di $200 per unità di scala. Se ad esempio un utente prevede di inviare all'endpoint 23 richieste audio contemporaneamente, dovrà acquistare cinque unità di scala per assicurare fino a 25 richieste simultanee.

  • La gestione dei log consente agli utenti di disattivare la registrazione per i modelli distribuiti. Gli utenti interessati alla privacy possono scegliere di disattivare la registrazione per un modello distribuito, al costo di $20 al mese.

  • I prezzi per le richieste sono relativi al costo dell'elaborazione di richieste audio da parte dell'endpoint di un modello personalizzato distribuito.

Generale

  • Le API di ricerca Bing vengono fatturate in base al numero di transazioni, definite anche chiamate API. Si tratta di piani con pagamento in base al consumo e non sono previsti costi aggiuntivi per query complesse e più di 10 risultati, nella maggior parte dei casi fino a 50 risultati.

  • Se superi il numero indicato di transazioni al secondo, il tuo utilizzo verrà limitato in modo da rientrare nel limite indicato. Se la tua applicazione necessita di un numero superiore di transazioni al secondo rispetto al valore specificato in questa pagina, contatta il team di supporto tecnico di Azure.

  • Per finalità di fatturazione, una transazione è una richiesta di chiamata API Bing con esito positivo, anche se sono previste avvertenze a livello di attacchi Denial of Service. Per finalità di registrazione e creazione di report, ad esempio per il componente aggiuntivo Statistiche Bing, corrisponde a qualsiasi chiamata API Bing, indipendentemente dall'esito positivo o negativo.

  • Puoi cambiare il livello del servizio in qualsiasi momento. Assicurati di usare le chiavi appropriate nelle chiamate API. Se hai un contratto Enterprise Agreement con Microsoft, contatta il responsabile del tuo account.

Risorse

Stimare i costi mensili per i servizi di Azure

Leggi le domande frequenti sui prezzi di Azure

Altre informazioni su Servizi cognitivi

Vedi esercitazioni tecniche, video e altre risorse

Aggiunto alla stima. Premi 'v' per visualizzare nel calcolatore Visualizza nel calcolatore

Apprendi e crea con $200 di credito e continua a usare le risorse gratuitamente