Priser for Cognitive Services – taletjenester

Bruk intelligens-API-er til å aktivere visuelle funksjoner samt språk- og søkefunksjoner.

Den enhetlige taletjenesten har mange former for talegjenkjenning og generering, inkludert taletranskripsjon, tekst til tale og taleoversettelse.

Prisdetaljer

Tekst til tale – nevral er nå generelt tilgjengelig. Prisene som er vist, er priser for generell tilgjengelighet som blir gjeldende fra 1. juli 2019. Helt frem til 30. juni 2019 får du 50 % rabatt.

Speech-beholder er i offentlig forhåndsversjon.

Forekomst Category Funksjoner Pris
Gratis - Nett/beholder
1 samtidig forespørsel1
Tale til tekst Standard 5 timer lyd gratis per måned
Custom Speech 5 timer lyd gratis per måned
Driving av Custom Speech-endepunkt2 1 modell gratis per måned
Samtaletranskripsjon med flerkanalslydTESTVERSJON 3 5 timer lyd gratis per måned
Tekst til tale Standard 5 mill. tegn gratis per måned
Nevral 0.5 mill. tegn gratis per måned
Custom Voice 5 mill. tegn gratis per måned
Driving av Custom Voice-endepunkt2 1 modell gratis per måned
Taleoversettelse Standard 5 timer lyd gratis per måned
Standard - Nett/beholder
20 samtidig forespørsel1
Tale til tekst Standard $- per time med lyd
Custom Speech $- per time med lyd
Driving av Custom Speech-endepunkt $- per modell per måned
Samtaletranskripsjon med flerkanalslydTESTVERSJON 3 $- per time med lyd4
Tekst til tale Standard $- per 1 mill. tegn
Nevral $- per 1 mill. tegn5
Custom Voice $- per 1 mill. tegn
Driving av Custom Voice-endepunkt $- per modell per måned
Taleoversettelse Standard $- per time med lyd

1De samtidige forespørslene gjelder bare for endepunkter på nett.

2Ubrukte modeller blir automatisk avviklet etter syv dager.

3Flerkanals samtaletranskripsjon anbefaler en sirkulær mikrofonmatriseenhet. Hvis du vil ha mer informasjon, kan du se Microsoft Speech Device SDK.

4Dette gjenspeiler priser for offentlig forhåndsversjon. Pris for generell tilgjengelighet blir kunngjort senere ved generell tilgjengelighet.

5Prisene som er vist, er priser for generell tilgjengelighet som blir gjeldende fra 1. juli 2019. Helt frem til 30. juli 2019 tilbys Nevral TTS med en 50 % rabatt. Sjekk nevral-dokumentasjonen for områdene hvor nevral tekst til tale er tilgjengelig.

Kundestøtte og tjenestenivåavtaler

 • Gratis fakturerings- og abonnementsstøtte er inkludert.
 • Vi garanterer at Cognitive Services som kjører på standardnivået, er tilgjengelig minst 99,9 prosent av tiden. Ingen tjenestenivåavtale gis for gratis prøveversjon. Les servicenivåvilkårene.

Vanlige spørsmål

  • For taleoversettelse, tale til tekst og tale til tekst med egendefinert talemodell: bruk faktureres i trinn på ett sekund
  • For tekst til tale og tekst til tale med egendefinert stemmetype: bruk faktureres per tegn
  • For drifting av egendefinert talemodell: Bruk faktureres per time: og drifting av egendefinert stemmetype: bruk faktureres daglig.
 • Ved hjelp av taletjenesten kan brukere tilpasse grunnmodeller basert på sine egne akustikk- og språkdata, og dermed få egendefinerte talemodeller som kan brukes både i tale til tekst og taleoversettelse.

 • Språkmodellen er en sannsynlighetsfordeling over sekvenser av ord. Språkmodellen lar systemet velge mellom sekvenser av ord som høres nesten like ut, basert på sannsynligheten for selve ordsekvensene. Eksempler (på engelsk): "recognize speech" og "wreck a nice beach" høres likt ut, men fordi det er mye mer sannsynlig at det første utsagnet forekommer, vil det tildeles en høyere poengsum av språkmodellen. Hvis du forventer at talespørringer til ditt program vil inneholde bestemte ord, for eksempel produktnavn eller en sjargong som sjelden forekommer i vanlig tale, kan du sannsynligvis forbedre ytelsen ved å tilpasse språkmodellen. Hvis du for eksempel bygger en app som søker i MSDN ved hjelp av stemmen, er det sannsynlig at uttrykk som "objektorientert" eller "navneområde" eller "punktum net" forekommer oftere enn i vanlige taleprogrammer. Når språkmodellen tilpasses, kan systemet lære dette.

 • Den akustiske modellen er en klassifiserer, som merker korte lydfragmenter som ett av flere fonemer, eller lydenheter, i hvert språk. Disse fonemene kan deretter slås sammen for å danne ord. Det engelske ordet "speech" består for eksempel av fire fonemer, "s p iy ch". Disse klassifiseringene utføres inntil 100 ganger per sekund. Hvis den akustiske modellen tilpasses, kan systemet lære å gjøre en bedre jobb med å gjenkjenne tale i atypiske miljøer. Hvis du for eksempel har en app som er laget for å brukes av arbeidere i et varehus eller en fabrikk, kan en tilpasset akustisk modell føre til at tale gjenkjennes mer presist i nærheten av den støyen man finner i disse miljøene.

 • Microsofts Speech-tjenester leverer over 70 standardstemmer (også kalt stemmetyper) på over 40 språk, som du kan bruke til å konvertere teksten din til lyd. Med fremveksten av den virtuelle assistenten og flere taleaktiverte programmer vil imidlertid mange selskaper ønske en unik stemme som representerer deres virksomhet, nøye tilpasset til deres egen merkeidentitet. Hvis du for eksempel utvikler en chatrobot for brukerstøttetjenesten, kan du knytte den til en unik merkevarestemme i ditt selskap for å utvikle kundetilhørighet. På samme måte kan en som utvikler programvare for bilnavigasjonssystemer, aktivere tekst til tale med forskjellige tilpassede stemmer for å berike brukeropplevelsen.

  Gjennom Voice Studio, den egendefinerte portalen for stemmebygging, er det enkelt. Med dine egne lyddata (innspilt menneskestemme med sine tilhørende skript) kan du generere en egendefinert stemmetype som deretter distribueres til Microsofts tekst til tale-tjeneste og enkelt kan kobles til dine programmer med et API-endepunkt for egen bruk.

Ressurser

Beregn dine månedlige kostnader for Azure-tjenester

Se gjennom vanlige spørsmål om Azure-priser

Les mer om Kognitive tjenester

Se gjennom tekniske opplæringer, videoer og flere ressurser

Legg til estimat. Trykk «v» for å vise på kalkulator

Lær hvordan du utvikler med $200 i kreditt, og fortsett gratis