Hopp over navigasjon

Priser på Speech-tjenester

Samlede taletjenester for tale til tekst, tekst til tale og taleoversettelse

Den enhetlige taletjenesten har mange former for talegjenkjenning og generering, inkludert taletranskripsjon, tekst til tale og taleoversettelse. Speech-tjenesten leverer mange former for talegjenkjenning og -generering, inkludert taletranskripsjon, tekst til tale, taleoversettelse og talergjenkjenning.

Se nærmere på prisalternativene

Legg til filtre for å tilpasse prisalternativene til dine behov.

Prices are estimates only and are not intended as actual price quotes. Actual pricing may vary depending on the type of agreement entered with Microsoft, date of purchase, and the currency exchange rate. Prices are calculated based on US dollars and converted using Thomson Reuters benchmark rates refreshed on the first day of each calendar month. Sign in to the Azure pricing calculator to see pricing based on your current program/offer with Microsoft. Contact an Azure sales specialist for more information on pricing or to request a price quote. See frequently asked questions about Azure pricing.

Gratis

Forekomst Kategori Funksjoner Pris
Gratis - Nett/beholder
1 samtidig forespørsel1
Tale til tekst Standard2 5 timer lyd gratis per måned
Tilpasset 5 timer lyd gratis per måned
Drifting av endepunkt: 1 modell gratis per måned 3
Samtaletranskripsjon med flerkanalslyd TESTVERSJON 4 5 timer lyd gratis per måned
Tekst til tale Nevral 0.5 million tegn gratis per måned
Speech Translation Standard 5 timer lyd gratis per måned
Talergjenkjenning Talerverifisering 10,000 gratis transaksjoner per måned
Taleridentifisering 10,000 gratis transaksjoner per måned
Talelagring 10,000 gratis transaksjoner per måned

Se dokumentasjonen for mer detaljert informasjon om kvoter og grenser for alle prisnivåer.

1Se instruksjonene for å øke antallet samtidige forespørsler.

2Tale til tekst inkluderer nå uttaleevaluering for både gratis forekomst (f.eks. fem lydtimer gratis per måned) så vel som standard forekomst, som vil følge standardpriser på $1 per lydtime.

3Ubrukte modeller blir automatisk avviklet etter syv dager.

4Flerkanals samtaletranskripsjon anbefaler en sirkulær mikrofonmatriseenhet. Hvis du vil ha mer informasjon, kan du se Microsoft Speech Device SDK.

Betal for forbruk

Forekomst Kategori Funksjoner Pris
Standard – nett/beholder
100 samtidige forespørsler for basismodell
20 samtidige forespørsler for egendefinert modell1
Tale til tekst Standard2 $- per time med lyd
Tilpasset $- per time med lyd
Drifting av endepunkt: $- per modell per time
Samtaletranskripsjon med flerkanalslyd TESTVERSJON 4 $- per time med lyd 5
Tekst til tale Nevral $- per 1 M tegn 6
Oppretting av lang lyd: $- per 1 mill. tegn
Tilpasset nevral 7 Opplæring: $- per datatime, opptil $- per opplæring
Sanntidssyntese: $- per 1 mill. tegn
Drifting av endepunkt: $- per modell per time
Oppretting av lang lyd: $- per 1 mill. tegn
Speech Translation Standard $- per time med lyd
Talergjenkjenning Talerverifisering $- per 1,000 transaksjoner
Taleridentifisering $- per 1,000 transaksjoner
Talelagring $- for 1,000 stemmeprofiler (10,000 gratis stemmeprofiler per måned)

Se dokumentasjonen for mer detaljert informasjon om kvoter og grenser for alle prisnivåer.

1Se instruksjonene for å øke antallet samtidige forespørsler.

2Tale til tekst inkluderer nå uttaleevaluering for både gratis forekomst (f.eks. fem lydtimer gratis per måned) så vel som standard forekomst, som vil følge standardpriser på $1 per lydtime.

3Ubrukte modeller blir automatisk avviklet etter syv dager.

4Flerkanals samtaletranskripsjon anbefaler en sirkulær mikrofonmatriseenhet. Hvis du vil ha mer informasjon, kan du se Microsoft Speech Device SDK.

5Dette gjenspeiler priser for offentlig forhåndsversjon. Pris for generell tilgjengelighet blir kunngjort senere ved generell tilgjengelighet.

6Sjekk nevral-dokumentasjonen for områdene hvor nevral tekst til tale er tilgjengelig.

7Egendefinert nevralstemme er en funksjon med begrenset tilgang. Finn ut mer om prosessen med begrenset tilgang. Se hvor egendefinert nevralstemme er tilgjengelig.

Avtalenivåer

This pricing is limited access. Apply here.

Forekomst Kategori Funksjoner Pris (per måned) Overforbruk
Azure – Standard Tale til tekst Standard $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tekst til tale Nevral $- for 80 millioner tegn $- per 1 millioner tegn
$- for 400 millioner tegn $- per 1 millioner tegn
$- for 2,000 millioner tegn $- per 1 millioner tegn
Tilkoblet beholder – Standard Tale til tekst Standard $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tekst til tale Nevral $- for 80 millioner tegn $- per 1 millioner tegn
$- for 400 millioner tegn $- per 1 millioner tegn
$- for 2,000 millioner tegn $- per 1 millioner tegn
Disconnected container Tale til tekst Standard Sign up to get access
Learn more

These features are being deprecated and only available for existing customers to use. Check details and learn how to migrate to new features.

Forekomst Kategori Funksjoner Pris
Gratis - Nett/beholder
1 samtidig forespørsel
Tekst til tale Standard 5 million tegn gratis per måned
Tilpasset 5 million tegn gratis per måned
Drifting av endepunkt: 1 modell gratis per måned
Standard – nett/beholder
100 samtidige forespørsler for basismodell
20 samtidige forespørsler for egendefinert modell
Tekst til tale Standard $- per 1 mill. tegn
Tilpasset $- per 1 mill. tegn
Drifting av endepunkt: $- per modell per time

Alternativer for Azure-priser og -kjøp

Få direkte kontakt med oss

Få en gjennomgang av Azure-prisene. Få en forståelse av prisene for skyløsningen din, lær om kostnadsoptimalisering og be om et tilpasset forslag.

Snakk med en selger

Se måter å kjøpe på

Kjøp Azure-tjenester via Azure-nettstedet, en Microsoft-representant eller en Azure-partner.

Se nærmere på alternativene dine

Tilleggsressurser

Mer informasjon om Speech-tjenester

Les mer om Speech-tjenester funksjoner og evner.

Priskalkulator

Beregn de forventede månedlige kostnadene ved å bruke en hvilken som helst kombinasjon av Azure-produkter.

Dokumentasjon

Se gjennom tekniske opplæringer, videoer og flere Speech-tjenester ressurser.

  • For taleoversettelse, tale til tekst og tale til tekst med egendefinert talemodell: Bruk faktureres i trinn på ett sekund.
  • For tekst til tale og tekst til tale med nevral eller egendefinerte nevralstemmer: Bruk faktureres per tegn. Sjekk definisjonen av tegn i prisnotatet.
  • For drifting av egendefinert talemodell: Bruk faktureres per time: og drifting av egendefinert stemmetype: bruk faktureres daglig.
  • For egendefinerte kommandoer: Faktureringen spores som forbruk av Tale til tekst, Tekst til tale og Language Understanding. Egendefinerte kommandoer introduserer ikke nye faktureringsmålere.
  • Det koster ingenting å lære opp talemodeller. De eneste kostnadene er drift av modellen når den er opplært, samt kostnaden per time med taletranskripsjon.
 • Ved hjelp av taletjenesten kan brukere tilpasse grunnmodeller basert på sine egne akustikk- og språkdata, og dermed få egendefinerte talemodeller som kan brukes både i tale til tekst og taleoversettelse.

 • Språkmodellen er en sannsynlighetsfordeling over sekvenser av ord. Språkmodellen lar systemet velge mellom sekvenser av ord som høres nesten like ut, basert på sannsynligheten for selve ordsekvensene. Eksempler (på engelsk): "recognize speech" og "wreck a nice beach" høres likt ut, men fordi det er mye mer sannsynlig at det første utsagnet forekommer, vil det tildeles en høyere poengsum av språkmodellen. Hvis du forventer at talespørringer til ditt program vil inneholde bestemte ord, for eksempel produktnavn eller en sjargong som sjelden forekommer i vanlig tale, kan du sannsynligvis forbedre ytelsen ved å tilpasse språkmodellen. Hvis du for eksempel bygger en app som søker i MSDN ved hjelp av stemmen, er det sannsynlig at uttrykk som "objektorientert" eller "navneområde" eller "punktum net" forekommer oftere enn i vanlige taleprogrammer. Når språkmodellen tilpasses, kan systemet lære dette.

 • Den akustiske modellen er en klassifiserer, som merker korte lydfragmenter som ett av flere fonemer, eller lydenheter, i hvert språk. Disse fonemene kan deretter slås sammen for å danne ord. Det engelske ordet "speech" består for eksempel av fire fonemer, "s p iy ch". Disse klassifiseringene utføres inntil 100 ganger per sekund. Hvis den akustiske modellen tilpasses, kan systemet lære å gjøre en bedre jobb med å gjenkjenne tale i atypiske miljøer. Hvis du for eksempel har en app som er laget for å brukes av arbeidere i et varehus eller en fabrikk, kan en tilpasset akustisk modell føre til at tale gjenkjennes mer presist i nærheten av den støyen man finner i disse miljøene.

 • Taletjeneste tilbyr et bredt spekter av TTS (tekst-til-tale)-stemmetyper, men egendefinert nevralstemme lar deg bygge din egendefinerte stemme som passer dine behov og ditt varemerke. Les bloggen for mer informasjon.

 • Det er scenarioer der en som snakker, eller flere som snakker, kan snakke flere språk over samme lydfil eller live-presentasjon. Kontinuerlig språkgjenkjenning lar deg identifisere en endring i talespråk og transkribere nøyaktig tale i samsvar med dette. Denne funksjonen vil være gratis for privat forhåndsversjon og er tilgjengelig via Speech SDK. Gå til Docs for å få mer informasjon.

Snakk med en selger for å få en gjennomgang av Azure-prisene. Forstå prisene for skyløsningen din.

Få gratis skytjenester og $200 i kredit til å utforske Azure i 30 dager.

Legg til estimat. Trykk «v» for å vise på kalkulator
Kan vi hjelpe deg?