Hopp over navigasjon

Priser på Speech-tjenester

Samlede taletjenester for tale til tekst, tekst til tale og taleoversettelse

Den enhetlige taletjenesten har mange former for talegjenkjenning og generering, inkludert taletranskripsjon, tekst til tale og taleoversettelse. Speech-tjenesten leverer mange former for talegjenkjenning og -generering, inkludert taletranskripsjon, tekst til tale, taleoversettelse og talergjenkjenning.

Se nærmere på prisalternativene

Legg til filtre for å tilpasse prisalternativene til dine behov.

Prisene er bare estimater og er ikke ment som faktiske pristilbud. Faktiske priser kan variere avhengig av typen avtale som er inngått med Microsoft, kjøpsdato og valutakursen. Prisene beregnes basert på amerikanske dollar og konverteres i henhold til Thomson Reuters benchmark-kurser som oppdateres den første dagen i hver kalendermåned. Logg på Priskalkulator for Azure for å se priser basert på gjeldende program/tilbud hos Microsoft. Kontakt en Azure-salgsspesialist for mer informasjon om priser eller for å be om et pristilbud. Se vanlige spørsmål om Azure-priser.

Gratis (F0)

Kategori Funksjoner Pris
Tale til tekst
(fakturering per sekund)
Standard 5 timer lyd gratis per måned
Tilpasset 5 timer lyd gratis per måned
Drifting av endepunkt: 1 modell gratis per måned1
Samtaletranskripsjon med flerkanalslyd TESTVERSJON 5 timer lyd gratis per måned
Tekst til tale
(fakturering per tegn)
Nevral 0.5 million tegn gratis per måned
Taleoversettelse
(fakturering per sekund)
Standard 5 timer lyd gratis per måned
Talergjenkjenning
(per transaksjonsfakturering)
Talerverifisering2 10,000 gratis transaksjoner per måned
Taleridentifisering2 10,000 gratis transaksjoner per måned
Taleprofillagring 10,000 gratis transaksjoner per måned

Se dokumentasjon for informasjon om kvoter, grenser og instruksjoner om hvordan du øker samtidige forespørsler.

1Ubrukte modeller blir automatisk avviklet etter syv dager.

2Talergjenkjenning er en funksjon med begrenset tilgang som må søke om tilgang.

Bruksbasert betaling: betal bare for det du bruker.

Forekomst Kategori Funksjoner Pris
Standard – nett/beholder
100 samtidige forespørsler for basismodell
20 samtidige forespørsler for egendefinert modell1
Tale til tekst Standard2 $- per time med lyd
Tilpasset $- per time med lyd
Drifting av endepunkt: $- per modell per time
Forbedrede tilleggsfunksjoner:
  • Språkidentifikasjon
  • Bunkeflytting for mer enn tre høyttalere
$- per audio hour per feature
Samtaletranskripsjon med flerkanalslyd TESTVERSJON $- per time med lyd1
Tekst til tale
(fakturering per tegn)
Nevral Sanntidssyntese: $- per 1 M tegn
Oppretting av lang lyd: $- per 1 mill. tegn
Tilpasset nevral2 Opplæring: $- per datatime, opptil $- per opplæring
Sanntidssyntese: $- per 1 mill. tegn
Drifting av endepunkt: $- per modell per time
Oppretting av lang lyd: $- per 1 mill. tegn
Taleoversettelse
(fakturering per sekund)
Standard $- per time med lyd
Talergjenkjenning
(per transaksjonsfakturering)
Talerverifisering3 $- per 1,000 transaksjoner
Taleridentifisering3 $- per 1,000 transaksjoner
Taleprofillagring $- for 1,000 stemmeprofiler (10,000 gratis stemmeprofiler per måned)

Se dokumentasjon for informasjon om kvoter, grenser og instruksjoner om hvordan du øker samtidige forespørsler.

1 Dette gjenspeiler priser for offentlig forhåndsversjon. Pris for generell tilgjengelighet blir kunngjort senere ved generell tilgjengelighet.

2 Egendefinert nevralstemme (CNV) er en begrenset tilgangsfunksjonalitet med Pro- og Lite-versjoner. Med CNV Lite (offentlig forhåndsversjon) kan kunder ta opp sin egen stemme og opprette en modell for demonstrasjon/evaluering, før du søker om tilgang til Pro. Se hvor CNV er tilgjengelig.

3 Talergjenkjenning er en funksjon med begrenset tilgang som må søke om tilgang.

Avtalenivåer

Denne prisen har begrenset tilgang. Bruk her.

Forekomst Kategori Funksjoner Pris (per måned) Overforbruk
Azure – Standard Tale til tekst Standard $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tilpasset $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tekst til tale Nevral1 $- for 80 millioner tegn $- per 1 millioner tegn
$- for 400 millioner tegn $- per 1 millioner tegn
$- for 2,000 millioner tegn $- per 1 millioner tegn
Tilkoblet beholder – Standard Tale til tekst Standard $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tilpasset $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tekst til tale Nevral1 $- for 80 millioner tegn $- per 1 millioner tegn
$- for 400 millioner tegn $- per 1 millioner tegn
$- for 2,000 millioner tegn $- per 1 millioner tegn
Frakoblet beholder Tale til tekst Standard Registrer deg for å få tilgang
Finn ut mer
Tekst til tale Nevral1 Registrer deg for å få tilgang
Finn ut mer
1 Bare sanntidssyntese. Dette inkluderer ikke lang oppretting av lyd.

Disse funksjonene avskrives og er bare tilgjengelige for eksisterende kunder å bruke. Kontroller detaljer og finn ut hvordan du overfører til nye funksjoner.

Forekomst Kategori Funksjoner Pris
Gratis - Nett/beholder
1 samtidig forespørsel
Tekst til tale Standard 5 million tegn gratis per måned
Tilpasset 5 million tegn gratis per måned
Drifting av endepunkt: 1 modell gratis per måned
Standard – nett/beholder
100 samtidige forespørsler for basismodell
20 samtidige forespørsler for egendefinert modell
Tekst til tale Standard $- per 1 mill. tegn
Tilpasset $- per 1 mill. tegn
Drifting av endepunkt: $- per modell per time

Alternativer for Azure-priser og -kjøp

Få direkte kontakt med oss

Få en gjennomgang av Azure-priser. Forstå prisingen for skyløsningen din, lær om kostnadsoptimalisering og be om et egendefinert forslag.

Snakk med en selger

Se måter å kjøpe på

Kjøp Azure-tjenester via Azure-nettstedet, en Microsoft-representant eller en Azure-partner.

Se nærmere på alternativene dine

Flere ressurser

Speech-tjenester

Les mer om Speech-tjenester funksjoner og evner.

Priskalkulator

Beregn de forventede månedlige kostnadene ved å bruke en hvilken som helst kombinasjon av Azure-produkter.

Dokumentasjon

Se gjennom tekniske opplæringer, videoer og flere Speech-tjenester ressurser.

    • For Tale til tekst og taleoversettelse faktureres bruken i intervaller på ett sekund.
    • For tekst-til-tale: bruk faktureres per tegn. Kontroller definisjonen av tegn i prisnotatet.
    • For Tale til tekst og Tekst til tale faktureres endepunktdrifting for egendefinerte modeller per sekund per modell.
    • For egendefinerte kommandoer: Faktureringen spores som forbruk av Tale til tekst, Tekst til tale og Language Understanding. Egendefinerte kommandoer introduserer ikke nye faktureringsmålere.
    • Det er ingen kostnader for opplæring Tale til tekst modeller. De eneste kostnadene er endepunktdrifting per modell når den er rullet ut, og deretter kostnaden per lydtime for Egendefinert tale til tekst.
  • Ved hjelp av taletjenesten kan brukere tilpasse grunnmodeller basert på sine egne akustikk- og språkdata, og dermed få egendefinerte talemodeller som kan brukes både i tale til tekst og taleoversettelse.

  • Språkmodellen er en sannsynlighetsfordeling over sekvenser av ord. Språkmodellen lar systemet velge mellom sekvenser av ord som høres nesten like ut, basert på sannsynligheten for selve ordsekvensene. Eksempler (på engelsk): “recognize speech” og “wreck a nice beach” høres likt ut, men fordi det er mye mer sannsynlig at det første utsagnet forekommer, vil det tildeles en høyere poengsum av språkmodellen. Hvis du forventer at talespørringer til ditt program vil inneholde bestemte ord, for eksempel produktnavn eller en sjargong som sjelden forekommer i vanlig tale, kan du sannsynligvis forbedre ytelsen ved å tilpasse språkmodellen. Hvis du for eksempel bygger en app som søker i MSDN ved hjelp av stemmen, er det sannsynlig at uttrykk som “objektorientert” eller “navneområde” eller “punktum net” forekommer oftere enn i vanlige taleprogrammer. Når språkmodellen tilpasses, kan systemet lære dette.

  • Den akustiske modellen er en klassifiserer, som merker korte lydfragmenter som ett av flere fonemer, eller lydenheter, i hvert språk. Disse fonemene kan deretter slås sammen for å danne ord. Det engelske ordet “speech” består for eksempel av fire fonemer, “s p iy ch”. Disse klassifiseringene utføres inntil 100 ganger per sekund. Hvis den akustiske modellen tilpasses, kan systemet lære å gjøre en bedre jobb med å gjenkjenne tale i atypiske miljøer. Hvis du for eksempel har en app som er laget for å brukes av arbeidere i et varehus eller en fabrikk, kan en tilpasset akustisk modell føre til at tale gjenkjennes mer presist i nærheten av den støyen man finner i disse miljøene.

  • Taletjeneste tilbyr et bredt spekter av TTS (tekst-til-tale)-stemmetyper, men egendefinert nevralstemme lar deg bygge din egendefinerte stemme som passer dine behov og ditt varemerke. Les bloggen for mer informasjon.

  • Det er scenarioer der en som snakker, eller flere som snakker, kan snakke flere språk over samme lydfil eller live-presentasjon. Kontinuerlig språkgjenkjenning lar deg identifisere en endring i talespråk og transkribere nøyaktig tale i samsvar med dette. Denne funksjonen vil være gratis for privat forhåndsversjon og er tilgjengelig via Speech SDK. Gå til Docs for å få mer informasjon.

Snakk med en selger for å få en gjennomgang av Azure-prisene. Forstå prisene for skyløsningen din.

Få gratis skytjenester og $200 i kredit til å utforske Azure i 30 dager.

Legg til estimat. Trykk «v» for å vise på kalkulator
Kan vi hjelpe deg?