Gå til hovedinnhold
Azure

Priser på Azure AI Speech

Samlede taletjenester for tale til tekst, tekst til tale og taleoversettelse

Den enhetlige taletjenesten har mange former for talegjenkjenning og generering, inkludert taletranskripsjon, tekst til tale og taleoversettelse. Speech-tjenesten leverer mange former for talegjenkjenning og -generering, inkludert taletranskripsjon, tekst til tale, taleoversettelse og talergjenkjenning.

Se nærmere på prisalternativene

Legg til filtre for å tilpasse prisalternativene til dine behov.

Prisene er bare estimater, og er ikke ment som faktiske pristilbud. De faktiske prisene kan variere avhengig av avtaletypen, som er angitt med Microsoft, kjøpsdatoen og valutakursen. Prisene beregnes basert på amerikanske dollar, og konverteres ved hjelp av London-spotkurser registrert to virkedager før den siste virkedagen i utgangen av forrige måned. Hvis de to virkedagene før slutten av måneden faller på en helligdag i de største markedene, er prissettingsdagen vanligvis dagen umiddelbart før de to virkedagene. Denne satsen gjelder for alle transaksjoner i løpet av den kommende måneden. Logg på priskalkulatoren for Azure for å se priser basert på gjeldende program/tilbud med Microsoft. Kontakt en Azure-salgsspesialist for mer informasjon om priser, eller for å be om et pristilbud. Se vanlige spørsmål om Azure-priser.

Gratis (F0)

Kategori Funksjoner Pris
Tale til tekst
(fakturering per sekund)
Standard 5 timer lyd gratis per måned3
Tilpasset 5 timer lyd gratis per måned3
Drifting av endepunkt: 1 modell gratis per måned1
Samtaletranskripsjon med flerkanalslyd TESTVERSJON 5 timer lyd gratis per måned
Tekst til tale
(fakturering per tegn)
Nevral 0.5 million tegn gratis per måned
Taleoversettelse
(fakturering per sekund)
Standard 5 timer lyd gratis per måned
Talergjenkjenning
(per transaksjonsfakturering)
Talerverifisering2 10,000 gratis transaksjoner per måned
Taleridentifisering2 10,000 gratis transaksjoner per måned
Taleprofillagring 10,000 gratis transaksjoner per måned
Speech services quotas and limits by tier (Free F0)

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

1Ubrukte modeller blir automatisk avviklet etter syv dager.

2Speaker Recognition is a limited access feature with a need to apply for access.

3Gratis lydtimer for tale til tekst deles mellom Standard og Custom. Batch støttes ikke.

Bruksbasert betaling: betal bare for det du bruker.

Kategori Pris
Voice Live Pro (per m-tokenfakturering)VL1 Tekst Inndata: $-
Hurtigbufrede inndata: $-
Utdata: $-
Lyd med Azure AI Speech – Standard Inndata: $-
Hurtigbufrede inndata: $-
Utdata: $-
Lyd med Azure AI Speech – TilpassetVL2 Utdata: $-
Opprinnelig lyd med GPT-4o-Realtime Inndata: $-
Hurtigbufrede inndata: $-
Utdata: $-
Voice Live Pro (per million token-fakturering)VL1 Tekst Inndata: $-
Hurtigbufrede inndata: $-
Utdata: $-
Lyd med Azure AI Speech – Standard Inndata: $-
Hurtigbufrede inndata: $-
Utdata: $-
Lyd med Azure AI Speech – TilpassetVL2 Utdata: $-
Opprinnelig lyd med GPT-4o Mini-Realtime Inndata: $-
Hurtigbufrede inndata: $-
Utdata: $-
Voice Live Lite (per million token-fakturering)VL1 Tekst Inndata: $-
Hurtigbufrede inndata: $-
Utdata: $-
Lyd med Azure AI Speech – Standard Inndata: $-
Hurtigbufrede inndata: $-
Utdata: $-
Lyd med Azure AI Speech – TilpassetVL2 Utdata: $-
Opprinnelig lyd med Phi-MM Inndata: $-
Hurtigbufrede inndata: $-
Tale til tekst
(fakturering per sekund)
Standard transkripsjon Transkripsjon i sanntid: $- per time
Rask transkripsjon: $- per time9
Partitranskripsjon: $- per time1
Egendefinert transkripsjon Transkripsjon i sanntid: $- per time
Partitranskripsjon: $- per time1
Drifting av endepunkt: $- per modell per time
Tilpasset taleopplæring5: $- per datatime
Forbedrede tilleggsfunksjoner:
  • Kontinuerlig språkidentifikasjon
  • Dagsredisering
  • Uttalevurdering (prosodi, grammatikk, ordforråd, emne)
Sanntid: $- per time per funksjon
Parti (kontinuerlig språkidentifikasjon, gjentakelse): inkludert i standard/egendefinert (ingen ekstra kostnad)
Samtaletranskripsjon med flerkanalslyd TESTVERSJON $- per time2
Taleoversettelse
(fakturering per sekund)
Taleoversettelse i sanntid $- per time med lyd3
Live Interpreter Input audio: $- per time med lyd
Output text: $- per 1 mill. tegn
Output audio (Standard voice): $- per audio hourLI
Output audio (Custom voice): $- per audio hourLI
Videooversettelse Inndatavideo: $- per time
Utdatavideo (standard stemme): $- per time
Utdatavideo (personlig stemme): $- per time
Tekst til tale8 Standardstemme Nevral (sanntid og bunke): $- per 1 mill. tegn
Nevral HD (sanntid og bunke)4: $- per 1 mill. tegn
Custom Voice Profesjonell stemme:
Syntese (sanntid og bunke): $- per 1M tegn
Syntese (nevral HD sanntid og parti): $- per 1 million tegn
Opplæring av talemodell: $- per datatime, opptil $- per opplæring
Drifting av endepunkt: $- per modell per time
Personlig tale6:
Syntese (sanntid og bunke): $- per 1M tegn
Taleoppretting: gratis
Taleprofillagring: $- per 1000 taleprofiler per måned
Forbedret tilleggsfunksjon: avatar Standard:
Interaktiv avatar (sanntid): $- per minutt
Interaktiv 4K-avatar (sanntid): $- per minutt
Avatarvideo (bunke): $- per minutt
4K-avatarvideo (parti): $- per minutt
Tilpasset:
Opplæring av avatarmodeller: $- per datatime
Interaktiv avatar (sanntid): $- per minutt
Interaktiv 4K-avatar (sanntid): $- per minutt
Avatarvideo (bunke): $- per minutt
4K-avatarvideo (parti): $- per minutt
Endepunktdrifting: $- per modell per time
Talergjenkjenning
(per transaksjonsfakturering)
Talerverifisering7 $- per 1,000 transaksjoner
Taleridentifisering7 $- per 1,000 transaksjoner
Taleprofillagring $- for 1,000 stemmeprofiler (10,000 gratis stemmeprofiler per måned)
Speech-to-Text pricing details and features by tier

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

Tale til teksttimer måles som timene med lyd som sendes til tjenesten, fakturert i andre intervaller.

1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.

2Dette gjenspeiler priser for offentlig forhåndsvisning.

3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.

4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.

5Tilpasset taleopplæring gjelder når du tilpasser en basismodell utgitt på eller etter 1. oktober 2023.

6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.

7Speaker Recognition is a limited access feature with a need to apply for access.

8Tekst til tale: bruk av talesyntetisering faktureres per tegn. Avataren faktureres per sekund. Opplæring og modelldrifting faktureres per sekund.

9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.

VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.

VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.

LIThis price includes text output

Forpliktelsesnivåer – Azure – standard

Kategori Funksjoner Pris (per måned) Overforbruk
Tale til tekst Standard $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tilpasset $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Forbedrede tilleggsfunksjoner:2
  • Kontinuerlig språkidentifikasjon
  • Dagsredisering
  • Uttalevurdering (prosodi, grammatikk, ordforråd, emne)
$- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tekst til tale Nevral1 $- for 80 millioner tegn $- per 1 millioner tegn
$- for 400 millioner tegn $- per 1 millioner tegn
$- for 2,000 millioner tegn $- per 1 millioner tegn

1Dette inkluderer både sanntidssyntese og bunkesyntese med forhåndsbygde nevrale stemmer som ikke er HD eller AOAI. HD-stemmer, AOAI-stemmer, egendefinert nevralstemme og personlig stemme er ikke inkludert.

2Kun tale til tekst i sanntid, tilleggsfunksjoner for kontinuerlig språkidentifisering og diarisering inkludert med satsvis tale til tekst.

Forpliktelsesnivåer – tilkoblet beholder

Kategori Funksjoner Pris (per måned) Overforbruk
Tale til tekst2 Standard $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tilpasset $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Forbedrede tilleggsfunksjoner:2
  • Språkidentifikasjon
  • Dagsredisering
$- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tekst til tale Nevral1 $- for 80 millioner tegn $- per 1 millioner tegn
$- for 400 millioner tegn $- per 1 millioner tegn
$- for 2,000 millioner tegn $- per 1 millioner tegn

1Dette inkluderer sanntidssyntese med forhåndsbygde nevrale stemmer som ikke er HD eller AOAI. HD-stemmer, AOAI-stemmer og egendefinerte stemmer (både profesjonelle og personlige stemmer) er ikke inkludert. Bunkesyntese er ikke inkludert.

2Priser gjelder for tilfeller av sanntids- og bunkebruk. Det finnes ingen separate satsvise priser for beholdere.

See the documentation for information on Commitment tiers.

Forpliktelsesnivåer – frakoblet beholder

Sign up to access speech in disconnected containers, or learn more

Kategori Funksjoner Pris (per år) Maksimal bruk (per år) Forventet bruk (per måned)
Tale til tekst2 Standard $-
$-
Registrer deg for å få tilgang
Finn ut mer
120 000 timer
600 000 timer
10 000 timer
50 000 timer
Tilpasset $-
$-
Registrer deg for å få tilgang
Finn ut mer
120 000 timer
600 000 timer
10 000 timer
50 000 timer
Forbedrede tilleggsfunksjoner:
  • Språkidentifikasjon
  • Dagsredisering
$-
$-
120 000 timer
600 000 timer
10 000 timer
50 000 timer
Tekst til tale Nevral1 $-
$-
Registrer deg for å få tilgang
Finn ut mer
4,8 milliarder tegn
24 milliarder tegn
400 millioner tegn
2 milliarder tegn

1Dette inkluderer sanntidssyntese med forhåndsbygde nevrale stemmer som ikke er HD eller AOAI. HD-stemmer, AOAI-stemmer og egendefinerte stemmer (både profesjonelle og personlige stemmer) er ikke inkludert. Bunkesyntese er ikke inkludert.

2Priser gjelder for tilfeller av sanntids- og bunkebruk. Det finnes ingen separate satsvise priser for beholdere.

Disse funksjonene avskrives og er bare tilgjengelige for eksisterende kunder å bruke. Kontroller detaljer og finn ut hvordan du overfører til nye funksjoner.

Forekomst Kategori Funksjoner Pris
Gratis - Nett/beholder
1 samtidig forespørsel
Tekst til tale Standard 5 million tegn gratis per måned
Tilpasset 5 million tegn gratis per måned
Drifting av endepunkt: 1 modell gratis per måned
Standard – nett/beholder
100 samtidige forespørsler for basismodell
20 samtidige forespørsler for egendefinert modell
Tekst til tale Standard $- per 1 mill. tegn
Tilpasset $- per 1 mill. tegn
Drifting av endepunkt: $- per modell per time

Alternativer for Azure-priser og -kjøp

Få direkte kontakt med oss

Få en gjennomgang av Azure-priser. Forstå prisingen for skyløsningen din, lær om kostnadsoptimalisering og be om et egendefinert forslag.

Snakk med en selger

Se måter å kjøpe på

Kjøp Azure-tjenester via Azure-nettstedet, en Microsoft-representant eller en Azure-partner.

Se nærmere på alternativene dine

Flere ressurser

Azure AI Speech

Les mer om Azure AI Speech funksjoner og evner.

Priskalkulator

Beregn de forventede månedlige kostnadene ved å bruke en hvilken som helst kombinasjon av Azure-produkter.

Dokumentasjon

Se gjennom tekniske opplæringer, videoer og flere Azure AI Speech ressurser.

    • For Tale til tekst og taleoversettelse faktureres bruken i intervaller på ett sekund.
    • For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
    • For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
    • For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
    • For tekst-til-tale-avatar faktureres bruken per sekund.
    • For Tale til tekst og Tekst til tale (inkludert Avatar) faktureres endepunktdrifting for egendefinerte modeller per sekund per modell.
  • Ved hjelp av taletjenesten kan brukere tilpasse grunnmodeller basert på sine egne akustikk- og språkdata, og dermed få egendefinerte talemodeller som kan brukes både i tale til tekst og taleoversettelse.

  • Språkmodellen er en sannsynlighetsfordeling over sekvenser av ord. Språkmodellen lar systemet velge mellom sekvenser av ord som høres nesten like ut, basert på sannsynligheten for selve ordsekvensene. Eksempler (på engelsk): “recognize speech” og “wreck a nice beach” høres likt ut, men fordi det er mye mer sannsynlig at det første utsagnet forekommer, vil det tildeles en høyere poengsum av språkmodellen. Hvis du forventer at talespørringer til ditt program vil inneholde bestemte ord, for eksempel produktnavn eller en sjargong som sjelden forekommer i vanlig tale, kan du sannsynligvis forbedre ytelsen ved å tilpasse språkmodellen. Hvis du for eksempel bygger en app som søker i MSDN ved hjelp av stemmen, er det sannsynlig at uttrykk som “objektorientert” eller “navneområde” eller “punktum net” forekommer oftere enn i vanlige taleprogrammer. Når språkmodellen tilpasses, kan systemet lære dette.

  • Den akustiske modellen er en klassifiserer, som merker korte lydfragmenter som ett av flere fonemer, eller lydenheter, i hvert språk. Disse fonemene kan deretter slås sammen for å danne ord. Det engelske ordet “speech” består for eksempel av fire fonemer, “s p iy ch”. Disse klassifiseringene utføres inntil 100 ganger per sekund. Hvis den akustiske modellen tilpasses, kan systemet lære å gjøre en bedre jobb med å gjenkjenne tale i atypiske miljøer. Hvis du for eksempel har en app som er laget for å brukes av arbeidere i et varehus eller en fabrikk, kan en tilpasset akustisk modell føre til at tale gjenkjennes mer presist i nærheten av den støyen man finner i disse miljøene.

  • Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.

  • Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.

    • Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
    • It is charged as standard Speech to Text, example:
      For evaluation of 8 seconds of speech, you will be charged around $-

Snakk med en selger for å få en gjennomgang av Azure-prisene. Forstå prisene for skyløsningen din.

Få gratis skytjenester og $200 i kredit til å utforske Azure i 30 dager.

Legg til estimat. Trykk «v» for å vise på kalkulator
Kan vi hjelpe deg?