Gå til hovedinnhold
Azure

Priser på Azure AI Speech

Samlede taletjenester for tale til tekst, tekst til tale og taleoversettelse

Den enhetlige taletjenesten har mange former for talegjenkjenning og generering, inkludert taletranskripsjon, tekst til tale og taleoversettelse. Speech-tjenesten leverer mange former for talegjenkjenning og -generering, inkludert taletranskripsjon, tekst til tale, taleoversettelse og talergjenkjenning.

Se nærmere på prisalternativene

Legg til filtre for å tilpasse prisalternativene til dine behov.

Prisene er bare estimater, og er ikke ment som faktiske pristilbud. De faktiske prisene kan variere avhengig av avtaletypen, som er angitt med Microsoft, kjøpsdatoen og valutakursen. Prisene beregnes basert på amerikanske dollar, og konverteres ved hjelp av London-spotkurser registrert to virkedager før den siste virkedagen i utgangen av forrige måned. Hvis de to virkedagene før slutten av måneden faller på en helligdag i de største markedene, er prissettingsdagen vanligvis dagen umiddelbart før de to virkedagene. Denne satsen gjelder for alle transaksjoner i løpet av den kommende måneden. Logg på priskalkulatoren for Azure for å se priser basert på gjeldende program/tilbud med Microsoft. Kontakt en Azure-salgsspesialist for mer informasjon om priser, eller for å be om et pristilbud. Se vanlige spørsmål om Azure-priser.

Gratis (F0)

Kategori Funksjoner Pris
Tale til tekst
(fakturering per sekund)
Standard 5 timer lyd gratis per måned3
Tilpasset 5 timer lyd gratis per måned3
Drifting av endepunkt: 1 modell gratis per måned1
Samtaletranskripsjon med flerkanalslyd TESTVERSJON 5 timer lyd gratis per måned
Tekst til tale
(fakturering per tegn)
Nevral 0.5 million tegn gratis per måned
Taleoversettelse
(fakturering per sekund)
Standard 5 timer lyd gratis per måned
Talergjenkjenning
(per transaksjonsfakturering)
Talerverifisering2 10,000 gratis transaksjoner per måned
Taleridentifisering2 10,000 gratis transaksjoner per måned
Taleprofillagring 10,000 gratis transaksjoner per måned

Se dokumentasjon for informasjon om kvoter, grenser og instruksjoner om hvordan du øker samtidige forespørsler.

1Ubrukte modeller blir automatisk avviklet etter syv dager.

2Talergjenkjenning er en funksjon med begrenset tilgang som må søke om tilgang.

3Gratis lydtimer for tale til tekst deles mellom Standard og Custom. Batch støttes ikke.

Bruksbasert betaling: betal bare for det du bruker.

Kategori Pris
Tale til tekst
(fakturering per sekund)
Standard Transkripsjon i sanntid: $- per time
Rask transkripsjonForhåndsversjon: $- per time9
Partitranskripsjon: $- per time1
Tilpasset Transkripsjon i sanntid: $- per time
Partitranskripsjon: $- per time1
Drifting av endepunkt: $- per modell per time
Tilpasset taleopplæring5: $- per datatime
Forbedrede tilleggsfunksjoner:
  • Kontinuerlig språkidentifikasjon
  • Dagsredisering
  • Uttalevurdering (prosodi, grammatikk, ordforråd, emne)
Sanntid: $- per time per funksjon
Parti (kontinuerlig språkidentifikasjon, gjentakelse): inkludert i standard/egendefinert (ingen ekstra kostnad)
Samtaletranskripsjon med flerkanalslyd TESTVERSJON $- per time2
Taleoversettelse
(fakturering per sekund)
Taleoversettelse i sanntid $- per time med lyd3
VideooversettelseForhåndsversjon Parti: $- per resulterende videominutt
Innholdsredigering: $- per resulterende videominutt
Personlig tale: $- per resulterende videominutt
Tekst til tale8 Standardstemme Nevral: $- per 1 mill. tegn
Neural HD4: $- per 1 mill. tegn
Custom Voice Profesjonell stemme:
Syntese: $- per 1 mill. tegn
Opplæring av talemodell: $- per datatime, opptil $- per opplæring
Drifting av endepunkt: $- per modell per time
Personlig tale6:
Syntese: $- per 1 mill. tegn
Taleoppretting: gratis
Taleprofillagring: $- per 1000 taleprofiler per måned
Forbedret tilleggsfunksjon: avatar Standard: $- per minutt
Tilpasset:
Sanntidssyntese: $- per minutt
Bunkesyntese: $- per minutt
Endepunktdrifting: $- per modell per time
Talergjenkjenning
(per transaksjonsfakturering)
Talerverifisering7 $- per 1,000 transaksjoner
Taleridentifisering7 $- per 1,000 transaksjoner
Taleprofillagring $- for 1,000 stemmeprofiler (10,000 gratis stemmeprofiler per måned)

Se dokumentasjon for informasjon om kvoter, grenser og instruksjoner om hvordan du øker samtidige forespørsler.

Tale til teksttimer måles som timene med lyd som sendes til tjenesten, fakturert i andre intervaller.

1For å dra nytte av denne nye prissettingen for massetranskripsjon, må du bruke REST API-et for Tale til tekst V3.2 eller nyere. Se REST API-et for Tale til tekst for mer informasjon.

2Dette gjenspeiler priser for offentlig forhåndsvisning.

3Denne prisen inkluderer 1 lydinndata og -utdata, opptil 2 språk for tekstoversettelse ved hjelp av standard eller egendefinert Tale til tekst og standard Oversettelse. Hvis du vil ha egendefinerte oversettelsesspråk eller språk for mer enn 3 oversettelser, kan du se prissiden for Azure kunstig intelligens Translator Text Translation.

4Tekst-til-tale-stemmer for OpenAI er tilgjengelig gjennom to modellvarianter: Neural og NeuralHD. Mer informasjon her.

5Tilpasset taleopplæring gjelder når du tilpasser en basismodell utgitt på eller etter 1. oktober 2023.

6Personal Voice er en begrenset tilgangsfunksjon begrenset til bestemte bare forhåndsgodkjente brukstilfeller, med et behov for å søke om tilgang. Hvis du vil vite mer om tjenesten, kan du se dokumentet.

7Talergjenkjenning er en funksjon med begrenset tilgang som må søke om tilgang.

8Tekst til tale: bruk av talesyntetisering faktureres per tegn. Avataren faktureres per sekund. Opplæring og modelldrifting faktureres per sekund.

9For å bruke rask transkripsjon, må du bruke REST API-et for tale til tekst 2024-05-15-preview eller nyere. Se REST API-et for Tale til tekst for mer informasjon.

Forpliktelsesnivåer – Azure – standard

Kategori Funksjoner Pris (per måned) Overforbruk
Tale til tekst Standard $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tilpasset $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Forbedrede tilleggsfunksjoner:2
  • Kontinuerlig språkidentifikasjon
  • Dagsredisering
  • Uttalevurdering (prosodi, grammatikk, ordforråd, emne)
$- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tekst til tale Nevral1 $- for 80 millioner tegn $- per 1 millioner tegn
$- for 400 millioner tegn $- per 1 millioner tegn
$- for 2,000 millioner tegn $- per 1 millioner tegn

1Bare sanntidssyntese. Dette inkluderer ikke lang oppretting av lyd.

2Kun tale til tekst i sanntid, tilleggsfunksjoner for kontinuerlig språkidentifisering og diarisering inkludert med satsvis tale til tekst.

Forpliktelsesnivåer – tilkoblet beholder

Kategori Funksjoner Pris (per måned) Overforbruk
Tale til tekst2 Standard $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tilpasset $- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Forbedrede tilleggsfunksjoner:2
  • Språkidentifikasjon
  • Dagsredisering
$- i 2,000 timer $- per time
$- i 10,000 timer $- per time
$- i 50,000 timer $- per time
Tekst til tale Nevral1 $- for 80 millioner tegn $- per 1 millioner tegn
$- for 400 millioner tegn $- per 1 millioner tegn
$- for 2,000 millioner tegn $- per 1 millioner tegn

1Bare sanntidssyntese. Dette inkluderer ikke lang oppretting av lyd.

2Priser gjelder for tilfeller av sanntids- og bunkebruk. Det finnes ingen separate satsvise priser for beholdere.

Se dokumentasjonen for informasjon om forpliktelsesnivåer.

Forpliktelsesnivåer – frakoblet beholder

Registrer deg for å få tilgang til tale i frakoblede beholdere eller finne ut mer

Kategori Funksjoner Pris (per år) Maksimal bruk (per år) Forventet bruk (per måned)
Tale til tekst2 Standard $-
$-
Registrer deg for å få tilgang
Finn ut mer
120 000 timer
600 000 timer
10 000 timer
50 000 timer
Tilpasset $-
$-
Registrer deg for å få tilgang
Finn ut mer
120 000 timer
600 000 timer
10 000 timer
50 000 timer
Forbedrede tilleggsfunksjoner:
  • Språkidentifikasjon
  • Dagsredisering
$-
$-
120 000 timer
600 000 timer
10 000 timer
50 000 timer
Tekst til tale Nevral1 $-
$-
Registrer deg for å få tilgang
Finn ut mer
4,8 milliarder tegn
24 milliarder tegn
400 millioner tegn
2 milliarder tegn

1Bare sanntidssyntese. Dette inkluderer ikke lang oppretting av lyd.

2Priser gjelder for tilfeller av sanntids- og bunkebruk. Det finnes ingen separate satsvise priser for beholdere.

Disse funksjonene avskrives og er bare tilgjengelige for eksisterende kunder å bruke. Kontroller detaljer og finn ut hvordan du overfører til nye funksjoner.

Forekomst Kategori Funksjoner Pris
Gratis - Nett/beholder
1 samtidig forespørsel
Tekst til tale Standard 5 million tegn gratis per måned
Tilpasset 5 million tegn gratis per måned
Drifting av endepunkt: 1 modell gratis per måned
Standard – nett/beholder
100 samtidige forespørsler for basismodell
20 samtidige forespørsler for egendefinert modell
Tekst til tale Standard $- per 1 mill. tegn
Tilpasset $- per 1 mill. tegn
Drifting av endepunkt: $- per modell per time

Alternativer for Azure-priser og -kjøp

Få direkte kontakt med oss

Få en gjennomgang av Azure-priser. Forstå prisingen for skyløsningen din, lær om kostnadsoptimalisering og be om et egendefinert forslag.

Snakk med en selger

Se måter å kjøpe på

Kjøp Azure-tjenester via Azure-nettstedet, en Microsoft-representant eller en Azure-partner.

Se nærmere på alternativene dine

Flere ressurser

Azure AI Speech

Les mer om Azure AI Speech funksjoner og evner.

Priskalkulator

Beregn de forventede månedlige kostnadene ved å bruke en hvilken som helst kombinasjon av Azure-produkter.

Dokumentasjon

Se gjennom tekniske opplæringer, videoer og flere Azure AI Speech ressurser.

    • For Tale til tekst og taleoversettelse faktureres bruken i intervaller på ett sekund.
    • For tekst-til-tale: bruk faktureres per tegn. Kontroller definisjonen av tegn i prisnotatet.
    • For egendefinert nevralstemmevert: Bruk faktureres per endepunkt per sekund. Sjekk detaljer i prisnotat.
    • For personlig lagring av taleprofil: bruk faktureres per taleprofil per dag. Sjekk detaljer i prisnotat.
    • For tekst-til-tale-avatar faktureres bruken per sekund.
    • For Tale til tekst og Tekst til tale (inkludert Avatar) faktureres endepunktdrifting for egendefinerte modeller per sekund per modell.
  • Ved hjelp av taletjenesten kan brukere tilpasse grunnmodeller basert på sine egne akustikk- og språkdata, og dermed få egendefinerte talemodeller som kan brukes både i tale til tekst og taleoversettelse.

  • Språkmodellen er en sannsynlighetsfordeling over sekvenser av ord. Språkmodellen lar systemet velge mellom sekvenser av ord som høres nesten like ut, basert på sannsynligheten for selve ordsekvensene. Eksempler (på engelsk): “recognize speech” og “wreck a nice beach” høres likt ut, men fordi det er mye mer sannsynlig at det første utsagnet forekommer, vil det tildeles en høyere poengsum av språkmodellen. Hvis du forventer at talespørringer til ditt program vil inneholde bestemte ord, for eksempel produktnavn eller en sjargong som sjelden forekommer i vanlig tale, kan du sannsynligvis forbedre ytelsen ved å tilpasse språkmodellen. Hvis du for eksempel bygger en app som søker i MSDN ved hjelp av stemmen, er det sannsynlig at uttrykk som “objektorientert” eller “navneområde” eller “punktum net” forekommer oftere enn i vanlige taleprogrammer. Når språkmodellen tilpasses, kan systemet lære dette.

  • Den akustiske modellen er en klassifiserer, som merker korte lydfragmenter som ett av flere fonemer, eller lydenheter, i hvert språk. Disse fonemene kan deretter slås sammen for å danne ord. Det engelske ordet “speech” består for eksempel av fire fonemer, “s p iy ch”. Disse klassifiseringene utføres inntil 100 ganger per sekund. Hvis den akustiske modellen tilpasses, kan systemet lære å gjøre en bedre jobb med å gjenkjenne tale i atypiske miljøer. Hvis du for eksempel har en app som er laget for å brukes av arbeidere i et varehus eller en fabrikk, kan en tilpasset akustisk modell føre til at tale gjenkjennes mer presist i nærheten av den støyen man finner i disse miljøene.

  • Taletjeneste tilbyr et bredt spekter av TTS (tekst-til-tale)-stemmetyper, men egendefinert nevralstemme lar deg bygge din egendefinerte stemme som passer dine behov og ditt varemerke. Les bloggen for mer informasjon.

  • Språkgjenkjenning lar deg identifisere en veksling i talespråk og transkribere tale i henhold til det. Dette kan brukes i situasjoner der språket i lyden er ukjent, eller når taler(e) kan snakke flere språk. Identifisering av ett språk er tilgjengelig uten ekstra kostnad. Kontinuerlig språkgjenkjenning er en forbedret tilleggsfunksjon. Gå til dokumenter for å lære mer.

    • Uttalevurdering evaluerer uttale og gir talere tilbakemelding angående nøyaktigheten og flyten av språket. Med uttalevurdering kan de som lærer et nytt språk øve, få umiddelbar tilbakemelding og forbedre uttalen, slik at de kan snakke og kommunisere med selvsikkerhet. Lærere kan bruke funksjonen til å evaluere uttalen til flere elever i sanntid. Gå til dokumenter for å finne ut mer.
    • Den belastes som standard Tale til tekst, for eksempel:
      Du blir belastet rundt $-
    for evaluering av åtte sekunder med tale

Snakk med en selger for å få en gjennomgang av Azure-prisene. Forstå prisene for skyløsningen din.

Få gratis skytjenester og $200 i kredit til å utforske Azure i 30 dager.

Legg til estimat. Trykk «v» for å vise på kalkulator
Kan vi hjelpe deg?