Samlede taletjenester for tale til tekst, tekst til tale og taleoversettelse
Den enhetlige taletjenesten har mange former for talegjenkjenning og generering, inkludert taletranskripsjon, tekst til tale og taleoversettelse. Speech-tjenesten leverer mange former for talegjenkjenning og -generering, inkludert taletranskripsjon, tekst til tale, taleoversettelse og talergjenkjenning.
Se nærmere på prisalternativene
Legg til filtre for å tilpasse prisalternativene til dine behov.
Prisene er bare estimater, og er ikke ment som faktiske pristilbud. De faktiske prisene kan variere avhengig av avtaletypen, som er angitt med Microsoft, kjøpsdatoen og valutakursen. Prisene beregnes basert på amerikanske dollar, og konverteres ved hjelp av London-spotkurser registrert to virkedager før den siste virkedagen i utgangen av forrige måned. Hvis de to virkedagene før slutten av måneden faller på en helligdag i de største markedene, er prissettingsdagen vanligvis dagen umiddelbart før de to virkedagene. Denne satsen gjelder for alle transaksjoner i løpet av den kommende måneden. Logg på priskalkulatoren for Azure for å se priser basert på gjeldende program/tilbud med Microsoft. Kontakt en Azure-salgsspesialist for mer informasjon om priser, eller for å be om et pristilbud. Se vanlige spørsmål om Azure-priser.
Myndighetene i USA er kvalifisert for å kjøpe Azure Government-tjenester fra en lisensløsningsleverandør uten forhåndskostnader, eller direkte via et forbruksbetalt nettabonnement.
Viktig – Prisen i brasilianske real er bare for referanse. Dette er ikke en internasjonal transaksjon, og den endelige prisen avhenger av vekslingskurser og inkludering av IOF-avgifter. Det blir ikke utstedt noen eNF.
Myndighetene i USA er kvalifisert for å kjøpe Azure Government-tjenester fra en lisensløsningsleverandør uten forhåndskostnader, eller direkte via et forbruksbetalt nettabonnement.
Viktig – Prisen i brasilianske real er bare for referanse. Dette er ikke en internasjonal transaksjon, og den endelige prisen avhenger av vekslingskurser og inkludering av IOF-avgifter. Det blir ikke utstedt noen eNF.
Gratis (F0)
| Kategori | Funksjoner | Pris | 
|---|---|---|
| Tale til tekst (fakturering per sekund)  | 
                        Standard | 5 timer lyd gratis per måned3 | 
| Tilpasset | 
                            5 timer lyd gratis per måned3 Drifting av endepunkt: 1 modell gratis per måned1  | 
                    |
| Samtaletranskripsjon med flerkanalslyd TESTVERSJON | 5 timer lyd gratis per måned | |
| Tekst til tale (fakturering per tegn)  | 
                        Nevral | 0.5 million tegn gratis per måned | 
| Taleoversettelse (fakturering per sekund)  | 
                        Standard | 5 timer lyd gratis per måned | 
| Talergjenkjenning (per transaksjonsfakturering)  | 
                        Talerverifisering2 | 10,000 gratis transaksjoner per måned | 
| Taleridentifisering2 | 10,000 gratis transaksjoner per måned | |
| Taleprofillagring | 10,000 gratis transaksjoner per måned | 
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
1Ubrukte modeller blir automatisk avviklet etter syv dager.
2Speaker Recognition is a limited access feature with a need to apply for access.
3Gratis lydtimer for tale til tekst deles mellom Standard og Custom. Batch støttes ikke.
Bruksbasert betaling: betal bare for det du bruker.
| Kategori | Pris | |
|---|---|---|
| Voice Live Pro (per m-tokenfakturering)VL1 | Tekst | 
                            Inndata: $- Hurtigbufrede inndata: $- Utdata: $-  | 
                    
| Lyd med Azure AI Speech – Standard | 
                            Inndata: $- Hurtigbufrede inndata: $- Utdata: $-  | 
                    |
| Lyd med Azure AI Speech – TilpassetVL2 | 
                            Utdata: $- | 
                    |
| Opprinnelig lyd med GPT-4o-Realtime | 
                            Inndata: $- Hurtigbufrede inndata: $- Utdata: $-  | 
                    |
| Voice Live Pro (per million token-fakturering)VL1 | Tekst | 
                            Inndata: $- Hurtigbufrede inndata: $- Utdata: $-  | 
                    
| Lyd med Azure AI Speech – Standard | 
                            Inndata: $- Hurtigbufrede inndata: $- Utdata: $-  | 
                    |
| Lyd med Azure AI Speech – TilpassetVL2 | 
                            Utdata: $- | 
                    |
| Opprinnelig lyd med GPT-4o Mini-Realtime | 
                            Inndata: $- Hurtigbufrede inndata: $- Utdata: $-  | 
                    |
| Voice Live Lite (per million token-fakturering)VL1 | Tekst | 
                            Inndata: $- Hurtigbufrede inndata: $- Utdata: $-  | 
                    
| Lyd med Azure AI Speech – Standard | 
                            Inndata: $- Hurtigbufrede inndata: $- Utdata: $-  | 
                    |
| Lyd med Azure AI Speech – TilpassetVL2 | 
                            Utdata: $- | 
                    |
| Opprinnelig lyd med Phi-MM | 
                            Inndata: $- Hurtigbufrede inndata: $-  | 
                    |
| Tale til tekst (fakturering per sekund)  | 
                        Standard transkripsjon | 
                            Transkripsjon i sanntid: $- per time Rask transkripsjon: $- per time9 Partitranskripsjon: $- per time1  | 
                    
| Egendefinert transkripsjon | 
                            Transkripsjon i sanntid: $- per time  Partitranskripsjon: $- per time1 Drifting av endepunkt: $- per modell per time Tilpasset taleopplæring5: $- per datatime  | 
                    |
                            Forbedrede tilleggsfunksjoner:
                            
  | 
                        
                            Sanntid: $- per time per funksjon Parti (kontinuerlig språkidentifikasjon, gjentakelse): inkludert i standard/egendefinert (ingen ekstra kostnad)  | 
                    |
| Samtaletranskripsjon med flerkanalslyd TESTVERSJON | $- per time2 | |
| Taleoversettelse (fakturering per sekund)  | 
                        Taleoversettelse i sanntid | $- per time med lyd3 | 
| Live Interpreter | 
                            Input audio: $- per time med lyd  Output text: $- per 1 mill. tegn Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI  | 
                    |
| Videooversettelse | 
                            Inndatavideo: $- per time  Utdatavideo (standard stemme): $- per time Utdatavideo (personlig stemme): $- per time  | 
                    |
| Tekst til tale8 | Standardstemme | 
                            Nevral (sanntid og bunke): $- per 1 mill. tegn Nevral HD (sanntid og bunke)4: $- per 1 mill. tegn  | 
                    
| Custom Voice | 
                            Profesjonell stemme: 
                                Syntese (sanntid og bunke): $- per 1M tegn  
                        Syntese (nevral HD sanntid og parti): $- per 1 million tegn Opplæring av talemodell: $- per datatime, opptil $- per opplæring Drifting av endepunkt: $- per modell per time  | 
                    |
| 
                            Personlig tale6: 
                                Syntese (sanntid og bunke): $- per 1M tegn 
                        Taleoppretting: gratis Taleprofillagring: $- per 1000 taleprofiler per måned  | 
                    ||
| Forbedret tilleggsfunksjon: avatar | 
                            Standard:  
                                Interaktiv avatar (sanntid): $- per minutt  
                        Interaktiv 4K-avatar (sanntid): $- per minutt Avatarvideo (bunke): $- per minutt 4K-avatarvideo (parti): $- per minutt  | 
                    |
| 
                            Tilpasset:  
                                Opplæring av avatarmodeller: $- per datatime  
                        Interaktiv avatar (sanntid): $- per minutt Interaktiv 4K-avatar (sanntid): $- per minutt Avatarvideo (bunke): $- per minutt 4K-avatarvideo (parti): $- per minutt Endepunktdrifting: $- per modell per time  | 
                    ||
| Talergjenkjenning (per transaksjonsfakturering)  | 
                        Talerverifisering7 | $- per 1,000 transaksjoner | 
| Taleridentifisering7 | $- per 1,000 transaksjoner | |
| Taleprofillagring | $- for 1,000 stemmeprofiler (10,000 gratis stemmeprofiler per måned) | |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
Tale til teksttimer måles som timene med lyd som sendes til tjenesten, fakturert i andre intervaller.
1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.
2Dette gjenspeiler priser for offentlig forhåndsvisning.
3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.
4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.
5Tilpasset taleopplæring gjelder når du tilpasser en basismodell utgitt på eller etter 1. oktober 2023.
6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.
7Speaker Recognition is a limited access feature with a need to apply for access.
8Tekst til tale: bruk av talesyntetisering faktureres per tegn. Avataren faktureres per sekund. Opplæring og modelldrifting faktureres per sekund.
9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.
VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.
VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.
LIThis price includes text output
Forpliktelsesnivåer – Azure – standard
| Kategori | Funksjoner | Pris (per måned) | Overforbruk | 
|---|---|---|---|
| Tale til tekst | Standard | $- i 2,000 timer | $- per time | 
| $- i 10,000 timer | $- per time | ||
| $- i 50,000 timer | $- per time | ||
| Tilpasset | $- i 2,000 timer | $- per time | |
| $- i 10,000 timer | $- per time | ||
| $- i 50,000 timer | $- per time | ||
                                        Forbedrede tilleggsfunksjoner:2
                                        
  | 
                            $- i 2,000 timer | $- per time | |
| $- i 10,000 timer | $- per time | ||
| $- i 50,000 timer | $- per time | ||
| Tekst til tale | Nevral1 | $- for 80 millioner tegn | $- per 1 millioner tegn | 
| $- for 400 millioner tegn | $- per 1 millioner tegn | ||
| $- for 2,000 millioner tegn | $- per 1 millioner tegn | 
1Dette inkluderer både sanntidssyntese og bunkesyntese med forhåndsbygde nevrale stemmer som ikke er HD eller AOAI. HD-stemmer, AOAI-stemmer, egendefinert nevralstemme og personlig stemme er ikke inkludert.
2Kun tale til tekst i sanntid, tilleggsfunksjoner for kontinuerlig språkidentifisering og diarisering inkludert med satsvis tale til tekst.
Forpliktelsesnivåer – tilkoblet beholder
| Kategori | Funksjoner | Pris (per måned) | Overforbruk | 
|---|---|---|---|
| Tale til tekst2 | Standard | $- i 2,000 timer | $- per time | 
| $- i 10,000 timer | $- per time | ||
| $- i 50,000 timer | $- per time | ||
| Tilpasset | $- i 2,000 timer | $- per time | |
| $- i 10,000 timer | $- per time | ||
| $- i 50,000 timer | $- per time | ||
                                        Forbedrede tilleggsfunksjoner:2
                                        
  | 
                            $- i 2,000 timer | $- per time | |
| $- i 10,000 timer | $- per time | ||
| $- i 50,000 timer | $- per time | ||
| Tekst til tale | Nevral1 | $- for 80 millioner tegn | $- per 1 millioner tegn | 
| $- for 400 millioner tegn | $- per 1 millioner tegn | ||
| $- for 2,000 millioner tegn | $- per 1 millioner tegn | 
1Dette inkluderer sanntidssyntese med forhåndsbygde nevrale stemmer som ikke er HD eller AOAI. HD-stemmer, AOAI-stemmer og egendefinerte stemmer (både profesjonelle og personlige stemmer) er ikke inkludert. Bunkesyntese er ikke inkludert.
2Priser gjelder for tilfeller av sanntids- og bunkebruk. Det finnes ingen separate satsvise priser for beholdere.
See the documentation for information on Commitment tiers.
Forpliktelsesnivåer – frakoblet beholder
Sign up to access speech in disconnected containers, or learn more
| Kategori | Funksjoner | Pris (per år) | Maksimal bruk (per år) | Forventet bruk (per måned) | 
|---|---|---|---|---|
| Tale til tekst2 | Standard | 
                            $-
                             $- Registrer deg for å få tilgang Finn ut mer  | 
                        
                            120 000 timer
                             600 000 timer  | 
                        
                            10 000 timer
                             50 000 timer  | 
                    
| Tilpasset | 
                            $-
                             $- Registrer deg for å få tilgang Finn ut mer  | 
                        
                            120 000 timer
                             600 000 timer  | 
                        
                            10 000 timer
                             50 000 timer  | 
                    |
                            Forbedrede tilleggsfunksjoner:
                            
  | 
                        
                            $-
                             $-  | 
                        
                            120 000 timer
                             600 000 timer  | 
                        
                            10 000 timer
                             50 000 timer  | 
                    |
| Tekst til tale | Nevral1 | 
                            $-
                             $- Registrer deg for å få tilgang Finn ut mer  | 
                        
                            4,8 milliarder tegn
                             24 milliarder tegn  | 
                        
                            400 millioner tegn
                             2 milliarder tegn  | 
                    
1Dette inkluderer sanntidssyntese med forhåndsbygde nevrale stemmer som ikke er HD eller AOAI. HD-stemmer, AOAI-stemmer og egendefinerte stemmer (både profesjonelle og personlige stemmer) er ikke inkludert. Bunkesyntese er ikke inkludert.
2Priser gjelder for tilfeller av sanntids- og bunkebruk. Det finnes ingen separate satsvise priser for beholdere.
Disse funksjonene avskrives og er bare tilgjengelige for eksisterende kunder å bruke. Kontroller detaljer og finn ut hvordan du overfører til nye funksjoner.
| Forekomst | Kategori | Funksjoner | Pris | 
|---|---|---|---|
| Gratis - Nett/beholder 1 samtidig forespørsel  | 
                                        Tekst til tale | Standard | 5 million tegn gratis per måned | 
| Tilpasset | 
                                            5 million tegn gratis per måned  Drifting av endepunkt: 1 modell gratis per måned  | 
                                    ||
| Standard – nett/beholder 100 samtidige forespørsler for basismodell 20 samtidige forespørsler for egendefinert modell  | 
                                        Tekst til tale | Standard | $- per 1 mill. tegn | 
| Tilpasset | 
                                            $- per 1 mill. tegn  Drifting av endepunkt: $- per modell per time  | 
                                    
Alternativer for Azure-priser og -kjøp
                
            Få direkte kontakt med oss
Få en gjennomgang av Azure-priser. Forstå prisingen for skyløsningen din, lær om kostnadsoptimalisering og be om et egendefinert forslag.
Snakk med en selgerSe måter å kjøpe på
Kjøp Azure-tjenester via Azure-nettstedet, en Microsoft-representant eller en Azure-partner.
Se nærmere på alternativene dineFlere ressurser
Azure AI Speech
Les mer om Azure AI Speech funksjoner og evner.
Priskalkulator
Beregn de forventede månedlige kostnadene ved å bruke en hvilken som helst kombinasjon av Azure-produkter.
Dokumentasjon
Se gjennom tekniske opplæringer, videoer og flere Azure AI Speech ressurser.
Vanlige spørsmål
- 
            
            
- For Tale til tekst og taleoversettelse faktureres bruken i intervaller på ett sekund.
 - For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
 - For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
 - For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
 - For tekst-til-tale-avatar faktureres bruken per sekund.
 - For Tale til tekst og Tekst til tale (inkludert Avatar) faktureres endepunktdrifting for egendefinerte modeller per sekund per modell.
 
 - 
            
            
Ved hjelp av taletjenesten kan brukere tilpasse grunnmodeller basert på sine egne akustikk- og språkdata, og dermed få egendefinerte talemodeller som kan brukes både i tale til tekst og taleoversettelse.
 - 
            
            
Språkmodellen er en sannsynlighetsfordeling over sekvenser av ord. Språkmodellen lar systemet velge mellom sekvenser av ord som høres nesten like ut, basert på sannsynligheten for selve ordsekvensene. Eksempler (på engelsk): “recognize speech” og “wreck a nice beach” høres likt ut, men fordi det er mye mer sannsynlig at det første utsagnet forekommer, vil det tildeles en høyere poengsum av språkmodellen. Hvis du forventer at talespørringer til ditt program vil inneholde bestemte ord, for eksempel produktnavn eller en sjargong som sjelden forekommer i vanlig tale, kan du sannsynligvis forbedre ytelsen ved å tilpasse språkmodellen. Hvis du for eksempel bygger en app som søker i MSDN ved hjelp av stemmen, er det sannsynlig at uttrykk som “objektorientert” eller “navneområde” eller “punktum net” forekommer oftere enn i vanlige taleprogrammer. Når språkmodellen tilpasses, kan systemet lære dette.
 - 
            
            
Den akustiske modellen er en klassifiserer, som merker korte lydfragmenter som ett av flere fonemer, eller lydenheter, i hvert språk. Disse fonemene kan deretter slås sammen for å danne ord. Det engelske ordet “speech” består for eksempel av fire fonemer, “s p iy ch”. Disse klassifiseringene utføres inntil 100 ganger per sekund. Hvis den akustiske modellen tilpasses, kan systemet lære å gjøre en bedre jobb med å gjenkjenne tale i atypiske miljøer. Hvis du for eksempel har en app som er laget for å brukes av arbeidere i et varehus eller en fabrikk, kan en tilpasset akustisk modell føre til at tale gjenkjennes mer presist i nærheten av den støyen man finner i disse miljøene.
 - 
            
            
Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.
 - 
            
            
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
 - 
            
            
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
 - It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $- 
 
Snakk med en selger for å få en gjennomgang av Azure-prisene. Forstå prisene for skyløsningen din.
Få gratis skytjenester og $200 i kredit til å utforske Azure i 30 dager.