Unified Speech Services för tal-till-text, text-till-tal och talöversättning
De enhetliga Speech-tjänsterna omfattar ett brett utbud funktioner för taligenkänning och talgenerering, som taltranskription, text till tal och talöversättning. Speech-tjänsterna omfattar ett brett utbud funktioner för taligenkänning och talgenerering, som taltranskription, text till tal, talöversättning och talarigenkänning.
Utforska prisalternativ
Använd filter för att anpassa prisalternativ efter dina behov.
Priserna är endast uppskattningar och är inte avsedda som faktiska priscitat. Den faktiska prissättningen kan variera beroende på vilken typ av avtal som ingås med Microsoft, inköpsdatum och växelkursen. Priserna beräknas baserat på amerikanska dollar och konverteras med London stängningskurs som registreras under de två arbetsdagarna före den sista arbetsdagen i föregående månads slut. Om de två arbetsdagarna före slutet av månaden infaller på en helgdag på större marknader är prisinställningsdagen vanligtvis dagen omedelbart före de två arbetsdagarna. Den här avgiften gäller för alla transaktioner under den kommande månaden. Logga in på priskalkylatorn för Azure för att se priser baserat på ditt aktuella program/erbjudande hos Microsoft. Kontakta en Azure försäljningsspecialist för mer information om prissättning eller för att begära en prisoffert. Se vanliga frågor och svar om Prissättning för Azure.
Amerikanska myndigheter kan köpa Azure Government-tjänster från en licenslösningsleverantör utan finansiellt åtagande eller direkt via en onlineprenumeration med användningsbaserad betalning.
Viktigt – Priset i R$ är bara som referens. Detta är en internationell transaktion och det slutgiltiga priset beror på växelkurser och IOF-skatter. En eNF kommer inte att utfärdas.
Amerikanska myndigheter kan köpa Azure Government-tjänster från en licenslösningsleverantör utan finansiellt åtagande eller direkt via en onlineprenumeration med användningsbaserad betalning.
Viktigt – Priset i R$ är bara som referens. Detta är en internationell transaktion och det slutgiltiga priset beror på växelkurser och IOF-skatter. En eNF kommer inte att utfärdas.
Kostnadsfri (F0)
| Kategori | Funktioner | Pris |
|---|---|---|
| Tal till text (fakturering per sekund) |
Standard | 5 ljudtimmar utan kostnad per månad3 |
| Anpassat |
5 ljudtimmar utan kostnad per månad3 Värdhantering med slutpunkt: 1 modell utan kostnad per månad1 |
|
| Flerkanalsljud för samtalstranskription FÖRHANDSVERSION | 5 ljudtimmar utan kostnad per månad | |
| Text till tal (fakturering per tecken) |
Neural | 0.5 million tecken utan kostnad per månad |
| Talöversättning (fakturering per sekund) |
Standard | 5 ljudtimmar utan kostnad per månad |
| Talarigenkänning (fakturering per transaktion) |
Talarverifiering2 | 10,000 kostnadsfria transaktioner per månad |
| Talaridentifiering2 | 10,000 kostnadsfria transaktioner per månad | |
| Lagring av röstprofil | 10,000 kostnadsfria transaktioner per månad |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
1Oanvända modeller inaktiveras automatiskt efter 7 dagar
2Speaker Recognition is a limited access feature with a need to apply for access.
3Kostnadsfria ljudtimmar för tal till text delas mellan Standard och Custom. Batch stöds inte.
Betala per användning: betala endast för det du använder.
| Kategori | Pris | |
|---|---|---|
| Voice Live Pro (fakturering per m-token)VL1 | Text |
Indata: $- Cachelagrade indata: $- Utdata: $- |
| Ljud med Azure AI Speech – Standard |
Indata: $- Cachelagrade indata: $- Utdata: $- |
|
| Ljud med Azure AI Speech – anpassatVL2 |
Utdata: $- |
|
| Internt ljud med GPT-4o-Realtime |
Indata: $- Cachelagrade indata: $- Utdata: $- |
|
| Voice Live Basic (fakturering per m token)VL1 | Text |
Indata: $- Cachelagrade indata: $- Utdata: $- |
| Ljud med Azure AI Speech – Standard |
Indata: $- Cachelagrade indata: $- Utdata: $- |
|
| Ljud med Azure AI Speech – anpassatVL2 |
Utdata: $- |
|
| Ursprungligt ljud med GPT-4o Mini-Realtime |
Indata: $- Cachelagrade indata: $- Utdata: $- |
|
| Voice Live Lite (fakturering per m token)VL1 | Text |
Indata: $- Cachelagrade indata: $- Utdata: $- |
| Ljud med Azure AI Speech – Standard |
Indata: $- Cachelagrade indata: $- Utdata: $- |
|
| Ljud med Azure AI Speech – anpassatVL2 |
Utdata: $- |
|
| Internt ljud med Phi-MM |
Indata: $- Cachelagrade indata: $- |
|
| Tal till text (fakturering per sekund) |
Standardtranskription |
Transkription i realtid: $- per timme Snabb transkription: $- per timme9 Batch-transkription: $- per timme1 |
| Anpassad transkription |
Transkription i realtid: $- per timme Batch-transkription: $- per timme1 Värdhantering med slutpunkt: $- per modell och timme Anpassat tal-träning5: $- per beräkningstimme |
|
Förbättrade tilläggsfunktioner:
|
Realtid: $- per timme per funktion Batch (kontinuerlig språkidentifiering, diarisering): Ingår i Standard/Anpassad (ingen extra kostnad) |
|
| Flerkanalsljud för samtalstranskription FÖRHANDSVERSION | $- per timme2 | |
| Talöversättning (fakturering per sekund) |
Talöversättning i realtid | $- per ljudtimme3 |
| Live Interpreter |
Input audio: $- per ljudtimme Output text: $- per 1 miljon tecken Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
| Videoöversättning |
Indatavideo: $- per timme Utdatavideo (standardröst): $- per timme Utdatavideo (personlig röst): $- per timme |
|
| Text till tal8 | Standardröst |
Neural (realtid och batch): $- per 1 miljon tecken Neural HD (realtid och batch)4: $- per 1 miljon tecken |
| Custom Voice |
Professionell röst:
Syntes (realtid och batch): $- per 1 miljon tecken
Syntet (neural HD i realtid och batch): $- per 1 miljon tecken Träning av röstmodell: $- per beräkningstimme, upp till $- per träning Värdhantering med slutpunkt: $- per modell och timme |
|
|
Personlig röst6:
Syntes (realtid och batch): $- per 1 miljon tecken
Röstskapande: Kostnadsfritt Lagring av röstprofil: $- per 1 000 röstprofiler per månad |
||
| Förbättrade tilläggsfunktioner: Avatar |
Standard:
Interaktiv avatar (realtid): $- per minut
Interaktiv 4K-avatar (realtid): $- per minut Avatarvideo (batch): $- per minut 4K avatarvideo (batch): $- per minut |
|
|
Anpassat:
Träning av avatarmodell: $- per beräkningstimme
Interaktiv avatar (realtid): $- per minut Interaktiv 4K-avatar (realtid): $- per minut Avatarvideo (batch): $- per minut 4K avatarvideo (batch): $- per minut Slutpunktsvärd: $- per modell och timme |
||
| Talarigenkänning (fakturering per transaktion) |
Talarverifiering7 | $- per 1,000 transaktioner |
| Talaridentifiering7 | $- per 1,000 transaktioner | |
| Lagring av röstprofil | $- per 1,000 röstprofiler (10,000 röstprofiler per månad) | |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
Tal till text-timmar mäts som timmar ljud som skickas till tjänsten, faktureras i andra steg.
1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.
2Detta återspeglar prissättningen för den offentliga förhandsversionen.
3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.
4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.
5Anpassad talträning gäller när du anpassar en basmodell som släpps den 1 oktober 2023 eller senare.
6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.
7Speaker Recognition is a limited access feature with a need to apply for access.
8Text till tal: talsyntesanvändning faktureras per tecken. Avataren faktureras per sekund. Utbildnings- och modellvärdtjänster faktureras per sekund.
9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.
VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.
VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.
LIThis price includes text output
Åtagandenivåer – i Azure – Standard
| Kategori | Funktioner | Pris (per månad) | Överförbrukning |
|---|---|---|---|
| Tal till text | Standard | $- för 2,000 timmar | $- per timme |
| $- för 10,000 timmar | $- per timme | ||
| $- för 50,000 timmar | $- per timme | ||
| Anpassat | $- för 2,000 timmar | $- per timme | |
| $- för 10,000 timmar | $- per timme | ||
| $- för 50,000 timmar | $- per timme | ||
Förbättrade tilläggsfunktioner:2
|
$- för 2,000 timmar | $- per timme | |
| $- för 10,000 timmar | $- per timme | ||
| $- för 50,000 timmar | $- per timme | ||
| Text till tal | Neural1 | $- för 80M tecken | $- per 1M tecken |
| $- för 400M tecken | $- per 1M tecken | ||
| $- för 2,000M tecken | $- per 1M tecken |
1Detta omfattar både realtidssyntes och batchsyntes med fördefinierade icke-HD- och icke-AOAI-neurala röster. HD-röster, AOAI-röster, anpassad neural röst och personlig röst ingår inte.
2Endast tal till text i realtid, tilläggsfunktioner för kontinuerlig språkidentifiering och diarisering som ingår i batchtal till text.
Anslutningscontainer för – åtagandenivåer
| Kategori | Funktioner | Pris (per månad) | Överförbrukning |
|---|---|---|---|
| Tal till text2 | Standard | $- för 2,000 timmar | $- per timme |
| $- för 10,000 timmar | $- per timme | ||
| $- för 50,000 timmar | $- per timme | ||
| Anpassat | $- för 2,000 timmar | $- per timme | |
| $- för 10,000 timmar | $- per timme | ||
| $- för 50,000 timmar | $- per timme | ||
Förbättrade tilläggsfunktioner:2
|
$- för 2,000 timmar | $- per timme | |
| $- för 10,000 timmar | $- per timme | ||
| $- för 50,000 timmar | $- per timme | ||
| Text till tal | Neural1 | $- för 80M tecken | $- per 1M tecken |
| $- för 400M tecken | $- per 1M tecken | ||
| $- för 2,000M tecken | $- per 1M tecken |
1Detta omfattar realtidssyntes med fördefinierade icke-HD- och icke-AOAI-neurala röster. HD-röster, AOAI-röster och anpassade röster (både professionella och personliga röster) ingår inte. Batchsyntes ingår inte.
2Prissättningen gäller för användningsfall i realtid och batchar. Det finns inga separata batchpriser för containrar.
See the documentation for information on Commitment tiers.
Behållare för – frånkopplade åtagandenivåer
Sign up to access speech in disconnected containers, or learn more
| Kategori | Funktioner | Pris (per år) | Maximal användning (per år) | Beräknad användning (per månad) |
|---|---|---|---|---|
| Tal till text2 | Standard |
$-
$- Registrera dig för att få åtkomst Läs mer |
120 000 timmar
600 000 timmar |
10 000 timmar
50 000 timmar |
| Anpassat |
$-
$- Registrera dig för att få åtkomst Läs mer |
120 000 timmar
600 000 timmar |
10 000 timmar
50 000 timmar |
|
Förbättrade tilläggsfunktioner:
|
$-
$- |
120 000 timmar
600 000 timmar |
10 000 timmar
50 000 timmar |
|
| Text till tal | Neural1 |
$-
$- Registrera dig för att få åtkomst Läs mer |
4,8B tecken
24B tecken |
400 miljoner tecken
2 000 miljoner tecken |
1Detta omfattar realtidssyntes med fördefinierade icke-HD- och icke-AOAI-neurala röster. HD-röster, AOAI-röster och anpassade röster (både professionella och personliga röster) ingår inte. Batchsyntes ingår inte.
2Prissättningen gäller för användningsfall i realtid och batchar. Det finns inga separata batchpriser för containrar.
Dessa funktioner är inaktuella och är endast tillgängliga för befintliga kunder att använda. Kontrollera information och lär dig hur du migrerar till nya funktioner.
| Instans | Kategori | Funktioner | Pris |
|---|---|---|---|
| Kostnadsfri - Webb/Container 1 samtidig begäran |
Text till tal | Standard | 5 million tecken utan kostnad per månad |
| Anpassat |
5 million tecken utan kostnad per månad Värdhantering med slutpunkt: 1 modell utan kostnad per månad |
||
| Standard – webb/container 100 samtidiga begäranden för basmodellen 20 samtidiga begäranden för den anpassade modellen |
Text till tal | Standard | $- per 1 miljon tecken |
| Anpassat |
$- per 1 miljon tecken Värdhantering med slutpunkt: $- per modell och timme |
Priser och köpalternativ för Azure
Kontakta oss direkt
Få en genomgång av priser för Azure. Förstå prissättningen för din molnlösning, läs mer om kostnadsoptimering och begär ett anpassat förslag.
Prata med en säljareSe köpalternativ
Köp Azure-tjänster via Azure-webbplatsen, din Microsoft-representant eller en Azure-partner.
Utforska dina alternativYtterligare resurser
Azure AI Speech
Läs mer om funktioner och egenskaper för Azure AI Speech.
Priskalkylator
Beräkna din förväntade månadskostnad för användning av valfri kombination av Azure-produkter.
Dokumentation
Ta del av tekniska självstudiekurser, videor och fler resurser för Azure AI Speech.
Vanliga frågor och svar
-
- För Tal till text och Talöversättning debiteras användningen i steg om en sekund.
- For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
- For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
- For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
- För Text till tal avatar debiteras användningen per sekund.
- För Tal till text och Text till tal (inklusive Avatar) debiteras slutpunktsvärd för anpassade modeller per sekund per modell.
-
Med taltjänsten kan användarna anpassa baslinjemodeller utifrån sin egna ljud- och språkdata, vilket ger anpassade talmodeller som kan användas mot både tal till text och talöversättning.
-
Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.
-
Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.
-
Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
Prata med en säljare för att få en genomgång av Azure-priser. Förstå prissättningen av din molnlösning.
Få kostnadsfria molntjänster och en kredit på $200 för att utforska Azure i 30 dagar.