Priser för Cognitive Services – Speech Services

Använd intelligenta API:er för att möjliggöra syn-, språk- och sökfunktioner.

De enhetliga Speech-tjänsterna omfattar ett brett utbud funktioner för taligenkänning och talgenerering, som taltranskription, text till tal och talöversättning.

Prisinformation

Text till tal – Neural finns nu i allmänt tillgänglig version. De priser som visas är priser för allmän tillgänglighet, som börjar gälla 1 juli 2019. Till och med 30 juni 2019 får du 50 % rabatt.

Talcontainern finns nu i offentlig förhandsversion.

Instans Kategori Funktioner Pris
Kostnadsfri - Webb/Container
1 samtidig begäran1
Tal till text Standard 5 ljudtimmar utan kostnad per månad
Custom Speech 5 ljudtimmar utan kostnad per månad
Anpassad Speech Endpoint Hosting2 1 modell utan kostnad per månad
Flerkanalsljud för samtalstranskriptionFÖRHANDSVERSION 3 5 ljudtimmar utan kostnad per månad
Text till tal Standard 5 miljoner tecken utan kostnad per månad
Neural 0.5 miljoner tecken utan kostnad per månad
Custom Voice 5 miljoner tecken utan kostnad per månad
Anpassad Voice Endpoint Hosting2 1 modell utan kostnad per månad
Talöversättning Standard 5 ljudtimmar utan kostnad per månad
Standard - Webb/Container
20 samtidig begäran1
Tal till text Standard $- per ljudtimme
Custom Speech $- per ljudtimme
Anpassad Speech Endpoint Hosting $- per modell per månad
Flerkanalsljud för samtalstranskriptionFÖRHANDSVERSION 3 $- per ljudtimme4
Text till tal Standard $- per 1 miljon tecken
Neural $- per 1 miljon tecken5
Custom Voice $- per 1 miljon tecken
Anpassad Voice Endpoint Hosting $- per modell per månad
Talöversättning Standard $- per ljudtimme

1Endast de samtidiga förfrågningar som tillämpas på webbslutpunkter.

2Oanvända modeller inaktiveras automatiskt efter 7 dagar

3Flerkanalsljud för samtalstranskription rekommenderar en cirkulär mikrofonuppsättning. Du kan läsa mer i Microsoft Speech Device SDK.

4Här återges prissättningen för den offentliga förhandsversionen. Priser för den allmänt tillgängliga versionen meddelas senare.

5De priser som visas är priser för allmän tillgänglighet, som börjar gälla 1 juli 2019. Till och med 30 juni 2019 ges 50 % rabatt på Neural TTS. I dokumentationen för den neurala text till tal-funktionen står i vilka regioner funktionen är tillgänglig.

Support och serviceavtal

 • Kostnadsfri support för fakturerings- och prenumerationshantering ingår.
 • Vi garanterar att Cognitive Services på standardnivån har en tillgänglighet på minst 99,9 procent. Den kostnadsfria utvärderingsversionen omfattas inte av något serviceavtal. Läs serviceavtalet.

Vanliga frågor och svar

  • För talöversättning, tal till text och tal till text med anpassad talmodell: användningen faktureras i steg om en sekund
  • För text till tal och text till tal med anpassad rösttyp: användningen faktureras per tecken
  • För värdhantering av anpassad talmodell: användning faktureras per timme. För värdhantering av anpassad rösttyp: användning faktureras per dag.
 • Med taltjänsten kan användarna anpassa baslinjemodeller utifrån sin egna ljud- och språkdata, vilket ger anpassade talmodeller som kan användas mot både tal till text och talöversättning.

 • Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.

 • Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.

 • Microsoft Speech Services omfattar över 70 standardröster (rösttyper) på över 40 språk som hjälp för dig att omvandla din text till ljud. Allt eftersom virtuella assistenter och program med röstfunktion blir vanligare vill många företag ha en unik röst som representerar dem och som tagits fram specifikt för deras varumärkesidentitet. Om du t.ex. utvecklar en chattrobot för din kundtjänst kan du koppla den till en unik varumärkesröst som kunderna känner igen. En utvecklare som skapar programvara för bilnavigering kan aktivera text till tal med olika röster för att förbättra användarupplevelsen.

  Det är lätt att göra med Voice Studio, den anpassade röstportalen. Med hjälp av dina egna ljuddata (röstinspelningar efter manus) kan du skapa en anpassad rösttyp som sedan används i tjänsten Microsoft Text-to-Speech, och den kan enkelt kopplas till dina program med en API-slutpunkt som du själv använder.

Resurser

Uppskatta månadskostnaden för Azure-tjänster

Läs vanliga frågor om priser för Azure

Lär dig mer om Cognitive Services

Ta del av tekniska självstudiekurser, videor och fler resurser

Har lagts till i beräkningen. Tryck på ”v” för att visa på kalkylator

Lär dig och utveckla med en kredit på $200, och fortsätt utan kostnad