Priser för Cognitive Services – Custom Speech Service FÖRHANDSVERSION

Använd intelligenta API:er för att möjliggöra syn-, tal, språk- och kunskapsfunktioner

Med Custom Speech Service kan du skapa anpassade modeller för taligenkänning och distribuera dem till en tal-till-text-slutpunkt som är skräddarsydd för ditt program. Med Custom Speech Service kan du anpassa språkmodellen för taligenkänningen så att den lär sig programmets vokabulär och användarnas samtalsstil. Du kan även anpassa taligenkänningens akustiska modeller för att bättre matcha programmets förväntade miljö och användarpopulationen.

Prisinformation

Modellanpassning är kostnadsfri.

Kostnadsfri S2
Modelldistributioner 1 modell $-/modell/månad
Modellanpassning 3 timmar/månad Obegränsat
Precisionstester 2 timmar/månad 2 timmar utan kostnad och därefter $-/timme
Skalbarhet Gäller inte $-/enhet/dag där varje enhet garanterar fem samtidiga begäranden
Ingen spårning Gäller inte $-/modell/månad
Pris per begäran 2 timmar/månad 2 timmar utan kostnad och därefter $-/timme

Support och serviceavtal

 • Kostnadsfri support för fakturerings- och prenumerationshantering ingår.
 • Behöver du teknisk support för förhandstjänster? Använd våra forum.
 • Vi garanterar att Cognitive Services på standardnivån har en tillgänglighet på minst 99,9 procent. Den kostnadsfria nivån omfattas inte av något serviceavtal. Läs serviceavtalet.
 • Inget serviceavtal (SLA) under förhandsperioden. Läs mer.

Vanliga frågor och svar

Custom Speech Service

 • Nivå 1 kan bearbeta upp till fyra ljudstycken (dvs. fyra avskrifter) samtidigt och svarar i realtid. Om användaren skickar fler än fyra samtidiga ljudstycken avvisas var och en av dem och skickas tillbaka med en felkod som anger att det finns för många samtidiga igenkänningar. Samma sak gäller nivå 2 där 12 samtidiga avskrifter kan bearbetas. På den kostnadsfria nivån erbjuds en samtidig avskrift. Det förutsätts att ljudet överförs i realtid. Om ljudet överförs snabbare förutsätts begäran som pågående i samtidighetssyfte tills ljudet har upphört (trots att igenkänningsresultatet kan komma att skickas tillbaka senare).

  Obs! Om en högre grad av samtidighet krävs ber vi dig kontakta oss.

 • Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.

 • Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.

 • Igenkänning av korta fraser stöder upp till 15 sekunder långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och ett slutresultat med flera N-best-resultat.

 • Lång dikteringsigenkänning stöder upp till två minuter långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och flera slutresultat baserat på var servern indikerar paus i meningen.

 • Om till exempel en kund som använder nivå S1 för att bearbeta en miljon avskrifter debiteras han/hon nivåpris ($-), de första 100,000 avskrifterna debiteras med $- per 1,000 avskrifter och återstående 900,000 avskrifter debiteras med $- per 1,000 avskrifter. Alltså debiteras kunden $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

 • Läs informationen om Custom Speech Service på Microsoft Cognitive Services webbplats och på Custom Speech Service-webbplatsen, www.cris.ai.

 • Distribution av anpassade modeller handlar om att paketera en anpassad modell och sedan göra den tillgänglig som en tjänst. Den distribuerade anpassade modellen kan sedan användas via en slutpunkt som gjorts tillgänglig. Användare kan distribuera valfritt antal modeller.

 • Med Custom Speech Service kan användare anpassa basmodeller utifrån egna ljud- och språkdata. Vi kallar den här processen för modellanpassning.

 • När en anpassad modell skapas så kan användare ladda upp testdata och utvärdera den nya modellen. Den nya modellen kan testas med valfri mängd data och användare kan köra ett obegränsat antal precisionstester.

 • När en anpassad modell har distribuerats så kan dess URI bearbeta en ljudbegäran åt gången. I situationer där fler än en ljudbegäran skickas samtidigt till URI:t går det att skala ut lösningen med fem samtidiga begäranden åt gången. Det görs genom att köpa uppskalningsenheter. Varje skalningsenhet ger upp till fem samtidiga ljudbegäranden och priset är $200 per skalningsenhet. Om en användare till exempel förutser att slutpunkten kommer att få 23 ljudbegäranden samtidigt skulle det behövas fem skalningsenheter vilket garanterar upp till 25 samtidiga begäranden.

 • Användare kan stänga av loggning för sina distribuerade modeller i logghanteringen. Användare som tänker på sekretessen kan stänga av loggning för en distribuerad modell för $20 per månad.

 • Pris per begäran avser kostnaden för bearbetning av en ljudbegäran vid slutpunkten för den distribuerade anpassade modellen.

Allmänt

 • Känslo-API, ansikts-API, API för Language Understanding Intelligent Service, API för Bing-tal till text och Text till tal-API för Bing debiteras per 1 000 transaktionsanrop där API-anropen utförs aktivt. Fakturering beräknas utifrån mängden API-transaktionsanrop.

  Tjänsten för dikterings-API för Bing debiteras per timme analyserat tal. Faktureringen beräknas per minut.

  Rekommendations-API:t och API:t för textanalys kan köpas i enheter av standardnivåerna till ett fast pris. Varje enhet på en nivå inkluderar en viss mängd API-transaktioner. Om användaren förbrukar mer än den inkluderade mängden debiteras denne enligt pristabellen ovan. Överförbrukningen fördelas proportionellt och tjänsten debiteras per månad. De inkluderade mängderna på en nivå återställs varje månad.

 • Användningen är begränsad om transaktionsgränsen nås på den kostnadsfria nivån. Kunder kan inte överförbruka på den kostnadsfria nivån.

 • En kommentar till ett dokument räknas som en transaktion. Batch-poängsättningsanrop tar även hänsyn till antalet dokument som ska poängsättas i transaktionen. Så om du till exempel skickar 1 000 dokument för sentimentanalys i ett enda API-anrop räknas det som 1 000 transaktioner. Om ett API har stöd för mer än en kommentarsåtgärd tas hänsyn även till det. Om ett API-anrop exempelvis utför både attitydanalys och extrahering av diskussionsämne i 1 000 dokument motsvarar det 2 000 transaktioner (2 kommentarer x 1 000 dokument).

 • Om användningen på standardnivån överskrider gränsen överförbrukas kontot. Överförbrukningen debiteras per månad och beräknas utifrån priset som specificeras för varje nivå.

 • Alla API-anrop (med undantag av batchbedömningsanrop) räknas som en transaktion. Batchbedömningsanrop räknas utifrån antalet objekt som behöver bedömas i den transaktionen.

 • Användningen är begränsad om transaktionsgränsen nås på den kostnadsfria nivån. Kunder kan inte överförbruka på den kostnadsfria nivån. Batchbedömning stöds inte på den kostnadsfria nivån.

 • Rekommendationer-API:t kan köpas i enheter av standardnivåerna till ett fast pris. Varje enhet på en nivå inkluderar en viss mängd API-transaktioner. Om användaren förbrukar mer än den inkluderade mängden debiteras denne enligt pristabellen ovan. Överförbrukningen fördelas proportionellt och tjänsten debiteras per månad. De inkluderade mängderna på en nivå återställs varje månad.

 • Du kan när som helst uppgradera till en högre nivå. Debiteringstaxan och inkluderad mängd för den nya nivån träder i kraft omedelbart.

Resurser

Uppskatta månadskostnaden för Azure-tjänster

Läs vanliga frågor om priser för Azure

Lär dig mer om Kognitiva tjänster

Ta del av tekniska självstudiekurser, videor och fler resurser

Har lagts till i beräkningen. Tryck på ”v” för att visa på kalkylator Visa på kalkylator

Lär dig och utveckla med en kredit på $200, och fortsätt utan kostnad

Kostnadsfritt konto