Priser för Cognitive Services – Custom Speech Service FÖRHANDSVERSION

Använd intelligenta API:er för att möjliggöra syn-, tal, språk- och kunskapsfunktioner

Med Custom Speech Service kan du skapa anpassade modeller för taligenkänning och distribuera dem till en tal-till-text-slutpunkt som är skräddarsydd för ditt program. Med Custom Speech Service kan du anpassa språkmodellen för taligenkänningen så att den lär sig programmets vokabulär och användarnas samtalsstil. Du kan även anpassa taligenkänningens akustiska modeller för att bättre matcha programmets förväntade miljö och användarpopulationen.

Prisinformation

Varje prisnivå har en viss taxa för samtidig avskrift. Kunder kan sedan välja att importera textdata för att skapa en anpassad språkmodell eller akustiska data, ljud och avskrifter, för att skapa en anpassad akustisk modell.

Förhandsversionsrabatten är medräknad i priserna nedan.

Priser fram till den 30 juni 2017

Nivå 1 Nivå 2
Pris (per månad) $- $-
Antal samtidiga avskrifter 4 12
Akustiska anpassningar
Pris per timme med ljud $- $-
Igenkänning av korta fraser
0–1 000 avskrifter (pris per 100 000 avskrifter) $- $-
100 000+ avskrifter (pris per 1 000 avskrifter) $- $-
Lång dikteringsigenkänning
0–10 timmar (pris per timme) $- $-
10–100 timmar (pris per timme) $- $-
100+ timmar (pris per timme) $- $-

Kostnadsfri nivå

Antal samtidiga avskrifter 1
Avskrifter (kort fras eller lång diktering) 5 000
Anpassningar av akustisk modell 3 timmar/månad
Anpassningar av språkmodell 5

*Observera att kunders modeller på kostnadsfri nivå tas bort om en längre period av inaktivitet upptäcks.

Priser efter den 1 juli 2017

Distribution av anpassade modeller 0–1 – Kostnadsfri
1+ - $-/modell/månad
Modellanpassning Kostnadsfri
Offlinetestning 0–2 timmar – Kostnadsfri
2+ - $-/timme
Skalbarhet $-/enhet/månad där varje enhet garanterar fem samtidiga begäranden
Logghantering $-/modell/månad
Pris per begäran 0–2 timmar – Kostnadsfri
2+ - $-/timme

Support och serviceavtal

  • Gratis support för fakturering och prenumeration
  • Behöver du teknisk support för förhandstjänster? Använd våra forum
  • Vi garanterar att Cognitive Services på standardnivån har en tillgänglighet på minst 99,9 %. Den kostnadsfria nivån omfattas inte av något serviceavtal. Läs serviceavtalet
  • Inget serviceavtal (SLA) under förhandsperioden. Läs mer

Vanliga frågor och svar

Custom Speech Service

  • Nivå 1 kan bearbeta upp till fyra ljudstycken (dvs. fyra avskrifter) samtidigt och svarar i realtid. Om användaren skickar fler än fyra samtidiga ljudstycken avvisas var och en av dem och skickas tillbaka med en felkod som anger att det finns för många samtidiga igenkänningar. Samma sak gäller nivå 2 där 12 samtidiga avskrifter kan bearbetas. På den kostnadsfria nivån erbjuds en samtidig avskrift. Det förutsätts att ljudet överförs i realtid. Om ljudet överförs snabbare förutsätts begäran som pågående i samtidighetssyfte tills ljudet har upphört (trots att igenkänningsresultatet kan komma att skickas tillbaka senare).

    Obs! Om en högre grad av samtidighet krävs ber vi dig kontakta oss.

  • Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.

  • Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.

  • Igenkänning av korta fraser stöder upp till 15 sekunder långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och ett slutresultat med flera N-best-resultat.

  • Lång dikteringsigenkänning stöder upp till två minuter långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och flera slutresultat baserat på var servern indikerar paus i meningen.

  • Om till exempel en kund som använder nivå S1 för att bearbeta en miljon avskrifter debiteras han/hon nivåpris ($-), de första 100,000 avskrifterna debiteras med $- per 1,000 avskrifter och återstående 900,000 avskrifter debiteras med $- per 1,000 avskrifter. Alltså debiteras kunden $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Läs informationen om Custom Speech Service på Microsoft Cognitive Services webbplats och på Custom Speech Service-webbplatsen, www.cris.ai.

  • Distribution av anpassade modeller handlar om att paketera en anpassad modell och sedan göra den tillgänglig som en tjänst. Den distribuerade anpassade modellen kan sedan användas via en slutpunkt som gjorts tillgänglig. Användare kan distribuera valfritt antal modeller.

  • Med Custom Speech Service kan användare anpassa basmodeller utifrån egna ljud- och språkdata. Vi kallar den här processen för modellanpassning.

  • När en anpassad modell skapas så kan användare ladda upp testdata och utvärdera den nya modellen. Den nya modellen kan testas med valfri mängd data och användare kan köra ett obegränsat antal offlinetester.

  • När en anpassad modell har distribuerats så kan dess URI bearbeta en ljudbegäran åt gången. I situationer där fler än en ljudbegäran skickas samtidigt till URI:t går det att skala ut lösningen med fem samtidiga begäranden åt gången. Det görs genom att köpa uppskalningsenheter. Varje skalningsenhet ger upp till fem samtidiga ljudbegäranden och priset är $200 per skalningsenhet. Om en användare till exempel förutser att slutpunkten kommer att få 23 ljudbegäranden samtidigt skulle det behövas fem skalningsenheter vilket garanterar upp till 25 samtidiga begäranden.

  • Användare kan stänga av loggning för sina distribuerade modeller i logghanteringen. Användare som tänker på sekretessen kan stänga av loggning för en distribuerad modell för $20 per månad.

  • Pris per begäran avser kostnaden för bearbetning av en ljudbegäran vid slutpunkten för den distribuerade anpassade modellen.

Allmänt

  • Känslo-API, ansikts-API, API för Language Understanding Intelligent Service, API för Bing-tal till text och Text till tal-API för Bing debiteras per 1 000 transaktionsanrop där API-anropen utförs aktivt. Fakturering beräknas utifrån mängden API-transaktionsanrop.

    Tjänsten för dikterings-API för Bing debiteras per timme analyserat tal. Faktureringen beräknas per minut.

    Rekommendations-API:t och API:t för textanalys kan köpas i enheter av standardnivåerna till ett fast pris. Varje enhet på en nivå inkluderar en viss mängd API-transaktioner. Om användaren förbrukar mer än den inkluderade mängden debiteras denne enligt pristabellen ovan. Överförbrukning beräknas och tjänsten debiteras varje månad. De inkluderade mängderna på en nivå återställs varje månad.

  • Användningen är begränsad om transaktionsgränsen nås på den kostnadsfria nivån. Kunder kan inte överförbruka på den kostnadsfria nivån.

  • Om användningen på standardnivån överskrider gränsen överförbrukas kontot. Överförbrukningen debiteras per månad och beräknas utifrån priset som specificeras för varje nivå.

  • Alla API-anrop (med undantag av batchbedömningsanrop) räknas som en transaktion. Batchbedömningsanrop räknas utifrån antalet objekt som behöver bedömas i den transaktionen.

  • Användningen är begränsad om transaktionsgränsen nås på den kostnadsfria nivån. Kunder kan inte överförbruka på den kostnadsfria nivån. Batchbedömning stöds inte på den kostnadsfria nivån.

  • Rekommendationer-API:t kan köpas i enheter av standardnivåerna till ett fast pris. Varje enhet på en nivå inkluderar en viss mängd API-transaktioner. Om användaren förbrukar mer än den inkluderade mängden debiteras denne enligt pristabellen ovan. Överförbrukning beräknas och tjänsten debiteras varje månad. De inkluderade mängderna på en nivå återställs varje månad.

  • API:er för Bing Search, API för automatiska förslag för Bing och stavningskontrolls-API i Bing debiteras varje månad. Beroende på vilken nivå som har valts kan den inkluderade mängden transaktioner komma att definieras som API-anrop. Inkluderad mängd kommer alltid att gälla per kalendermånad, oavsett när användningen påbörjas. Om användaren förbrukar mer än den inkluderade mängden debiteras denne enligt pristabellen. Överförbrukning beräknas inte prorata. Tjänsten debiteras varje månad. De inkluderade mängderna per nivå återställs varje månad.

  • Besök https://www.microsoft.com/cognitive-services/en-US/subscriptions och skaffa en kostnadsfri utvärderingsversion.

  • Du kan när som helst uppgradera till en högre nivå. Debiteringstaxa och inkluderad mängd för den nya nivån träder i kraft omedelbart.

  • API:er för Bing-taligenkänning licensieras separat och regleras av följande användningsvillkor.

Resurser

Kalkylator

Uppskatta månadskostnaden för Azure-tjänster

Vanliga frågor om köp

Läs vanliga frågor om priser för Azure

Produktinformation

Lär dig mer om Kognitiva tjänster

Dokumentation

Ta del av tekniska självstudiekurser, videor och fler resurser

Registrera dig nu och få $200 i Azure-kredit

Kom igång nu