Hoppa över navigering

Priser för Cognitive Services – Custom Speech Service FÖRHANDSVERSION

Använd intelligenta API:er för att möjliggöra syn-, tal, språk- och kunskapsfunktioner

Med Custom Speech Service kan du skapa anpassade modeller för taligenkänning och distribuera dem till en tal-till-text-slutpunkt som är skräddarsydd för ditt program. Med Custom Speech Service kan du anpassa språkmodellen för taligenkänningen så att den lär sig programmets vokabulär och användarnas samtalsstil. Du kan även anpassa taligenkänningens akustiska modeller för att bättre matcha programmets förväntade miljö och användarpopulationen.

Prisinformation

Modellanpassning är kostnadsfri.

Kostnadsfri S2
Modelldistributioner 1 modell $-/modell/månad
Modellanpassning 3 timmar/månad Obegränsat
Precisionstester 2 timmar/månad 2 timmar utan kostnad och därefter $-/timme
Skalbarhet Gäller inte $-/enhet/dag där varje enhet garanterar fem samtidiga begäranden
Ingen spårning Gäller inte $-/modell/månad
Pris per begäran 2 timmar/månad 2 timmar utan kostnad och därefter $-/timme

Support och serviceavtal

  • Kostnadsfri support för fakturerings- och prenumerationshantering ingår.
  • Behöver du teknisk support för förhandstjänster? Använd våra forum.
  • Vi garanterar att Cognitive Services på standardnivån har en tillgänglighet på minst 99,9 procent. Den kostnadsfria nivån omfattas inte av något serviceavtal. Läs serviceavtalet.
  • Inget serviceavtal (SLA) under förhandsperioden. Läs mer.

Vanliga frågor och svar

Custom Speech Service

  • Nivå 1 kan bearbeta upp till fyra ljudstycken (dvs. fyra avskrifter) samtidigt och svarar i realtid. Om användaren skickar fler än fyra samtidiga ljudstycken avvisas var och en av dem och skickas tillbaka med en felkod som anger att det finns för många samtidiga igenkänningar. Samma sak gäller nivå 2 där 12 samtidiga avskrifter kan bearbetas. På den kostnadsfria nivån erbjuds en samtidig avskrift. Det förutsätts att ljudet överförs i realtid. Om ljudet överförs snabbare förutsätts begäran som pågående i samtidighetssyfte tills ljudet har upphört (trots att igenkänningsresultatet kan komma att skickas tillbaka senare).

    Obs! Om en högre grad av samtidighet krävs ber vi dig kontakta oss.

  • Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.

  • Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.

  • Igenkänning av korta fraser stöder upp till 15 sekunder långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och ett slutresultat med flera N-best-resultat.

  • Lång dikteringsigenkänning stöder upp till två minuter långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och flera slutresultat baserat på var servern indikerar paus i meningen.

  • Om till exempel en kund som använder nivå S1 för att bearbeta en miljon avskrifter debiteras han/hon nivåpris ($-), de första 100,000 avskrifterna debiteras med $- per 1,000 avskrifter och återstående 900,000 avskrifter debiteras med $- per 1,000 avskrifter. Alltså debiteras kunden $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Läs informationen om Custom Speech Service på Microsoft Cognitive Services webbplats och på Custom Speech Service-webbplatsen, www.cris.ai.

  • Distribution av anpassade modeller handlar om att paketera en anpassad modell och sedan göra den tillgänglig som en tjänst. Den distribuerade anpassade modellen kan sedan användas via en slutpunkt som gjorts tillgänglig. Användare kan distribuera valfritt antal modeller.

  • Med Custom Speech Service kan användare anpassa basmodeller utifrån egna ljud- och språkdata. Vi kallar den här processen för modellanpassning.

  • När en anpassad modell skapas så kan användare ladda upp testdata och utvärdera den nya modellen. Den nya modellen kan testas med valfri mängd data och användare kan köra ett obegränsat antal precisionstester.

  • När en anpassad modell har distribuerats så kan dess URI bearbeta en ljudbegäran åt gången. I situationer där fler än en ljudbegäran skickas samtidigt till URI:t går det att skala ut lösningen med fem samtidiga begäranden åt gången. Det görs genom att köpa uppskalningsenheter. Varje skalningsenhet ger upp till fem samtidiga ljudbegäranden och priset är $200 per skalningsenhet. Om en användare till exempel förutser att slutpunkten kommer att få 23 ljudbegäranden samtidigt skulle det behövas fem skalningsenheter vilket garanterar upp till 25 samtidiga begäranden.

  • Användare kan stänga av loggning för sina distribuerade modeller i logghanteringen. Användare som tänker på sekretessen kan stänga av loggning för en distribuerad modell för $20 per månad.

  • Pris per begäran avser kostnaden för bearbetning av en ljudbegäran vid slutpunkten för den distribuerade anpassade modellen.

Allmänt

  • Bing Search APIs are invoiced based on number of transactions (also known as API calls). These plans are pay-as-you-go and doesn’t incur additional cost for complex queries and more than 10 results (up to 50 results in most cases).

  • If you happen to exceed the mentioned number of transactions per second (TPS), your usage will be throttled to be within the mentioned limit. If your application needs to have higher TPS than the ones mentioned on this page, please reach out to the Azure support team.

  • For billing purposes, a transaction is a successful Bing API call request (though there are caveats for DoS attacks). For logging and reporting purposes such as for the Bing Statistics Add-in, it is any Bing API call irrespective of whether it is successful or not.

  • You can change the tier of service anytime. Please make sure you use appropriate keys in your API calls. If you are having enterprise agreement with Microsoft, please work with your account executive.

Resurser

Uppskatta månadskostnaden för Azure-tjänster

Läs vanliga frågor om priser för Azure

Lär dig mer om Cognitive Services

Ta del av tekniska självstudiekurser, videor och fler resurser

Har lagts till i beräkningen. Tryck på ”v” för att visa på kalkylator Visa på kalkylator

Lär dig och utveckla med en kredit på $200, och fortsätt utan kostnad