Priser för Cognitive Services – Custom Speech Service FÖRHANDSVERSION

Använd intelligenta API:er för att möjliggöra syn-, språk- och sökfunktioner.

Med Custom Speech Service kan du skapa anpassade modeller för taligenkänning och distribuera dem till en tal-till-text-slutpunkt som är skräddarsydd för ditt program. Med Custom Speech Service kan du anpassa språkmodellen för taligenkänningen så att den lär sig programmets vokabulär och användarnas samtalsstil. Du kan även anpassa taligenkänningens akustiska modeller för att bättre matcha programmets förväntade miljö och användarpopulationen.

Prisinformation

Modellanpassning är kostnadsfri.

Instans Funktioner PrisFÖRHANDSVERSION
Kostnadsfri Modelldistributioner 1 modell utan kostnad per månad
Modellanpassning 3 timmar utan kostnad per månad
Precisionstester 2 timmar utan kostnad per månad
Skalbarhet Gäller inte
Ingen spårning Gäller inte
Pris per begäran 2 timmar utan kostnad per månad
S2 Modelldistributioner $-/modell/månad
Modellanpassning Obegränsat
Precisionstester 2 timmar utan kostnad och därefter $-/timme
Skalbarhet $-/enhet/dag där varje enhet garanterar fem samtidiga begäranden
Ingen spårning $-/modell/månad
Pris per begäran 2 timmar utan kostnad och därefter $-/timme

Support och serviceavtal

  • Kostnadsfri support för fakturerings- och prenumerationshantering ingår.
  • Behöver du teknisk support för förhandstjänster? Använd våra forum.
  • Vi garanterar att Cognitive Services på standardnivån har en tillgänglighet på minst 99,9 procent. Den kostnadsfria utvärderingsversionen omfattas inte av något serviceavtal. Läs serviceavtalet.
  • Inget serviceavtal (SLA) under förhandsperioden. Läs mer.

Vanliga frågor och svar

  • Nivå 1 kan bearbeta upp till fyra ljudstycken (dvs. fyra avskrifter) samtidigt och svarar i realtid. Om användaren skickar fler än fyra samtidiga ljudstycken avvisas var och en av dem och skickas tillbaka med en felkod som anger att det finns för många samtidiga igenkänningar. Samma sak gäller nivå 2 där 12 samtidiga avskrifter kan bearbetas. På den kostnadsfria nivån erbjuds en samtidig avskrift. Det förutsätts att ljudet överförs i realtid. Om ljudet överförs snabbare förutsätts begäran som pågående i samtidighetssyfte tills ljudet har upphört (trots att igenkänningsresultatet kan komma att skickas tillbaka senare).

    Obs! Om en högre grad av samtidighet krävs ber vi dig kontakta oss.

  • Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.

  • Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.

  • Igenkänning av korta fraser stöder upp till 15 sekunder långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och ett slutresultat med flera N-best-resultat.

  • Lång dikteringsigenkänning stöder upp till två minuter långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och flera slutresultat baserat på var servern indikerar paus i meningen.

  • Om till exempel en kund som använder nivå S1 för att bearbeta en miljon avskrifter debiteras han/hon nivåpris ($-), de första 100,000 avskrifterna debiteras med $- per 1,000 avskrifter och återstående 900,000 avskrifter debiteras med $- per 1,000 avskrifter. Alltså debiteras kunden $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Läs informationen om Custom Speech Service på Microsoft Cognitive Services webbplats och på Custom Speech Service-webbplatsen.

  • Distribution av anpassade modeller handlar om att paketera en anpassad modell och sedan göra den tillgänglig som en tjänst. Den distribuerade anpassade modellen kan sedan användas via en slutpunkt som gjorts tillgänglig. Användare kan distribuera valfritt antal modeller.

  • Med Custom Speech Service kan användare anpassa basmodeller utifrån egna ljud- och språkdata. Vi kallar den här processen för modellanpassning.

  • När en anpassad modell skapas så kan användare ladda upp testdata och utvärdera den nya modellen. Den nya modellen kan testas med valfri mängd data och användare kan köra ett obegränsat antal precisionstester.

  • När en anpassad modell har distribuerats så kan dess URI bearbeta en ljudbegäran åt gången. I situationer där fler än en ljudbegäran skickas samtidigt till URI:t går det att skala ut lösningen med fem samtidiga begäranden åt gången. Det görs genom att köpa uppskalningsenheter. Varje skalningsenhet ger upp till fem samtidiga ljudbegäranden och priset är $200 per skalningsenhet. Om en användare till exempel förutser att slutpunkten kommer att få 23 ljudbegäranden samtidigt skulle det behövas fem skalningsenheter vilket garanterar upp till 25 samtidiga begäranden.

  • Användare kan stänga av loggning för sina distribuerade modeller i logghanteringen. Användare som tänker på sekretessen kan stänga av loggning för en distribuerad modell för $20 per månad.

  • Pris per begäran avser kostnaden för bearbetning av en ljudbegäran vid slutpunkten för den distribuerade anpassade modellen.

Resurser

Uppskatta månadskostnaden för Azure-tjänster

Läs vanliga frågor om priser för Azure

Lär dig mer om Cognitive Services

Ta del av tekniska självstudiekurser, videor och fler resurser

Har lagts till i beräkningen. Tryck på ”v” för att visa på kalkylator Visa på kalkylator

Lär dig och utveckla med en kredit på $200, och fortsätt utan kostnad