Priser för Cognitive Services – Speech Services

Använd intelligenta API:er för att möjliggöra syn-, språk- och sökfunktioner.

De enhetliga Speech-tjänsterna omfattar ett brett utbud funktioner för taligenkänning och talgenerering, som taltranskription, text till tal och talöversättning. Speech-tjänsterna omfattar ett brett utbud funktioner för taligenkänning och talgenerering, som taltranskription, text till tal, talöversättning och talarigenkänning. Den nya funktionen Talarigenkänning blir tillgänglig den 1 juni 2020.

Prisinformation

Talcontainern finns nu i offentlig förhandsversion.

Instans Kategori Funktioner Pris
Kostnadsfri - Webb/Container
1 samtidig begäran1
Tal till text Standard 5 ljudtimmar utan kostnad per månad
Anpassat 5 ljudtimmar utan kostnad per månad
Värdhantering med slutpunkt: 1 modell utan kostnad per månad 2
Flerkanalsljud för samtalstranskription FÖRHANDSVERSION 3 5 ljudtimmar utan kostnad per månad
Text till tal Standard 5 miljoner tecken utan kostnad per månad
Neural 0.5 miljoner tecken utan kostnad per månad
Anpassat 5 miljoner tecken utan kostnad per månad
Värdhantering med slutpunkt: 1 modell utan kostnad per månad
Talöversättning Standard 5 ljudtimmar utan kostnad per månad
Standard - Webb/Container
20 samtidig begäran 1
Tal till text Standard $- per ljudtimme
Anpassat $- per ljudtimme
Värdhantering med slutpunkt: $- per modell och timme
Flerkanalsljud för samtalstranskription FÖRHANDSVERSION 3 $- per ljudtimme 4
Text till tal Standard $- per 1 miljon tecken
Neural $- per 1 miljon tecken 5
Anpassat $- per 1 miljon tecken
Värdhantering med slutpunkt: $- per modell och timme
Skapande med FÖRHANDSVERSION 6 Anpassad neural röst: kontakta oss
Syntes i realtid: $- per 1 miljon tecken
Värdhantering med slutpunkt: $- per modell och timme
Skapande av långt ljud: $- per 1 miljon tecken
Talöversättning Standard $- per ljudtimme

1Endast de samtidiga förfrågningar som tillämpas på webbslutpunkter.

2Oanvända modeller inaktiveras automatiskt efter 7 dagar

3Flerkanalsljud för samtalstranskription rekommenderar en cirkulär mikrofonuppsättning. Du kan läsa mer i Microsoft Speech Device SDK.

4Här återges prissättningen för den offentliga förhandsversionen. Priser för den allmänt tillgängliga versionen meddelas senare.

5I dokumentationen för den neurala text till tal-funktionen står i vilka regioner funktionen är tillgänglig.

6Funktionen Anpassad neural röst är i skyddad förhandsversion. Läs mer om skyddsprocessen.

Support och serviceavtal

  • Kostnadsfri support för fakturerings- och prenumerationshantering ingår.
  • Vi garanterar att Cognitive Services på standardnivån har en tillgänglighet på minst 99,9 procent. Den kostnadsfria utvärderingsversionen omfattas inte av något serviceavtal. Läs serviceavtalet.

Vanliga frågor och svar

    • För talöversättning, tal till text och tal till text med anpassad talmodell: användningen faktureras i steg om en sekund
    • För text till tal och text till tal med anpassad rösttyp: användningen faktureras per tecken
    • För värdhantering av anpassad talmodell: användning faktureras per timme. För värdhantering av anpassad rösttyp: användning faktureras per dag.
  • Med taltjänsten kan användarna anpassa baslinjemodeller utifrån sin egna ljud- och språkdata, vilket ger anpassade talmodeller som kan användas mot både tal till text och talöversättning.

  • Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.

  • Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.

  • Microsoft Speech Services omfattar över 70 standardröster (rösttyper) på över 40 språk som hjälp för dig att omvandla din text till ljud. Allt eftersom virtuella assistenter och program med röstfunktion blir vanligare vill många företag ha en unik röst som representerar dem och som tagits fram specifikt för deras varumärkesidentitet. Om du t.ex. utvecklar en chattrobot för din kundtjänst kan du koppla den till en unik varumärkesröst som kunderna känner igen. En utvecklare som skapar programvara för bilnavigering kan aktivera text till tal med olika röster för att förbättra användarupplevelsen.

    Det är lätt att göra med Voice Studio, den anpassade röstportalen. Med hjälp av dina egna ljuddata (röstinspelningar efter manus) kan du skapa en anpassad rösttyp som sedan används i tjänsten Microsoft Text-to-Speech, och den kan enkelt kopplas till dina program med en API-slutpunkt som du själv använder.

Resurser

Uppskatta månadskostnaden för Azure-tjänster

Läs vanliga frågor om priser för Azure

Lär dig mer om Cognitive Services

Ta del av tekniska självstudiekurser, videor och fler resurser

Har lagts till i beräkningen. Tryck på ”v” för att visa på kalkylator

Lär dig och utveckla med en kredit på $200, och fortsätt utan kostnad