Hoppa över navigering

Priser för Cognitive Services – Speech Services

Använd intelligenta API:er för att möjliggöra syn-, tal, språk- och kunskapsfunktioner

De enhetliga Speech-tjänsterna omfattar ett brett utbud funktioner för taligenkänning och talgenerering, som taltranskription, text till tal och talöversättning.

Prisinformation

Instans Samtidiga förfrågningar Funktioner Pris
Kostnadsfri 1 samtidig begäran Talöversättning 5 timmar utan kostnad per månad
Tal till text 5 timmar utan kostnad per månad
Tal till text med anpassad talmodell 5 timmar utan kostnad per månad
Speech Endpoint Hosting1 1 modell utan kostnad per månad
Text till tal med standardröster 5 M tecken utan kostnad per månad
Text till tal med anpassad rösttyp 5 M tecken utan kostnad per månad
Text till tal med neurala röster 0,5 M tecken utan kostnad per månad
Anpassad rösttypvärdtjänst1 1 modell utan kostnad per månad
Standard 20 samtidiga förfrågningar Talöversättning $- per timme
Tal till text $- per timme
Tal till text med anpassad talmodell $- per timme
Speech Endpoint Hosting $-/modell/månad
Text till tal med standardröster $- per 1 M tecken
Text till tal med anpassad rösttyp $- per 1 M tecken
Text till tal med neurala röster $- per 1 M tecken2
Anpassad rösttypvärdtjänst $-/modell/månad
1Oanvända modeller inaktiveras automatiskt efter 7 dagar
2Det här är priset för en offentlig förhandsversion av Text till tal med neurala röster.

Support och serviceavtal

  • Kostnadsfri support för fakturerings- och prenumerationshantering ingår.
  • Vi garanterar att Cognitive Services på standardnivån har en tillgänglighet på minst 99,9 procent. Den kostnadsfria utvärderingsversionen omfattas inte av något serviceavtal. Läs serviceavtalet.

Vanliga frågor och svar

Taltjänster

    • För talöversättning, tal till text och tal till text med anpassad talmodell: användningen faktureras i steg om en sekund
    • För text till tal och text till tal med anpassad rösttyp: användningen faktureras per tecken
    • För anpassad talmodellsvärdtjänst och anpassad rösttypvärdtjänst: användningen faktureras per dag
  • Med taltjänsten kan användarna anpassa baslinjemodeller utifrån sin egna ljud- och språkdata, vilket ger anpassade talmodeller som kan användas mot både tal till text och talöversättning.

  • Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.

  • Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.

  • Microsoft Speech Services omfattar över 70 standardröster (rösttyper) på över 40 språk som hjälp för dig att omvandla din text till ljud. Allt eftersom virtuella assistenter och program med röstfunktion blir vanligare vill många företag ha en unik röst som representerar dem och som tagits fram specifikt för deras varumärkesidentitet. Om du t.ex. utvecklar en chattrobot för din kundtjänst kan du koppla den till en unik varumärkesröst som kunderna känner igen. En utvecklare som skapar programvara för bilnavigering kan aktivera text till tal med olika röster för att förbättra användarupplevelsen.

    Det är lätt att göra med Voice Studio, den anpassade röstportalen. Med hjälp av dina egna ljuddata (röstinspelningar efter manus) kan du skapa en anpassad rösttyp som sedan används i tjänsten Microsoft Text-to-Speech, och den kan enkelt kopplas till dina program med en API-slutpunkt som du själv använder.

Allmänt

  • API:er för Bing-sökresultat debiteras utifrån antal transaktioner (kallas även för API-anrop). Med dessa abonnemang betalar du per användning och det tillkommer inga ytterligare kostnader för komplexa frågor och mer än 10 resultat (upp till 50 resultat i de flesta fall).

  • Om du överskrider det nämnda antalet transaktioner per sekund (TPS) begränsas din användning så att den håller sig inom den nämnda gränsen. Om din app behöver ha högre TPS än dem som nämns på den här sidan kontaktar du Azure-supporten.

  • För faktureringsändamål är en transaktion en utförd Bing API-anropsbegäran (men det finns varningar för DoS-attacker). För loggnings- och rapporteringsändamål, till exempel för tilläggsprogrammet Bing-statistik, är det alla Bing API-anrop oavsett om den utförs.

  • Du kan ändra tjänstenivån när som helst. Se till att använda rätt nycklar i dina API-anrop. Om du har ett företagsavtal med Microsoft kontaktar du kontoansvarig.

Resurser

Uppskatta månadskostnaden för Azure-tjänster

Läs vanliga frågor om priser för Azure

Lär dig mer om Cognitive Services

Ta del av tekniska självstudiekurser, videor och fler resurser

Har lagts till i beräkningen. Tryck på ”v” för att visa på kalkylator Visa på kalkylator

Lär dig och utveckla med en kredit på $200, och fortsätt utan kostnad