Priser för Cognitive Services – Custom Speech Service FÖRHANDSVERSION

Använd intelligenta API:er för att möjliggöra syn-, tal, språk- och kunskapsfunktioner

Med Custom Speech Service kan du skapa anpassade modeller för taligenkänning och distribuera dem till en tal-till-text-slutpunkt som är skräddarsydd för ditt program. Med Custom Speech Service kan du anpassa språkmodellen för taligenkänningen så att den lär sig programmets vokabulär och användarnas samtalsstil. Du kan även anpassa taligenkänningens akustiska modeller för att bättre matcha programmets förväntade miljö och användarpopulationen.

Prisinformation

Modellanpassning är kostnadsfri.

Kostnadsfri S1
Modelldistributioner 1 modell $-/modell/månad
Modellanpassning 3 timmar/månad Obegränsat
Precisionstester 2 timmar/månad 2 timmar utan kostnad och därefter $-/timme
Skalbarhet Gäller inte $-/enhet/dag där varje enhet garanterar fem samtidiga begäranden
Ingen spårning Gäller inte $-/modell/månad
Pris per begäran 2 timmar/månad 2 timmar utan kostnad och därefter $-/timme

Support och serviceavtal

  • Kostnadsfri support för fakturerings- och prenumerationshantering ingår.
  • Behöver du teknisk support för förhandstjänster? Använd våra forum.
  • Vi garanterar att Cognitive Services på standardnivån har en tillgänglighet på minst 99,9 %. Den kostnadsfria nivån omfattas inte av något serviceavtal. Läs serviceavtalet.
  • Inget serviceavtal (SLA) under förhandsperioden. Läs mer.

Vanliga frågor och svar

Custom Speech Service

  • Nivå 1 kan bearbeta upp till fyra ljudstycken (dvs. fyra avskrifter) samtidigt och svarar i realtid. Om användaren skickar fler än fyra samtidiga ljudstycken avvisas var och en av dem och skickas tillbaka med en felkod som anger att det finns för många samtidiga igenkänningar. Samma sak gäller nivå 2 där 12 samtidiga avskrifter kan bearbetas. På den kostnadsfria nivån erbjuds en samtidig avskrift. Det förutsätts att ljudet överförs i realtid. Om ljudet överförs snabbare förutsätts begäran som pågående i samtidighetssyfte tills ljudet har upphört (trots att igenkänningsresultatet kan komma att skickas tillbaka senare).

    Obs! Om en högre grad av samtidighet krävs ber vi dig kontakta oss.

  • Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.

  • Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.

  • Igenkänning av korta fraser stöder upp till 15 sekunder långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och ett slutresultat med flera N-best-resultat.

  • Lång dikteringsigenkänning stöder upp till två minuter långa yttranden. När det används med talklientsbiblioteket tar klienten emot flera delresultat och flera slutresultat baserat på var servern indikerar paus i meningen.

  • Om till exempel en kund som använder nivå S1 för att bearbeta en miljon avskrifter debiteras han/hon nivåpris ($-), de första 100,000 avskrifterna debiteras med $- per 1,000 avskrifter och återstående 900,000 avskrifter debiteras med $- per 1,000 avskrifter. Alltså debiteras kunden $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Läs informationen om Custom Speech Service på Microsoft Cognitive Services webbplats och på Custom Speech Service-webbplatsen, www.cris.ai.

  • Distribution av anpassade modeller handlar om att paketera en anpassad modell och sedan göra den tillgänglig som en tjänst. Den distribuerade anpassade modellen kan sedan användas via en slutpunkt som gjorts tillgänglig. Användare kan distribuera valfritt antal modeller.

  • Med Custom Speech Service kan användare anpassa basmodeller utifrån egna ljud- och språkdata. Vi kallar den här processen för modellanpassning.

  • När en anpassad modell skapas så kan användare ladda upp testdata och utvärdera den nya modellen. Den nya modellen kan testas med valfri mängd data och användare kan köra ett obegränsat antal precisionstester.

  • När en anpassad modell har distribuerats så kan dess URI bearbeta en ljudbegäran åt gången. I situationer där fler än en ljudbegäran skickas samtidigt till URI:t går det att skala ut lösningen med fem samtidiga begäranden åt gången. Det görs genom att köpa uppskalningsenheter. Varje skalningsenhet ger upp till fem samtidiga ljudbegäranden och priset är $200 per skalningsenhet. Om en användare till exempel förutser att slutpunkten kommer att få 23 ljudbegäranden samtidigt skulle det behövas fem skalningsenheter vilket garanterar upp till 25 samtidiga begäranden.

  • Användare kan stänga av loggning för sina distribuerade modeller i logghanteringen. Användare som tänker på sekretessen kan stänga av loggning för en distribuerad modell för $20 per månad.

  • Pris per begäran avser kostnaden för bearbetning av en ljudbegäran vid slutpunkten för den distribuerade anpassade modellen.

Allmänt

  • The Emotion API, Face API, Language Understanding Intelligent Service API, Bing Speech-to-Text API, and Bing Text-to-Speech API are billed per 1 000 API transaction calls when a production API call is being actively executed. Billing is prorated for production API transaction call quantities.

    The Bing Long Form Speech API service is billed per hour of speech that is analyzed. The billing is prorated on a per-minute basis.

    The Recommendations API and Text Analytics API can be purchased in units of the standard tiers at a fixed price. Each unit of a tier comes with included quantities of API transactions. If the user exceeds the included quantities, overages are charged at the rate specified in the pricing table above. These overages are prorated, and the service is billed on a monthly basis. The included quantities in a tier are reset each month.

  • Användningen är begränsad om transaktionsgränsen nås på den kostnadsfria nivån. Kunder kan inte överförbruka på den kostnadsfria nivån.

  • Any annotation to a document counts as a transaction. Batch scoring calls will also take into consideration the number of documents that need to be scored in that transaction. So for instance, if 1 000 documents are sent for sentiment analysis in a single API call, that will count for 1 000 transactions. If an API supports more than one annotation operation, that will also be considered. Let’s say an API call performs both sentiment analysis and key-phrase extraction on 1 000 documents, that will count for 2 000 transactions (2 annotations * 1 000 documents).

  • If the usage on a standard tier is exceeded, the account starts to accrue overages. These overages are billed on a monthly basis, and are calculated at the rate specified for each tier.

  • Alla API-anrop (med undantag av batchbedömningsanrop) räknas som en transaktion. Batchbedömningsanrop räknas utifrån antalet objekt som behöver bedömas i den transaktionen.

  • Användningen är begränsad om transaktionsgränsen nås på den kostnadsfria nivån. Kunder kan inte överförbruka på den kostnadsfria nivån. Batchbedömning stöds inte på den kostnadsfria nivån.

  • Rekommendationer-API:t kan köpas i enheter av standardnivåerna till ett fast pris. Varje enhet på en nivå inkluderar en viss mängd API-transaktioner. Om användaren förbrukar mer än den inkluderade mängden debiteras denne enligt pristabellen ovan. Överförbrukningen fördelas proportionellt och tjänsten debiteras per månad. De inkluderade mängderna på en nivå återställs varje månad.

  • Du kan när som helst uppgradera till en högre nivå. Debiteringstaxa och inkluderad mängd för den nya nivån träder i kraft omedelbart.

  • Below table provides a list of available end-points for each API. The response for the same end-point of Bing Web Search API may vary depending on the Tier purchased. Refer to the next question for details.

    Included APIs Endpoints Available in Tiers
    Bings API för webbsökning https://api.cognitive.microsoft.com/bing/v7.0/search S1-S8
    Bings API för bildsökning https://api.cognitive.microsoft.com/bing/v7.0/images/search S1, S3, S7, S8
    Bings API för nyhetssökning https://api.cognitive.microsoft.com/bing/v7.0/news/search S1, S5, S8
    Bings API för videosökning https://api.cognitive.microsoft.com/bing/v7.0/videos/search S1, S4, S7, S8
    (Preview, EN-US Only)
    https://api.cognitive.microsoft.com/bing/v7.0/entities S1, S6
    Bing Autosuggest API https://api.cognitive.microsoft.com/bing/v7.0/Suggestions S1, S2
    Bing Spell Check API https://api.cognitive.microsoft.com/bing/v7.0/spellcheck S1, S2
  • No, the Bing Web Search API is curtailed to meet specific offering of each Tier. For example, Tier S3 is meant for customers wanting to utilize only web search results and images in their applications. The customers also have an option of calling just a specific end point within a tier and their transactions will count against the overall bundle transactions (for example in Tier S3 a customer can just call Image API end point and make 400 transactions and can call Web Search API end point for 600 transactions and the total will be counted as 1 000 transactions).

  • No, both the APIs could potentially return different results even if you are only looking for images. For example, for a certain type of query, Bing Web Search API may return a combination of web results, videos, news but may not return images. However, for the same query, Bing Image Search API may return images.

  • Tiers are priced based on the number of transactions. As an example, for Tier S3, price per 1 000 transactions is $4. At the end of billing period if 12 000 transactions are logged for the Bing Web Search API and 1 000 transactions are logged for the Bing Image Search API, then you will have billed for $52 calculated as $4*(13 000/1 000).

  • Bing Spell Check and Bing Autosuggest APIs are billed at 25 000 transactions increment in Tier S1. Whereas, other APIs are billed at 1 000 transactions increment in Tier S1.

    For example, if you are subscribed to Tier S1 and at the end of the billing period 15 000 transactions are logged for the Bing Web Search API, 3 000 transactions logged for Bing Video Search API, and 25 000 for Bing Autosuggest API. In this case, the approximate bill would be $133 calculated by $7*((15 000+3 000)/1 000) + $7*(25 000/25 000).

    Note: For billing, only the end-point is considered and not the requested response. For example, calling the Bing Web Search API only for image response will be counted towards the Bing Web Search API and not towards the Bing Image Search API.

Resources

Estimate your monthly costs for Azure services

Review Azure pricing frequently asked questions

Learn more about Kognitiva tjänster

Review technical tutorials, videos, and more resources

Learn and build with $200 in credit, and keep going for free

Free account