Hopp over navigasjon

Cognitive Services-priser - Custom Speech Service TESTVERSJON

Bruk intelligens-API-er til å aktivere visuelle funksjoner samt tale-, språk- og kunnskapsfunksjoner

Custom Speech Service lar deg opprette egendefinerte modeller for talegjenkjenning, og distribuere dem til et tale-til-tekst-endepunkt som er skreddersydd for ditt behov. Med Custom Speech Service kan du tilpasse talegjenkjennerens språkmodell slik at den lærer det aktuelle programmets ordforråd og brukernes talemåte. Du kan også tilpasse den akustiske modellen til talegjenkjenneren, slik at den passer bedre til programmets forventede miljø og brukerpopulasjon.

Prisdetaljer

Modelltilpasning er gratis.

Gratis S2
Modelldistribusjoner 1 modell $-/modell/måned
Modelltilpasning 3 timer/måned Ubegrenset
Nøyaktighetstester 2 timer/måned 2 timer gratis og deretter $-/time
Skalering utover I/T $-/enhet/dag der hver enhet lar deg sende fem samtidige forespørsler
Ingen spor I/T $-/modell/måned
Forespurt pris 2 timer/måned 2 timer gratis og deretter $-/time

Kundestøtte og tjenestenivåavtaler

 • Gratis fakturerings- og abonnementsstøtte er inkludert.
 • Trenger du kundestøtte for testversjonstjenester? Bruk forumene våre.
 • Vi garanterer at Cognitive Services som kjører på standardnivået, er tilgjengelig minst 99,9 prosent av tiden. Ingen serviceavtaler er tilgjengelig for gratisnivået. Les servicenivåvilkårene.
 • Ingen serviceavtale i testperioden. Les mer.

Vanlige spørsmål

Custom Speech Service

 • Nivå 1 kan behandle opptil fire lyddeler (dvs. fire transkripsjoner) samtidig, og fremdeles respondere i sanntid. Hvis brukeren sender mer enn fire samtidige lyddeler, blir hver påfølgende lyddel avvist og sendt tilbake med en feilkode som indikerer for mange samtidige gjenkjenninger. Det samme gjelder for nivå 2, hvor 12 samtidige transkripsjoner kan behandles. Gratisnivået tilbyr én samtidig transkripsjon. Det antas at lyden vil lastes opp i sanntid. Hvis lyden lastes opp raskere av samtidighetsgrunner, vil forespørselen fremdeles antas å være pågående inntil lydens varighet er passert (selv om gjenkjenningsresultatet kan sendes tilbake tidligere).

  Merk: Hvis en høyere samtidighetsgrad er påkrevd, ber vi deg ta kontakt.

 • Språkmodellen er en sannsynlighetsfordeling over sekvenser av ord. Språkmodellen lar systemet velge mellom sekvenser av ord som høres nesten like ut, basert på sannsynligheten for selve ordsekvensene. Eksempler (på engelsk): "recognize speech" og "wreck a nice beach" høres likt ut, men fordi det er mye mer sannsynlig at det første utsagnet forekommer, vil det tildeles en høyere poengsum av språkmodellen. Hvis du forventer at talespørringer til ditt program vil inneholde bestemte ord, for eksempel produktnavn eller en sjargong som sjelden forekommer i vanlig tale, kan du sannsynligvis forbedre ytelsen ved å tilpasse språkmodellen. Hvis du for eksempel bygger en app som søker i MSDN ved hjelp av stemmen, er det sannsynlig at uttrykk som "objektorientert" eller "navneområde" eller "punktum net" forekommer oftere enn i vanlige taleprogrammer. Når språkmodellen tilpasses, kan systemet lære dette.

 • Den akustiske modellen er en klassifiserer, som merker korte lydfragmenter som ett av flere fonemer, eller lydenheter, i hvert språk. Disse fonemene kan deretter slås sammen for å danne ord. Det engelske ordet "speech" består for eksempel av fire fonemer, "s p iy ch". Disse klassifiseringene utføres inntil 100 ganger per sekund. Hvis den akustiske modellen tilpasses, kan systemet lære å gjøre en bedre jobb med å gjenkjenne tale i atypiske miljøer. Hvis du for eksempel har en app som er laget for å brukes av arbeidere i et varehus eller en fabrikk, kan en tilpasset akustisk modell føre til at tale gjenkjennes mer presist i nærheten av den støyen man finner i disse miljøene.

 • Gjenkjenning av korte uttrykk støtter ytringer på opptil 15 sekunder. Når det brukes med Speech Client-biblioteket, vil klienten etter hvert som data sendes til serveren, motta mange delresultater og ett endelig resultat basert på flere N-beste valg.

 • Gjenkjenning av lang diktering støtter ytringer på opptil to minutter. Når dette brukes med Speech Client-biblioteket, vil klienten etter hvert som data sendes til serveren, motta mange delresultater og endelige resultater basert på hvor serveren indikerer setningspauser.

 • Hvis for eksempel en kunde bruker S1-nivået til å behandle en million transkripsjoner, må vedkommende betale nivåprisen ($-), de første 100,000 transkripsjonene faktureres med $- per 1,000 transkripsjoner, og de gjenværende 900,000 transkripsjonene faktureres med $- per 1,000 transkripsjoner. Følgelig faktureres kunden med $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

 • Se informasjonen om Custom Speech Service på nettsiden til Microsoft Cognitive Services, og på Custom Speech Service-nettstedet www.cris.ai.

 • Egendefinert modelldistribusjon er prosessen hvor man pakker inn en egendefinert modell før man eksponerer den som en tjeneste. Den resulterende distribuerte egendefinerte modellen eksponerer et endepunkt som kan brukes til å få tilgang. Brukere kan velge å distribuere så mange modeller de ønsker.

 • Med Custom Speech Service kan brukere tilpasse grunnmodeller basert på egne akustiske data og språkdata. Vi kaller denne prosessen modelltilpasning.

 • Når en egendefinert modell opprettes, har brukerne mulighet til å laste opp testdata for å evaluere den nyopprettede modellen. Brukere kan teste de nye egendefinerte modellene med så mye data de ønsker, dvs. kjøre et ubegrenset antall nøyaktighetstester.

 • Når en egendefinert modell har blitt distribuert, kan URI-en behandle én lydforespørsel om gangen. For scenarioer som sender mer enn én lydforespørsel samtidig til den URI-en, kan brukere velge å skalere ut til fem samtidige forespørsler om gangen. Dette oppnås ved å kjøpe skaleringsenheter. Hver skaleringsenhet garanterer opp til fem samtidige lydforespørsler til en kostnad på $200 per skaleringsenhet. Hvis for eksempel en bruker regner med å sende 23 lydforespørsler samtidig til det endepunktet, må brukeren kjøpe fem skaleringsenheter for å kunne garantere opp til 25 samtidige forespørsler.

 • Loggadministrasjon lar brukere slå av logging for sine distribuerte modeller. Brukere som er opptatt av personvern kan velge å slå av logging i en distribuert modell, til en sats på $20 per måned.

 • Forespurt pris henviser til kostnaden for behandling av lydforespørsler fra endepunktet i en distribuert egendefinert modell.

Generelt

 • Følelses-API, ansikts-API, API for Language Understanding Intelligent Service, tale til tekst-API fra Bing og tekst til tale-API fra Bing faktureres per 1 000 API-transaksjonskall når et kall til en produksjons-API utføres aktivt. Faktureringen fordeles på antallet transaksjonskall i produksjons-API-en.

  Tjenesten for Bing langdikterings-API faktureres per time med taleanalyse. Faktureringen fordeles per minutt.

  Anbefalings-API-en og tekstanalyse-API-en kan kjøpes til fastpris i enheter på standardnivåene. Hver enhet i et nivå inneholder et gitt antall API-transaksjoner. Hvis brukeren overskrider det inkluderte antallet, belastes overforbruket med prisene som er angitt i pristabellen ovenfor. Overforbruket fordeles, og tjenesten faktureres per måned. Det inkluderte antallet i et nivå nullstilles hver måned.

 • Bruken begrenses hvis transaksjonsgrensen nås i gratisnivået. Kundene kan ikke overskride grensen for gratisnivået.

 • Enhver merknad til et dokument teller som en transaksjon. Batch-poengkall tar også hensyn til antall dokumenter som må beregnes i samme transaksjon. Hvis for eksempel 1 000 dokumenter sendes til sentimentanalyse i ett enkelt API-kall, telles det som 1 000 transaksjoner. Hvis en API støtter mer enn én merknadsoperasjon, så blir det også tatt hensyn til det. Hvis vi sier at et API-kall utfører både sentimentanalyse og uttrekking av nøkkeluttrykk fra 1 000 dokumenter, telles det som 2 000 transaksjoner (2 merknader x 1 000 dokumenter).

 • Hvis bruken overskrides for et standardnivå, blir kontoen belastet for overforbruk. Dette overforbruket faktureres månedlig, og beregnes etter prisen som er angitt for hvert nivå.

 • Alle API-kall (med unntak av Batch-poengkall) teller som en transaksjon. Batch-poengkall beregnes basert på antall elementer som må beregnes i samme transaksjon.

 • Bruken begrenses hvis transaksjonsgrensen nås i gratisnivået. Kundene kan ikke overskride grensen i gratisnivået. Batch-poengberegning støttes ikke på gratisnivået.

 • Anbefalings-API-en kan kjøpes til fastpris i enheter på standardnivåene. Hver enhet i et nivå inneholder et gitt antall API-transaksjoner. Hvis brukeren overskrider det inkluderte antallet, belastes overforbruket med prisene som er angitt i pristabellen ovenfor. Overforbruket fordeles, og tjenesten faktureres per måned. Det inkluderte antallet i et nivå nullstilles hver måned.

 • Du kan når som helst oppgradere til et høyere nivå. Fakturaprisene og det inkluderte antallet som tilsvarer det høyere nivået, trer i kraft umiddelbart.

Ressurser

Beregn de månedlige kostnadene for Azure-tjenester

Se gjennom vanlige spørsmål om Azure-priser

Les mer om Kognitive tjenester

Se gjennom tekniske opplæringer, videoer og flere ressurser

Legg til estimat. Trykk «v» for å vise på kalkulator Vis på kalkulator

Lær hvordan du utvikler med $200 i kreditt, og fortsett gratis

Gratis konto