Hopp over navigasjon

Cognitive Services-priser - Custom Speech Service TESTVERSJON

Bruk intelligens-API-er til å aktivere visuelle funksjoner samt tale-, språk- og kunnskapsfunksjoner

Custom Speech Service lar deg opprette egendefinerte modeller for talegjenkjenning, og distribuere dem til et tale-til-tekst-endepunkt som er skreddersydd for ditt behov. Med Custom Speech Service kan du tilpasse talegjenkjennerens språkmodell slik at den lærer det aktuelle programmets ordforråd og brukernes talemåte. Du kan også tilpasse den akustiske modellen til talegjenkjenneren, slik at den passer bedre til programmets forventede miljø og brukerpopulasjon.

Prisdetaljer

Modelltilpasning er gratis.

Gratis S2
Modelldistribusjoner 1 modell $-/modell/måned
Modelltilpasning 3 timer/måned Ubegrenset
Nøyaktighetstester 2 timer/måned 2 timer gratis og deretter $-/time
Skalering utover I/T $-/enhet/dag der hver enhet lar deg sende fem samtidige forespørsler
Ingen spor I/T $-/modell/måned
Forespurt pris 2 timer/måned 2 timer gratis og deretter $-/time

Kundestøtte og tjenestenivåavtaler

  • Gratis fakturerings- og abonnementsstøtte er inkludert.
  • Trenger du kundestøtte for testversjonstjenester? Bruk forumene våre.
  • Vi garanterer at Cognitive Services som kjører på standardnivået, er tilgjengelig minst 99,9 prosent av tiden. Ingen serviceavtaler er tilgjengelig for gratisnivået. Les servicenivåvilkårene.
  • Ingen serviceavtale i testperioden. Les mer.

Vanlige spørsmål

Custom Speech Service

  • Nivå 1 kan behandle opptil fire lyddeler (dvs. fire transkripsjoner) samtidig, og fremdeles respondere i sanntid. Hvis brukeren sender mer enn fire samtidige lyddeler, blir hver påfølgende lyddel avvist og sendt tilbake med en feilkode som indikerer for mange samtidige gjenkjenninger. Det samme gjelder for nivå 2, hvor 12 samtidige transkripsjoner kan behandles. Gratisnivået tilbyr én samtidig transkripsjon. Det antas at lyden vil lastes opp i sanntid. Hvis lyden lastes opp raskere av samtidighetsgrunner, vil forespørselen fremdeles antas å være pågående inntil lydens varighet er passert (selv om gjenkjenningsresultatet kan sendes tilbake tidligere).

    Merk: Hvis en høyere samtidighetsgrad er påkrevd, ber vi deg ta kontakt.

  • Språkmodellen er en sannsynlighetsfordeling over sekvenser av ord. Språkmodellen lar systemet velge mellom sekvenser av ord som høres nesten like ut, basert på sannsynligheten for selve ordsekvensene. Eksempler (på engelsk): "recognize speech" og "wreck a nice beach" høres likt ut, men fordi det er mye mer sannsynlig at det første utsagnet forekommer, vil det tildeles en høyere poengsum av språkmodellen. Hvis du forventer at talespørringer til ditt program vil inneholde bestemte ord, for eksempel produktnavn eller en sjargong som sjelden forekommer i vanlig tale, kan du sannsynligvis forbedre ytelsen ved å tilpasse språkmodellen. Hvis du for eksempel bygger en app som søker i MSDN ved hjelp av stemmen, er det sannsynlig at uttrykk som "objektorientert" eller "navneområde" eller "punktum net" forekommer oftere enn i vanlige taleprogrammer. Når språkmodellen tilpasses, kan systemet lære dette.

  • Den akustiske modellen er en klassifiserer, som merker korte lydfragmenter som ett av flere fonemer, eller lydenheter, i hvert språk. Disse fonemene kan deretter slås sammen for å danne ord. Det engelske ordet "speech" består for eksempel av fire fonemer, "s p iy ch". Disse klassifiseringene utføres inntil 100 ganger per sekund. Hvis den akustiske modellen tilpasses, kan systemet lære å gjøre en bedre jobb med å gjenkjenne tale i atypiske miljøer. Hvis du for eksempel har en app som er laget for å brukes av arbeidere i et varehus eller en fabrikk, kan en tilpasset akustisk modell føre til at tale gjenkjennes mer presist i nærheten av den støyen man finner i disse miljøene.

  • Gjenkjenning av korte uttrykk støtter ytringer på opptil 15 sekunder. Når det brukes med Speech Client-biblioteket, vil klienten etter hvert som data sendes til serveren, motta mange delresultater og ett endelig resultat basert på flere N-beste valg.

  • Gjenkjenning av lang diktering støtter ytringer på opptil to minutter. Når dette brukes med Speech Client-biblioteket, vil klienten etter hvert som data sendes til serveren, motta mange delresultater og endelige resultater basert på hvor serveren indikerer setningspauser.

  • Hvis for eksempel en kunde bruker S1-nivået til å behandle en million transkripsjoner, må vedkommende betale nivåprisen ($-), de første 100,000 transkripsjonene faktureres med $- per 1,000 transkripsjoner, og de gjenværende 900,000 transkripsjonene faktureres med $- per 1,000 transkripsjoner. Følgelig faktureres kunden med $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Se informasjonen om Custom Speech Service på nettsiden til Microsoft Cognitive Services, og på Custom Speech Service-nettstedet www.cris.ai.

  • Egendefinert modelldistribusjon er prosessen hvor man pakker inn en egendefinert modell før man eksponerer den som en tjeneste. Den resulterende distribuerte egendefinerte modellen eksponerer et endepunkt som kan brukes til å få tilgang. Brukere kan velge å distribuere så mange modeller de ønsker.

  • Med Custom Speech Service kan brukere tilpasse grunnmodeller basert på egne akustiske data og språkdata. Vi kaller denne prosessen modelltilpasning.

  • Når en egendefinert modell opprettes, har brukerne mulighet til å laste opp testdata for å evaluere den nyopprettede modellen. Brukere kan teste de nye egendefinerte modellene med så mye data de ønsker, dvs. kjøre et ubegrenset antall nøyaktighetstester.

  • Når en egendefinert modell har blitt distribuert, kan URI-en behandle én lydforespørsel om gangen. For scenarioer som sender mer enn én lydforespørsel samtidig til den URI-en, kan brukere velge å skalere ut til fem samtidige forespørsler om gangen. Dette oppnås ved å kjøpe skaleringsenheter. Hver skaleringsenhet garanterer opp til fem samtidige lydforespørsler til en kostnad på $200 per skaleringsenhet. Hvis for eksempel en bruker regner med å sende 23 lydforespørsler samtidig til det endepunktet, må brukeren kjøpe fem skaleringsenheter for å kunne garantere opp til 25 samtidige forespørsler.

  • Loggadministrasjon lar brukere slå av logging for sine distribuerte modeller. Brukere som er opptatt av personvern kan velge å slå av logging i en distribuert modell, til en sats på $20 per måned.

  • Forespurt pris henviser til kostnaden for behandling av lydforespørsler fra endepunktet i en distribuert egendefinert modell.

Generelt

  • Bing Search APIs are invoiced based on number of transactions (also known as API calls). These plans are pay-as-you-go and doesn’t incur additional cost for complex queries and more than 10 results (up to 50 results in most cases).

  • If you happen to exceed the mentioned number of transactions per second (TPS), your usage will be throttled to be within the mentioned limit. If your application needs to have higher TPS than the ones mentioned on this page, please reach out to the Azure support team.

  • For billing purposes, a transaction is a successful Bing API call request (though there are caveats for DoS attacks). For logging and reporting purposes such as for the Bing Statistics Add-in, it is any Bing API call irrespective of whether it is successful or not.

  • You can change the tier of service anytime. Please make sure you use appropriate keys in your API calls. If you are having enterprise agreement with Microsoft, please work with your account executive.

Ressurser

Beregn dine månedlige kostnader for Azure-tjenester

Se gjennom vanlige spørsmål om Azure-priser

Les mer om Kognitive tjenester

Se gjennom tekniske opplæringer, videoer og flere ressurser

Legg til estimat. Trykk «v» for å vise på kalkulator Vis på kalkulator

Lær hvordan du utvikler med $200 i kreditt, og fortsett gratis