Hopp over navigasjon

Cognitive Services-priser - Custom Speech Service TESTVERSJON

Bruk intelligens-API-er til å aktivere visuelle funksjoner samt tale-, språk- og kunnskapsfunksjoner

Custom Speech Service lar deg opprette egendefinerte modeller for talegjenkjenning, og distribuere dem til et tale-til-tekst-endepunkt som er skreddersydd for ditt behov. Med Custom Speech Service kan du tilpasse talegjenkjennerens språkmodell slik at den lærer det aktuelle programmets ordforråd og brukernes talemåte. Du kan også tilpasse den akustiske modellen til talegjenkjenneren, slik at den passer bedre til programmets forventede miljø og brukerpopulasjon.

Prisdetaljer

Modelltilpasning er gratis.

Forekomst Funksjoner PrisTESTVERSJON
Gratis Modelldistribusjoner 1 modell gratis per måned
Modelltilpasning 3 timer gratis per måned
Nøyaktighetstester 2 timer gratis per måned
Skalering utover I/T
Ingen spor I/T
Forespurt pris 2 timer gratis per måned
S2 Modelldistribusjoner $-/modell/måned
Modelltilpasning Ubegrenset
Nøyaktighetstester 2 timer gratis og deretter $-/time
Skalering utover $-/enhet/dag der hver enhet lar deg sende fem samtidige forespørsler
Ingen spor $-/modell/måned
Forespurt pris 2 timer gratis og deretter $-/time

Kundestøtte og tjenestenivåavtaler

  • Gratis fakturerings- og abonnementsstøtte er inkludert.
  • Trenger du kundestøtte for testversjonstjenester? Bruk forumene våre.
  • Vi garanterer at Cognitive Services som kjører på standardnivået, er tilgjengelig minst 99,9 prosent av tiden. Ingen tjenestenivåavtale gis for gratis prøveversjon. Les servicenivåvilkårene.
  • Ingen serviceavtale i testperioden. Les mer.

Vanlige spørsmål

Custom Speech Service

  • Nivå 1 kan behandle opptil fire lyddeler (dvs. fire transkripsjoner) samtidig, og fremdeles respondere i sanntid. Hvis brukeren sender mer enn fire samtidige lyddeler, blir hver påfølgende lyddel avvist og sendt tilbake med en feilkode som indikerer for mange samtidige gjenkjenninger. Det samme gjelder for nivå 2, hvor 12 samtidige transkripsjoner kan behandles. Gratisnivået tilbyr én samtidig transkripsjon. Det antas at lyden vil lastes opp i sanntid. Hvis lyden lastes opp raskere av samtidighetsgrunner, vil forespørselen fremdeles antas å være pågående inntil lydens varighet er passert (selv om gjenkjenningsresultatet kan sendes tilbake tidligere).

    Merk: Hvis en høyere samtidighetsgrad er påkrevd, ber vi deg ta kontakt.

  • Språkmodellen er en sannsynlighetsfordeling over sekvenser av ord. Språkmodellen lar systemet velge mellom sekvenser av ord som høres nesten like ut, basert på sannsynligheten for selve ordsekvensene. Eksempler (på engelsk): "recognize speech" og "wreck a nice beach" høres likt ut, men fordi det er mye mer sannsynlig at det første utsagnet forekommer, vil det tildeles en høyere poengsum av språkmodellen. Hvis du forventer at talespørringer til ditt program vil inneholde bestemte ord, for eksempel produktnavn eller en sjargong som sjelden forekommer i vanlig tale, kan du sannsynligvis forbedre ytelsen ved å tilpasse språkmodellen. Hvis du for eksempel bygger en app som søker i MSDN ved hjelp av stemmen, er det sannsynlig at uttrykk som "objektorientert" eller "navneområde" eller "punktum net" forekommer oftere enn i vanlige taleprogrammer. Når språkmodellen tilpasses, kan systemet lære dette.

  • Den akustiske modellen er en klassifiserer, som merker korte lydfragmenter som ett av flere fonemer, eller lydenheter, i hvert språk. Disse fonemene kan deretter slås sammen for å danne ord. Det engelske ordet "speech" består for eksempel av fire fonemer, "s p iy ch". Disse klassifiseringene utføres inntil 100 ganger per sekund. Hvis den akustiske modellen tilpasses, kan systemet lære å gjøre en bedre jobb med å gjenkjenne tale i atypiske miljøer. Hvis du for eksempel har en app som er laget for å brukes av arbeidere i et varehus eller en fabrikk, kan en tilpasset akustisk modell føre til at tale gjenkjennes mer presist i nærheten av den støyen man finner i disse miljøene.

  • Gjenkjenning av korte uttrykk støtter ytringer på opptil 15 sekunder. Når det brukes med Speech Client-biblioteket, vil klienten etter hvert som data sendes til serveren, motta mange delresultater og ett endelig resultat basert på flere N-beste valg.

  • Gjenkjenning av lang diktering støtter ytringer på opptil to minutter. Når dette brukes med Speech Client-biblioteket, vil klienten etter hvert som data sendes til serveren, motta mange delresultater og endelige resultater basert på hvor serveren indikerer setningspauser.

  • Hvis for eksempel en kunde bruker S1-nivået til å behandle en million transkripsjoner, må vedkommende betale nivåprisen ($-), de første 100,000 transkripsjonene faktureres med $- per 1,000 transkripsjoner, og de gjenværende 900,000 transkripsjonene faktureres med $- per 1,000 transkripsjoner. Følgelig faktureres kunden med $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Se informasjonen om Custom Speech Service på nettsiden til Microsoft Cognitive Services, og på Custom Speech Service-nettstedet www.cris.ai.

  • Egendefinert modelldistribusjon er prosessen hvor man pakker inn en egendefinert modell før man eksponerer den som en tjeneste. Den resulterende distribuerte egendefinerte modellen eksponerer et endepunkt som kan brukes til å få tilgang. Brukere kan velge å distribuere så mange modeller de ønsker.

  • Med Custom Speech Service kan brukere tilpasse grunnmodeller basert på egne akustiske data og språkdata. Vi kaller denne prosessen modelltilpasning.

  • Når en egendefinert modell opprettes, har brukerne mulighet til å laste opp testdata for å evaluere den nyopprettede modellen. Brukere kan teste de nye egendefinerte modellene med så mye data de ønsker, dvs. kjøre et ubegrenset antall nøyaktighetstester.

  • Når en egendefinert modell har blitt distribuert, kan URI-en behandle én lydforespørsel om gangen. For scenarioer som sender mer enn én lydforespørsel samtidig til den URI-en, kan brukere velge å skalere ut til fem samtidige forespørsler om gangen. Dette oppnås ved å kjøpe skaleringsenheter. Hver skaleringsenhet garanterer opp til fem samtidige lydforespørsler til en kostnad på $200 per skaleringsenhet. Hvis for eksempel en bruker regner med å sende 23 lydforespørsler samtidig til det endepunktet, må brukeren kjøpe fem skaleringsenheter for å kunne garantere opp til 25 samtidige forespørsler.

  • Loggadministrasjon lar brukere slå av logging for sine distribuerte modeller. Brukere som er opptatt av personvern kan velge å slå av logging i en distribuert modell, til en sats på $20 per måned.

  • Forespurt pris henviser til kostnaden for behandling av lydforespørsler fra endepunktet i en distribuert egendefinert modell.

Generelt

  • API-er for Bing-søkeforslag faktureres basert på antallet transaksjoner (også kalt API-oppkall). Dette er forbruksbetalte abonnementer som ikke blir belastet ekstrakostnader for omfattende spørringer og mer enn 10 resultater (opptil 50 resultater i de fleste tilfeller).

  • Hvis du overskrider det angitte antallet transaksjoner per sekund (TPS), blir bruken begrenset til den angitte grensen. Hvis programmet ditt behøver en høyere TPS enn den som er angitt på denne siden, kan du ta kontakt med Azure-kundestøtte.

  • For faktureringsformål, er en transaksjon en vellykket Bing API-oppkallsforespørsel (men det finnes begrensninger for DoS-angrep). For loggings- og rapporteringsformål som Bing Statistics-tilleggsprogrammet, er det alle Bing API-oppkall, enten de er vellykkede eller ikke.

  • Du kan endre tjenestenivået når som helst. Påse at du bruker de riktige nøklene i API-oppkallene. Hvis du har en foretaksavtale med Microsoft, kan du ta kontakt med kontoansvarlig for avtalen.

Ressurser

Beregn dine månedlige kostnader for Azure-tjenester

Se gjennom vanlige spørsmål om Azure-priser

Les mer om Kognitive tjenester

Se gjennom tekniske opplæringer, videoer og flere ressurser

Legg til estimat. Trykk «v» for å vise på kalkulator Vis på kalkulator

Lær hvordan du utvikler med $200 i kreditt, og fortsett gratis