Spring over navigation

Priser på Cognitive Services – PRØVEVERSION af Custom Speech Service

Brug intelligens-API'er til at aktivere egenskaber som vision, tale, sprog og viden

Custom Speech Service gør det muligt at oprette brugertilpassede modeller for talegenkendelse og at udrulle dem til et slutpunkt for tale-til-tekst, der er skræddersyet til dit program. Med Custom Speech Service kan du tilpasse talegenkendelsens sprogmodel, så den lærer ordforrådet i dit program og dine brugeres udtale. Du kan også tilpasse talegenkendelsens akustiske model, så den passer bedre til programmets forventede miljø og brugere.

Prisoplysninger

Modeltilpasning er gratis.

Gratis S2
Modeludrulninger 1 model $-/model/måned
Modeltilpasning 3 timer pr. måned Ubegrænset
Nøjagtighedstest 2 timer pr. måned 2 timer gratis og derefter $-/time
Udskalering I/T $- pr. enhed pr. dag, hvor hver enhed giver dig mulighed for at sende fem samtidige anmodninger
Ingen sporing I/T $-/model/måned
Prisfastsættelse af anmodninger 2 timer pr. måned 2 timer gratis og derefter $-/time

Support og SLA

  • Gratis support til administration af fakturering og abonnement er inkluderet.
  • Har du brug for teknisk support til prøveversionstjenester? Brug vores forummer.
  • Vi garanterer, at Cognitive Services, der kører på standardniveauet, er tilgængelige i mindst 99,9 % af tiden. Der er ingen SLA for det gratis niveau. Læs SLA'en.
  • Der er ingen SLA i prøveversionsperioden. Få mere at vide.

Ofte stillede spørgsmål

Custom Speech Service

  • Niveau 1 kan behandle op til fire stykker lyd (dvs. fire afskrifter) på samme tid og stadig svare i realtid. Hvis brugeren sender mere end fire samtidige stykker lyd, bliver hvert efterfølgende stykke lyd afvist og sendt tilbage med en fejlkode, der anfører for mange samtidige genkendelser. Det samme gør sig gældende for niveau 2, hvor 12 samtidige afskrifter kan blive behandlet. Det gratis niveau tilbyder en sideløbende afskrift. Det antages, at lyden bliver uploadet i realtid. Hvis lyd uploades hurtigere, vil anmodningen pga. formål om samtidighed antages at være igangværende, indtil lydens varighed er overstået (selvom genkendelsesresultatet muligvis bliver sendt tilbage tidligere).

    Bemærk! Hvis der er behov for et højere niveau af samtidighed, skal du kontakte os.

  • Sprogmodellen er en sandsynlighedsdistribution baseret på ordsekvenser. Sprogmodellen hjælper systemet med at fastlægge ordsekvenser, der lyder ens, på baggrund af sandsynligheden for selve ordsekvenserne. "Genkend tale" og "gentænd svale" lyder f.eks. ens, men den første hypotese er meget mere sandsynlig og vil derfor blive tildelt en meget højere score af sprogmodellen. Hvis du har en forventning om, at stemmeanmodninger til dit program indeholder særlige elementer af ordforråd, såsom produktnavne eller jargon, der er ikke opstår ofte i almindelig tale, kan du sandsynligvis opnå en forbedre ydeevne ved at tilpasse sprogmodellen. Hvis du f.eks. bygger en app til at søge MSDN med tale, er det sandsynligt, at termer såsom "objektorienteret" eller "navneområde" eller "dot.net" forekommer hyppigere end i almindelige stemmeprogrammer. En tilpasning af sprogmodellen gør det muligt for systemet at lære dette.

  • Den akustiske model er en klassificering, der markerer korte fragmenter af lyd i adskillige fonemer eller lydenheder på hvert sprog. Disse fonemer kan derefter sættes sammen og forme ord. Ordet "tale" indeholder f.eks. fire fonemer, "t a l e". Disse klassificeringer er lavet 100 gange i sekundet efter ordre. Tilpasning af den akustiske model gør det muligt for systemet bedre at lære at genkende tale i atypiske miljøer. Hvis du f.eks. har en app, der er designet til at blive brugt af en medarbejder på et lager eller en fabrik, kan en tilpasset akustisk model genkende tale i disse lydmiljøer mere præcist.

  • Short Phrase-genkendelse understøtter ytringer på op til 15-sekunders længde. Når den bruges sammen med Speech Client Library, modtager klienten, imens data bliver sendt til serveren, flere forskellige delvise resultater og ét endeligt resultat med flere N-bedste muligheder.

  • Long Dictation-genkendelse understøtter ytringer på op til to-minutters længde. Når den bruges sammen med Speech Client Library, modtager klienten, imens data bliver sendt til serveren, flere forskellige delvise resultater og flere forskellige endelige resultater, på baggrund af, hvor serveren anfører sætningspauser.

  • Hvis f.eks. en kunde bruger niveau S1 til at behandle en million afskrifter, vil kunden blive opkrævet niveauprisen ($-), de første 100,000 afskrifter bliver faktureret $- pr. 1,000 afskrifter og de resterende 900,000 afskrifter bliver faktureret $- pr. 1,000 afskrifter. Så i praksis bliver kunden faktureret $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Se oplysningerne om Custom Speech Service på webstedet for Microsoft Cognitive Services og Custom Speech Service www.cris.ai.

  • Den brugerdefinerede modeludrulning er den proces, hvor en brugerdefineret model færdiggøres og fremvises som en tjeneste. Den resulterende brugerdefinerede modeludrulning afdækker et slutpunkt, som giver adgang til tjenesten. Brugerne kan vælge at udrulle lige så mange modeller, der er brug for.

  • Custom Speech Service giver brugerne mulighed for at tilpasse grundlæggende modeller på baggrund af deres egne akustiske data og sprogdata. Vi kalder denne proces tilpasning af model.

  • Når en brugerdefineret model oprettes, har brugerne mulighed for at uploade testdata for at evaluere den nyligt oprettede model. Brugerne kan teste de nye brugerdefinerede modeller med lige så mange data, som de har brug for, dvs. udføre et ubegrænset antal nøjagtighedstest.

  • Når en brugerdefineret model er blevet rullet ud, kan dens URI behandle én lydanmodning ad gangen. I forbindelse med scenarier, hvor der sendes mere end én lydanmodning samtidig til det pågældende URI, kan brugerne vælge at udskalere til fem samtidige anmodninger ad gangen. Dette opnås ved at købe skaleringsenheder. Hver skaleringsenhed garanterer op til fem samtidige lydanmodninger til en pris på $200 pr. skaleringsenhed. Hvis en bruger f.eks. har tænkt sig at ramme et slutpunkt med 23 lydanmodninger på samme tid, skal brugeren købe fem skaleringsenheder for at kunne få 25 samtidige anmodninger.

  • Logadministration giver brugerne mulighed for at deaktivere logføringen af deres udrullede modeller. De brugere, der bekymrer sig om beskyttelsen af personlige oplysninger, kan vælge at deaktivere logføringen for en udrullet model til en pris på $20 pr. måned.

  • Prisfastsættelse af anmodninger refererer til de omkostninger, der er forbundet med behandling af lydanmodninger af slutpunktet for en udrullet brugerdefineret model.

Generelt

  • Bing Search APIs are invoiced based on number of transactions (also known as API calls). These plans are pay-as-you-go and doesn’t incur additional cost for complex queries and more than 10 results (up to 50 results in most cases).

  • If you happen to exceed the mentioned number of transactions per second (TPS), your usage will be throttled to be within the mentioned limit. If your application needs to have higher TPS than the ones mentioned on this page, please reach out to the Azure support team.

  • For billing purposes, a transaction is a successful Bing API call request (though there are caveats for DoS attacks). For logging and reporting purposes such as for the Bing Statistics Add-in, it is any Bing API call irrespective of whether it is successful or not.

  • You can change the tier of service anytime. Please make sure you use appropriate keys in your API calls. If you are having enterprise agreement with Microsoft, please work with your account executive.

Ressourcer

Beregn dine månedlige udgifter til Azure-tjenester

Se ofte stillede spørgsmål vedr. prissætning på Azure

Få mere at vide om Cognitive Services

Se tekniske vejledninger, videoer og anden dokumentation

Tilføjet for at beregne. Tryk på 'v' for at få vist på beregner Se på beregner

Få mere at vide og byg med $200 i kredit, og fortsæt gratis