Priser på Cognitive Services – PRØVEVERSION af Custom Speech Service

Brug intelligens-API'er til at aktivere egenskaber som vision, tale, sprog og viden

Custom Speech Service gør det muligt at oprette brugertilpassede modeller for talegenkendelse og at udrulle dem til et slutpunkt for tale-til-tekst, der er skræddersyet til dit program. Med Custom Speech Service kan du tilpasse talegenkendelsens sprogmodel, så den lærer ordforrådet i dit program og dine brugeres udtale. Du kan også tilpasse talegenkendelsens akustiske model, så den passer bedre til programmets forventede miljø og brugere.

Prisoplysninger

Modeltilpasning er gratis.

Gratis S1
Modeludrulninger 1 model $-/model/måned
Modeltilpasning 3 timer pr. måned Ubegrænset
Nøjagtighedstest 2 timer pr. måned 2 timer gratis og derefter $-/time
Udskalering I/T $- pr. enhed pr. dag, hvor hver enhed giver dig mulighed for at sende fem samtidige anmodninger
Ingen sporing I/T $-/model/måned
Prisfastsættelse af anmodninger 2 timer pr. måned 2 timer gratis og derefter $-/time

Support og SLA 

  • Gratis support til administration af fakturering og abonnement er inkluderet.
  • Har du brug for teknisk support til prøveversionstjenester? Brug vores forummer.
  • Vi garanterer, at Cognitive Services, der kører på standardniveauet, er tilgængelige i mindst 99,9 % af tiden. Der er ingen SLA for det gratis niveau. Læs SLA'en.
  • Der er ingen SLA i prøveversionsperioden. Få mere at vide.

Ofte stillede spørgsmål

Custom Speech Service

  • Niveau 1 kan behandle op til fire stykker lyd (dvs. fire afskrifter) på samme tid og stadig svare i realtid. Hvis brugeren sender mere end fire samtidige stykker lyd, bliver hvert efterfølgende stykke lyd afvist og sendt tilbage med en fejlkode, der anfører for mange samtidige genkendelser. Det samme gør sig gældende for niveau 2, hvor 12 samtidige afskrifter kan blive behandlet. Det gratis niveau tilbyder en sideløbende afskrift. Det antages, at lyden bliver uploadet i realtid. Hvis lyd uploades hurtigere, vil anmodningen pga. formål om samtidighed antages at være igangværende, indtil lydens varighed er overstået (selvom genkendelsesresultatet muligvis bliver sendt tilbage tidligere).

    Bemærk! Hvis der er behov for et højere niveau af samtidighed, skal du kontakte os.

  • Sprogmodellen er en sandsynlighedsdistribution baseret på ordsekvenser. Sprogmodellen hjælper systemet med at fastlægge ordsekvenser, der lyder ens, på baggrund af sandsynligheden for selve ordsekvenserne. "Genkend tale" og "gentænd svale" lyder f.eks. ens, men den første hypotese er meget mere sandsynlig og vil derfor blive tildelt en meget højere score af sprogmodellen. Hvis du har en forventning om, at stemmeanmodninger til dit program indeholder særlige elementer af ordforråd, såsom produktnavne eller jargon, der er ikke opstår ofte i almindelig tale, kan du sandsynligvis opnå en forbedre ydeevne ved at tilpasse sprogmodellen. Hvis du f.eks. bygger en app til at søge MSDN med tale, er det sandsynligt, at termer såsom "objektorienteret" eller "navneområde" eller "dot.net" forekommer hyppigere end i almindelige stemmeprogrammer. En tilpasning af sprogmodellen gør det muligt for systemet at lære dette.

  • Den akustiske model er en klassificering, der markerer korte fragmenter af lyd i adskillige fonemer eller lydenheder på hvert sprog. Disse fonemer kan derefter sættes sammen og forme ord. Ordet "tale" indeholder f.eks. fire fonemer, "t a l e". Disse klassificeringer er lavet 100 gange i sekundet efter ordre. Tilpasning af den akustiske model gør det muligt for systemet bedre at lære at genkende tale i atypiske miljøer. Hvis du f.eks. har en app, der er designet til at blive brugt af en medarbejder på et lager eller en fabrik, kan en tilpasset akustisk model genkende tale i disse lydmiljøer mere præcist.

  • Short Phrase-genkendelse understøtter ytringer på op til 15-sekunders længde. Når den bruges sammen med Speech Client Library, modtager klienten, imens data bliver sendt til serveren, flere forskellige delvise resultater og ét endeligt resultat med flere N-bedste muligheder.

  • Long Dictation-genkendelse understøtter ytringer på op til to-minutters længde. Når den bruges sammen med Speech Client Library, modtager klienten, imens data bliver sendt til serveren, flere forskellige delvise resultater og flere forskellige endelige resultater, på baggrund af, hvor serveren anfører sætningspauser.

  • Hvis f.eks. en kunde bruger niveau S1 til at behandle en million afskrifter, vil kunden blive opkrævet niveauprisen ($-), de første 100,000 afskrifter bliver faktureret $- pr. 1,000 afskrifter og de resterende 900,000 afskrifter bliver faktureret $- pr. 1,000 afskrifter. Så i praksis bliver kunden faktureret $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Se oplysningerne om Custom Speech Service på webstedet for Microsoft Cognitive Services og Custom Speech Service www.cris.ai.

  • Den brugerdefinerede modeludrulning er den proces, hvor en brugerdefineret model færdiggøres og fremvises som en tjeneste. Den resulterende brugerdefinerede modeludrulning afdækker et slutpunkt, som giver adgang til tjenesten. Brugerne kan vælge at udrulle lige så mange modeller, der er brug for.

  • Custom Speech Service giver brugerne mulighed for at tilpasse grundlæggende modeller på baggrund af deres egne akustiske data og sprogdata. Vi kalder denne proces tilpasning af model.

  • Når en brugerdefineret model oprettes, har brugerne mulighed for at uploade testdata for at evaluere den nyligt oprettede model. Brugerne kan teste de nye brugerdefinerede modeller med lige så mange data, som de har brug for, dvs. udføre et ubegrænset antal nøjagtighedstest.

  • Når en brugerdefineret model er blevet rullet ud, kan dens URI behandle én lydanmodning ad gangen. I forbindelse med scenarier, hvor der sendes mere end én lydanmodning samtidig til det pågældende URI, kan brugerne vælge at udskalere til fem samtidige anmodninger ad gangen. Dette opnås ved at købe skaleringsenheder. Hver skaleringsenhed garanterer op til fem samtidige lydanmodninger til en pris på $200 pr. skaleringsenhed. Hvis en bruger f.eks. har tænkt sig at ramme et slutpunkt med 23 lydanmodninger på samme tid, skal brugeren købe fem skaleringsenheder for at kunne få 25 samtidige anmodninger.

  • Logadministration giver brugerne mulighed for at deaktivere logføringen af deres udrullede modeller. De brugere, der bekymrer sig om beskyttelsen af personlige oplysninger, kan vælge at deaktivere logføringen for en udrullet model til en pris på $20 pr. måned.

  • Prisfastsættelse af anmodninger refererer til de omkostninger, der er forbundet med behandling af lydanmodninger af slutpunktet for en udrullet brugerdefineret model.

Generelt

  • Humør-API, Ansigtsregistrerings-API, Language Understanding Intelligent Service-API, Tale til tekst-API fra Bing og Tekst til tale-API fra Bing faktureres pr. 1.000 API-transaktionskald, når et kald til en produktions-API udføres aktivt. Der faktureres forholdsmæssigt for antal produktions-API-transaktionskald.

    Tjenesten Bing Long Form Speech API faktureres pr. time for tale, der analyseres. Der faktureres forholdsmæssigt på minutbasis.

    Recommendations-API og Text Analytics-API kan købes i enheder på standardniveauer til en fast pris. Med hver enhed på et niveau følger der et antal API-transaktioner. Hvis brugeren overskrider det medfølgende antal, faktureres overforbrug med den sats, der er angivet i pristabellen ovenfor. Dette overforbrug beregnes forholdsmæssigt, og tjenesten faktureres på månedsbasis. Det medfølgende antal på et niveau nulstilles hver måned.

  • Brugen begrænses, hvis transaktionsgrænsen på det gratis niveau nås. Kunder kan ikke opsamle overforbrug på det gratis niveau.

  • Enhver anmærkning til et dokument tæller som en transaktion. Batchscoringskald tager også højde for det antal dokumenter, der skal scores i den pågældende transaktion. Hvis der f.eks. sendes 1.000 dokumenter til synspunktsanalyse i et enkelt API-kald, tælles det som 1.000 transaktioner. Hvis en API understøtter mere end én anmærkningshandling, tages der også højde for det. Hvis det antages, at et API-kald udfører både synspunktsanalyse og foretager udtræk af vigtige udtryk for 1.000 dokumenter, tælles dette som 2.000 transaktioner (2 anmærkninger * 1.000 dokumenter).

  • Hvis forbruget på et standardniveau overskrides, tilskrives overforbruget til kontoen. Dette overforbrug faktureres på månedsbasis og beregnes med den sats, der er specificeret for hvert niveau.

  • Alle API-kald (med undtagelse af batchscoringskald) tælles som en transaktion. Batchscoringskald tælles på baggrund af antallet af elementer, der skal scores i den pågældende transaktion.

  • Brugen begrænses, hvis transaktionsgrænsen på det gratis niveau nås. Kunder kan ikke opsamle overforbrug på det gratis niveau. Batchscoring understøttes ikke på Gratis niveau.

  • Recommendations-API kan købes i enheder på Standard-niveauer til en fast pris. Med hver enhed på et niveau følger der et antal API-transaktioner. Hvis brugeren overskrider det medfølgende antal, faktureres overforbrug med den sats, der er angivet i pristabellen ovenfor. Dette overforbrug beregnes forholdsmæssigt, og tjenesten faktureres på månedsbasis. Det medfølgende antal på et niveau nulstilles hver måned.

  • Du kan til enhver tid opgradere til et højere niveau. Faktureringstaksten og de inkluderede mængder, der svarer til det højere niveau, træder i kraft med det samme.

Ressourcer

Beregn dine månedlige udgifter til Azure-tjenester

Se ofte stillede spørgsmål vedr. prissætning på Azure

Få mere at vide om Cognitive Services

Se tekniske vejledninger, videoer og anden dokumentation

Added to estimate. Press 'v' to view on calculator View on calculator

Få mere at vide og byg med $200 i kredit, og fortsæt gratis

Gratis konto