Prijsinformatie Cognitive Services - Custom Speech Service PREVIEW

Gebruik intelligente API's om beeld-, spraak- en zoekfuncties in te stellen.

Met Custom Speech Service kunt u aangepaste modellen voor spraakherkenning maken en deze implementeren voor een spraak-naar-teksteindpunt dat op uw toepassing is afgestemd. Met Custom Speech Service kunt u het taalmodel van de spraakherkenning aanpassen, zodat het model het vocabulaire van uw toepassing en de spreekstijl van uw gebruikers leert kennen. U kunt ook het akoestisch model van de spraakherkenning aanpassen, zodat dit beter aansluit bij de verwachte omgeving en gebruikerspopulatie van de toepassing.

Prijsinformatie

Modelaanpassing is gratis.

Exemplaar Functies PrijsPREVIEW
Gratis Modelimplementaties 1 model gratis per maand
Modelaanpassing 3 uur gratis per maand
Nauwkeurigheidstests 2 uur gratis per maand
Opwaarts schalen N/A
Geen tracering N/A
Prijsaanvraag 2 uur gratis per maand
S2 Modelimplementaties $-/model/maand
Modelaanpassing Onbeperkt
Nauwkeurigheidstests 2 uur gratis; daarna $- per uur
Opwaarts schalen $-/eenheid/maand, waarbij u met elke eenheid vijf gelijktijdige aanvragen kunt verzenden
Geen tracering $-/model/maand
Prijsaanvraag 2 uur gratis; daarna $- per uur

Ondersteuning en SLA

 • Gratis ondersteuning voor facturerings- en abonnementsbeheer is inbegrepen.
 • Hebt u technische ondersteuning nodig voor preview-services? Gebruik onze forums.
 • Wij bieden de garantie dat Cognitive Services die in de standaardlaag worden uitgevoerd, minimaal 99,9% van de tijd beschikbaar zijn. Er is geen SLA voor de gratis proefversie. De SLA lezen.
 • Geen SLA tijdens preview-periode. Meer informatie.

Veelgestelde vragen

 • Categorie 1 kan tot vier audioblokken (ofwel vier transcripties) tegelijk verwerken en nog steeds in real time reageren. Als de gebruiker meer dan vier audioblokken tegelijk verstuurt, wordt elk daaropvolgend audioblok geweigerd en teruggestuurd met een foutcode die aangeeft dat er te veel blokken tegelijk worden ontvangen. Hetzelfde geldt voor Categorie 2, waarvoor 12 transcripties tegelijk kunnen worden verwerkt. In de gratis versie kan slechts één transcriptie per keer worden verstuurd. Er wordt van uitgegaan dat de audio in real time wordt geüpload. Wordt audio sneller geüpload, dan wordt vanwege de gelijktijdigheid ervan uitgegaan dat de aanvraag doorgaat totdat de duur van de audio is verstreken (ook al is het mogelijk dat het herkenningsresultaat eerder wordt teruggestuurd).

  Opmerking: Als er een hogere mate van gelijktijdigheid nodig is, kunt u contact met ons opnemen.

 • Het taalmodel is een waarschijnlijkheidsverdeling over reeksen woorden. Het taalmodel helpt het systeem een beslissing te nemen bij reeksen woorden die (bijna) hetzelfde klinken, op basis van de waarschijnlijkheid van de woordreeksen zelf. Zo klinken 'hij drinkt water' en 'hij dringt water' bijna hetzelfde, maar omdat de eerste vorm veel vaker zal voorkomen dan de tweede, krijgt deze een hogere score in het taalmodel. Als u verwacht dat gesproken query's voor uw toepassing bepaalde items bevatten zoals productnamen of vaktermen die in gewone gesproken taal nauwelijks voorkomen, kunt u de prestaties in veel gevallen verbeteren door het taalmodel aan te passen. Als u bijvoorbeeld een app aan het bouwen bent om met gesproken opdrachten te zoeken in MSDN, komen termen als 'objectgeoriënteerd', 'naamruimte' of 'dot net' waarschijnlijk vaker voor dan in doorsnee spraaktoepassingen. Door het taalmodel aan te passen zorgt u ervoor dat het systeem dergelijke termen leert kennen.

 • Het akoestisch model is een classificatie waarbij in elke taal korte audiofragmenten worden gekwalificeerd als een van verschillende fonemen, of klankeenheden. Deze fonemen kunnen worden samengevoegd om woorden te vormen. Het woord 'spraak' bijvoorbeeld bestaat uit vijf fonemen: 's p r aa k'. Deze classificaties worden gemaakt in de orde van grootte van 100 keer per seconde. Door aanpassing van het akoestisch model kan het systeem leren om spraak beter te herkennen in atypische omgevingen. Als u bijvoorbeeld een app hebt die bedoeld is voor werknemers in een magazijn of fabriek, kan een aangepast akoestisch model spraak nauwkeuriger herkennen tussen alle andere geluiden in dergelijke omgevingen.

 • Short Phrase-herkenning ondersteunt gesproken tekst van maximaal 15 seconden. Als in combinatie met de Speech Client-bibliotheek gegevens naar de server worden verzonden, ontvangt de client meerdere gedeeltelijke resultaten en één eindresultaat op basis van meerdere N-beste keuzen.

 • Long Dictation-herkenning ondersteunt gesproken tekst van maximaal twee minuten. Als in combinatie met de Speech Client-bibliotheek gegevens naar de server worden verzonden, ontvangt de client meerdere gedeeltelijke resultaten en meerdere eindresultaten, op basis van de positie waar de server pauzes in zinnen aangeeft.

 • Als een klant bijvoorbeeld de S1-categorie gebruikt om 1 miljoen transcripties te verwerken, betaalt hij de categorieprijs ($-), waarbij de eerste 100,000 transcripties in rekening worden gebracht voor $- per 1,000 transcripties en de resterende 900,000 transcripties voor $- per 1,000 transcripties. Dat betekent dat de klant $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500 in rekening wordt gebracht.

 • Raadpleeg de informatie over Custom Speech Service op de webpagina van Microsoft Cognitive Services en op de website van Custom Speech Service.

 • Aangepaste modelimplementatie is het proces van het inpakken van een aangepast model en dat vervolgens aanbieden als een service. Het resulterende geïmplementeerde aangepaste model biedt een eindpunt via welke het kan worden benaderd. Gebruikers kunnen zoveel modellen implementeren als ze willen.

 • Met Custom Speech Service kunnen gebruikers basislijnmodellen aanpassen op basis van hun eigen akoestische en taalgegevens. Dat proces noemen we modelaanpassing.

 • Bij het maken van een aangepast model hebben gebruikers de optie testgegevens te uploaden om het nieuwe model te evalueren. Gebruikers kunnen de nieuwe aangepaste modellen testen met net zoveel gegevens als ze willen en kunnen bijvoorbeeld onbeperkte nauwkeurigheidstests uitvoeren.

 • Wanneer een aangepast model geïmplementeerd is, kan de bijbehorende URI één audioaanvraag per keer verwerken. Voor scenario’s waarbij meerdere audioaanvragen tegelijkertijd naar die URI worden verzonden, kunnen gebruikers uitschalen naar een frequentie van vijf gelijktijdige aanvragen per keer. Dat wordt gerealiseerd door schaaleenheden aan te schaffen. Elke schaaleenheid garandeert maximaal vijf gelijktijdige audioaanvragen tegen $200 per schaaleenheid. Als een gebruiker bijvoorbeeld voorziet dat dit eindpunt wordt bereikt met 23 audioaanvragen per keer, moet die gebruiker vijf schaaleenheden aanschaffen om 25 gelijktijdige aanvragen te garanderen.

 • Met logboekbeheer kunnen gebruikers logboekregistratie voor hun geïmplementeerde modellen uitschakelen. Gebruikers die zich zorgen maken over privacy, kunnen ervoor kiezen logboekregistratie voor een geïmplementeerd model uit te schakelen met een frequentie van $20 per maand.

 • Prijsaanvraag verwijst naar de kosten van het verwerken van audioaanvragen door het eindpunt van een geïmplementeerd aangepaste model.

Bronnen

Schat uw maandelijkse kosten voor Azure-services

Lees de veelgestelde vragen over Azure-prijzen

Meer informatie over Cognitive Services

Gebruik technische zelfstudies, video's en andere bronnen

Toevoegen aan schatting. Druk op 'v' om weer te geven in Calculator

Leren en bouwen met $200 aan tegoed en blijven doorwerken