Overslaan naar hoofdinhoud
Azure

Prijzen voor Azure AI Spraak

Samengevoegde spraakservices voor spraak-naar-tekst, tekst-naar-spraak en spraakomzetting

De samengevoegde spraakservices bieden een groot aantal spraakherkennings- en generatiemogelijkheden zoals spraaktranscriptie, tekst naar spraak en spraakomzetting. De spraakservice biedt een groot aantal spraakherkennings- en generatiemogelijkheden zoals spraaktranscriptie, tekst naar spraak, spraakomzetting en sprekerherkenning.

Prijsopties verkennen

Pas filters toe om de prijsopties aan te passen aan uw behoeften.

De prijzen zijn slechts schattingen en zijn niet bedoeld als werkelijke prijsopgaven. De werkelijke prijzen kunnen variëren afhankelijk van het type overeenkomst dat is afgesloten met Microsoft, de aankoopdatum en de valutakoers. De prijzen worden berekend op basis van Amerikaanse dollars en worden geconverteerd op basis van de slotspot-tarieven in Londen die zijn vastgelegd in de twee werkdagen voor de laatste werkdag van de vorige maand. Als de twee werkdagen voor het einde van de maand vallen op een feestdag in de voornaamste markten, is de dag direct voorafgaande aan de twee werkdagen de dag van de tariefvaststelling. Dit tarief is van toepassing op alle transacties gedurende de aankomende maand. Meld u zich aan bij de Azure-prijscalculator voor prijzen op basis van uw huidige programma/aanbieding bij Microsoft. Neemt u contact op met een Azure-verkoopspecialist voor meer informatie over prijzen of om een prijsopgave aan te vragen. Zie veelgestelde vragen over Azure-prijzen.

Gratis (F0)

Categorie Functies Prijs
Spraak-naar-tekst
(facturering per seconde)
Standard 5 audio-uur gratis per maand3
Aangepast 5 audio-uur gratis per maand3
Hosting van eindpunt: 1 model gratis per maand1
Gesprektranscriptie - meerkanaals geluid PREVIEW 5 audio-uur gratis per maand
Tekst-naar-spraak
(facturering per teken)
Neuraal 0.5 million tekens gratis per maand
Spraakomzetting
(facturering per seconde)
Standard 5 audio-uur gratis per maand
Sprekerherkenning
(per transactiefacturering)
Sprekerverificatie2 10,000 gratis transacties per maand
Sprekeridentificatie2 10,000 gratis transacties per maand
Spraakprofielopslag 10,000 gratis transacties per maand
Speech services quotas and limits by tier (Free F0)

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

1Niet-gebruikte modellen worden na zeven dagen automatisch buiten bedrijf gesteld.

2Speaker Recognition is a limited access feature with a need to apply for access.

3Gratis audio-uren voor spraak-naar-tekst worden gedeeld tussen Standaard en Aangepast. Batch wordt niet ondersteund.

Betalen naar gebruik: betaal alleen voor wat u gebruikt.

Categorie Prijs
Voice Live Pro (facturering per m token)VL1 Tekst Invoer: $-
Invoer in cache: $-
Uitvoer: $-
Audio met Azure AI Spraak - Standaard Invoer: $-
Invoer in cache: $-
Uitvoer: $-
Audio met Azure AI Spraak - AangepastVL2 Uitvoer: $-
Systeemeigen audio met GPT-4o-Realtime Invoer: $-
Invoer in cache: $-
Uitvoer: $-
Voice Live Basic (facturering per m token)VL1 Tekst Invoer: $-
Invoer in cache: $-
Uitvoer: $-
Audio met Azure AI Spraak - Standaard Invoer: $-
Invoer in cache: $-
Uitvoer: $-
Audio met Azure AI Spraak - AangepastVL2 Uitvoer: $-
Systeemeigen audio met GPT-4o Mini-Realtime Invoer: $-
Invoer in cache: $-
Uitvoer: $-
Voice Live Lite (facturering per m token)VL1 Tekst Invoer: $-
Invoer in cache: $-
Uitvoer: $-
Audio met Azure AI Spraak - Standaard Invoer: $-
Invoer in cache: $-
Uitvoer: $-
Audio met Azure AI Spraak - AangepastVL2 Uitvoer: $-
Systeemeigen audio met Phi-MM Invoer: $-
Invoer in cache: $-
Spraak-naar-tekst
(facturering per seconde)
Standaardtranscriptie Realtimetranscriptie: $- per uur
Snelle transcriptie: $- per uur9
Batchtranscriptie: $- per uur1
Aangepaste transcriptie Realtimetranscriptie: $- per uur
Batchtranscriptie: $- per uur1
Hosting van eindpunt: $- per model per uur
Aangepaste spraaktraining5: $- per rekenuur
Verbeterde functies voor invoegtoepassingen:
  • Continue taalidentificatie
  • Spraakherkenning
  • Uitspraakevaluatie (prosodie, grammatica, vocabulaire, onderwerp)
Realtime: $- per uur per functie
Batch (continue taalidentificatie, diarisatie): Inbegrepen in Standaard/Aangepast (geen extra kosten)
Gesprektranscriptie - meerkanaals geluid PREVIEW $- per uur2
Spraakomzetting
(facturering per seconde)
Realtime Speech Translation $- per audio-uur3
Live Interpreter Input audio: $- per audio-uur
Output text: $- per 1 miljoen tekens
Output audio (Standard voice): $- per audio hourLI
Output audio (Custom voice): $- per audio hourLI
Videovertaling Invoervideo: $- per uur
Uitvoervideo (standaardstem): $- per uur
Uitvoervideo (persoonlijke stem): $- per uur
Text to Speech8 Standaardstem Neural (real-time en batch): $- per 1 miljoen tekens
Neural HD (real-time en batch)4: $- per 1 miljoen tekens
Custom Voice Professionele stem:
Synthese (real-time en batch): $- per 1 miljoen tekens
Synthese (realtime Neural HD en batch): $- per 1M tekens
Training van spraakmodel: $- per rekenuur tot $- per training
Hosting van eindpunt: $- per model per uur
Persoonlijke stem6:
Synthese (real-time en batch): $- per 1 miljoen tekens
Stem maken: gratis
Opslag van spraakprofielen: $- per 1000 spraakprofielen per maand
Verbeterde functies voor invoegtoepassingen: Avatar Standard:
Interactieve avatar (real-time): $- per minuut
Interactieve 4K-avatar (realtime): $- per minuut
Avatar-video (batch): $- per minuut
4K avatarvideo (batch): $- per minuut
Aangepast:
Training van avatar-modellen: $- per rekenuur
Interactieve avatar (real-time): $- per minuut
Interactieve 4K-avatar (realtime): $- per minuut
Avatar-video (batch): $- per minuut
4K avatarvideo (batch): $- per minuut
Eindpunthosting: $- per model per uur
Sprekerherkenning
(per transactiefacturering)
Sprekerverificatie7 $- per 1,000 transacties
Sprekeridentificatie7 $- per 1,000 transacties
Spraakprofielopslag $- per 1,000 spraakprofielen (10,000 gratis spraakprofielen per maand)
Speech-to-Text pricing details and features by tier

See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.

Spraak-naar-tekst-uren worden gemeten als audio-uren die naar de service worden verzonden, gefactureerd in twee stappen.

1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.

2Dit komt overeen met openbare preview-prijzen.

3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.

4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.

5Custom Speech-training is van toepassing bij het aanpassen van een basismodel dat op of na 1 oktober 2023 is uitgebracht.

6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.

7Speaker Recognition is a limited access feature with a need to apply for access.

8Text to Speech: spraaksynthesegebruik wordt gefactureerd per teken. Avatar wordt gefactureerd per seconde. Training en modelhosting worden gefactureerd per seconde.

9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.

VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.

VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.

LIThis price includes text output

Toezeggingslagen: Azure, Standard

Categorie Functies Prijs (per maand) Overschrijding
Speech to Text Standard $- voor 2,000 uur $- per uur
$- voor 10,000 uur $- per uur
$- voor 50,000 uur $- per uur
Aangepast $- voor 2,000 uur $- per uur
$- voor 10,000 uur $- per uur
$- voor 50,000 uur $- per uur
Verbeterde functies voor invoegtoepassingen:2
  • Continue taalidentificatie
  • Spraakherkenning
  • Uitspraakevaluatie (prosodie, grammatica, vocabulaire, onderwerp)
$- voor 2,000 uur $- per uur
$- voor 10,000 uur $- per uur
$- voor 50,000 uur $- per uur
Text to Speech Neuraal1 $- voor 80 miljoen tekens $- per 1 miljoen tekens
$- voor 400 miljoen tekens $- per 1 miljoen tekens
$- voor 2,000 miljoen tekens $- per 1 miljoen tekens

1Dit omvat zowel real-time synthese als batch-synthese met vooraf samengestelde niet-HD en niet-AOAI neurale stemmen. HD-stemmen, AOAI-stemmen, Aangepaste neurale stem en Persoonlijke stem zijn niet inbegrepen.

2Alleen realtime spraak-naar-tekst, invoegtoepassingsfuncties voor continue taalidentificatie en diarisatie die zijn opgenomen in batchspraak naar tekst.

Toezeggingslagen : verbonden container

Categorie Functies Prijs (per maand) Overschrijding
Speech to Text2 Standard $- voor 2,000 uur $- per uur
$- voor 10,000 uur $- per uur
$- voor 50,000 uur $- per uur
Aangepast $- voor 2,000 uur $- per uur
$- voor 10,000 uur $- per uur
$- voor 50,000 uur $- per uur
Verbeterde functies voor invoegtoepassingen:2
  • Taalidentificatie
  • Spraakherkenning
$- voor 2,000 uur $- per uur
$- voor 10,000 uur $- per uur
$- voor 50,000 uur $- per uur
Text to Speech Neuraal1 $- voor 80 miljoen tekens $- per 1 miljoen tekens
$- voor 400 miljoen tekens $- per 1 miljoen tekens
$- voor 2,000 miljoen tekens $- per 1 miljoen tekens

1Dit omvat real-time synthese met vooraf samengestelde niet-HD en niet-AOAI neurale stemmen. HD-stemmen, AOAI-stemmen en aangepaste stemmen (zowel professionele als persoonlijke stemmen) zijn niet inbegrepen. Batch-synthese is niet inbegrepen.

2Prijzen zijn van toepassing op realtime- en batchgebruikscases. Er zijn geen afzonderlijke batchprijzen voor containers.

See the documentation for information on Commitment tiers.

Toezeggingslagen : container is niet verbonden

Sign up to access speech in disconnected containers, or learn more

Categorie Functies Prijs (per jaar) Maximaal gebruik (per jaar) Geprojecteerd gebruik (per maand)
Speech to Text2 Standard $-
$-
Registreren om toegang te krijgen
Meer informatie
120.000 uur
600.000 uur
10.000 uur
50.000 uur
Aangepast $-
$-
Registreren om toegang te krijgen
Meer informatie
120.000 uur
600.000 uur
10.000 uur
50.000 uur
Verbeterde functies voor invoegtoepassingen:
  • Taalidentificatie
  • Spraakherkenning
$-
$-
120.000 uur
600.000 uur
10.000 uur
50.000 uur
Text to Speech Neuraal1 $-
$-
Registreren om toegang te krijgen
Meer informatie
4,8 miljard tekens
24 miljard tekens
400 miljoen tekens
2000 miljoen tekens

1Dit omvat real-time synthese met vooraf samengestelde niet-HD en niet-AOAI neurale stemmen. HD-stemmen, AOAI-stemmen en aangepaste stemmen (zowel professionele als persoonlijke stemmen) zijn niet inbegrepen. Batch-synthese is niet inbegrepen.

2Prijzen zijn van toepassing op realtime- en batchgebruikscases. Er zijn geen afzonderlijke batchprijzen voor containers.

Deze functies worden afgeschaft en zijn alleen beschikbaar voor bestaande klanten. Lees de details en ontdek hoe u kunt migreren naar nieuwe functies.

Exemplaar Categorie Functies Prijs
Gratis - Web/container
1 gelijktijdige aanvraag
Text to Speech Standard 5 million tekens gratis per maand
Aangepast 5 million tekens gratis per maand
Hosting van eindpunt: 1 model gratis per maand
Standaard - web/container
100 gelijktijdige aanvragen voor basismodel
20 gelijktijdige aanvragen voor aangepast model
Text to Speech Standard $- per 1 miljoen tekens
Aangepast $- per 1 miljoen tekens
Hosting van eindpunt: $- per model per uur

Azure-prijzen en -aankoopopties

Neem rechtstreeks contact met ons op

Bekijk een overzicht van Azure-prijzen. Krijg inzicht in prijscategorieën voor uw cloudoplossing, leer meer over kostenoptimalisatie en vraag een aangepast voorstel aan.

Praat met een verkoopspecialist

Aanschafmethoden bekijken

Koop Azure-services via de Azure-website, uw Microsoft-vertegenwoordiger of een Azure-partner.

Verken uw opties

Aanvullende bronnen

Azure AI Spraak

Meer informatie over functies en mogelijkheden van Azure AI Spraak.

Prijscalculator

Bereken de verwachte maandelijkse kosten voor het gebruik van een willekeurige combinatie van Azure-producten.

Documentatie

Gebruik technische zelfstudies, video's en andere Azure AI Spraak-bronnen.

    • Voor Spraak-naar-tekst en Spraakomzetting wordt verbruik gefactureerd in stappen van 1 seconde.
    • For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
    • For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
    • For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
    • Voor Text to Speech Avatar wordt het gebruik per seconde gefactureerd.
    • Voor Spraak-naar-tekst en Tekst-naar-spraak (inclusief Avatar) wordt eindpunthosting voor aangepaste modellen gefactureerd per seconde per model.
  • Met behulp van de spraakservice kunnen gebruikers basislijnmodellen aanpassen op basis van hun eigen akoestiek- en taalgegevens. Hierdoor ontstaan aangepaste spraakmodellen die voor zowel Spraak naar tekst als Spraakomzetting kunnen worden gebruikt.

  • Het taalmodel is een waarschijnlijkheidsverdeling over reeksen woorden. Het taalmodel helpt het systeem een beslissing te nemen bij reeksen woorden die (bijna) hetzelfde klinken, op basis van de waarschijnlijkheid van de woordreeksen zelf. Zo klinken 'hij drinkt water' en 'hij dringt water' bijna hetzelfde, maar omdat de eerste vorm veel vaker zal voorkomen dan de tweede, krijgt deze een hogere score in het taalmodel. Als u verwacht dat gesproken query's voor uw toepassing bepaalde items bevatten zoals productnamen of vaktermen die in gewone gesproken taal nauwelijks voorkomen, kunt u de prestaties in veel gevallen verbeteren door het taalmodel aan te passen. Als u bijvoorbeeld een app aan het bouwen bent om met gesproken opdrachten te zoeken in MSDN, komen termen als 'objectgeoriënteerd', 'naamruimte' of 'dot net' waarschijnlijk vaker voor dan in doorsnee spraaktoepassingen. Door het taalmodel aan te passen zorgt u ervoor dat het systeem dergelijke termen leert kennen.

  • Het akoestisch model is een classificatie waarbij in elke taal korte audiofragmenten worden gekwalificeerd als een van verschillende fonemen, of klankeenheden. Deze fonemen kunnen worden samengevoegd om woorden te vormen. Het woord 'spraak' bijvoorbeeld bestaat uit vijf fonemen: 's p r aa k'. Deze classificaties worden gemaakt in de orde van grootte van 100 keer per seconde. Door aanpassing van het akoestisch model kan het systeem leren om spraak beter te herkennen in atypische omgevingen. Als u bijvoorbeeld een app hebt die bedoeld is voor werknemers in een magazijn of fabriek, kan een aangepast akoestisch model spraak nauwkeuriger herkennen tussen alle andere geluiden in dergelijke omgevingen.

  • Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.

  • Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.

    • Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
    • It is charged as standard Speech to Text, example:
      For evaluation of 8 seconds of speech, you will be charged around $-

Praat met een verkoopspecialist voor een overzicht van de Azure-prijzen. Krijg inzicht in de prijzen voor uw cloudoplossing.

Maak gratis gebruik van cloudservices en $200 tegoed om Azure gedurende 30 dagen te kunnen verkennen.

Toevoegen aan schatting. Druk op 'v' om weer te geven in Calculator
Kunnen we u helpen?