Gå til hovedindhold

Priser for Azure AI Tale

Samlede taletjenester for tale-til-tekst, tekst-til-tale og taleoversættelse

De samlede taletjenester giver en bred vifte af funktioner til talegenkendelse og generering, herunder transskribering af tale, tekst til tale og taleoversættelse. Taletjenesten indeholder en lang række egenskaber til talegenkendelse og -generering, herunder taletransskription, taleoversættelse og genkendelse af den talende.

Se prismuligheder

Anvend filtre for at tilpasse prismulighederne efter dine behov.

Priserne er kun estimater og er ikke beregnet som faktiske pristilbud. De faktiske priser kan variere afhængigt af den type aftale, der er indgået med Microsoft, købsdatoen og valutakursen. Priserne beregnes ud fra den amerikanske dollar og konverteres ved hjælp af London børsens slutkurs, der registreres i løbet af de to hverdage før den sidste hverdag i den forrige måned. Hvis de to hverdage før månedens slutning falder på en banklukkedag på større markeder, angives kursen umiddelbart dagen før de to hverdage. Denne kurs gælder for alle transaktioner i løbet af den kommende måned. Log på Azure-prisberegneren for at se priser baseret på dit aktuelle program/tilbud med Microsoft. Kontakt en Azure-salgsspecialist for at få flere oplysninger om priser eller for at anmode om et pristilbud. Se ofte stillede spørgsmål om Azure-priser.

Gratis (F0)

Kategori Funktioner Pris
Tale til tekst
(fakturering pr. sekund)
Standard 5 gratis lydtimer pr. måned3
Brugerdefineret 5 gratis lydtimer pr. måned3
Slutpunktshosting: 1 gratis model pr. måned1
Lyd via flere kanaler til samtaletransskription PRØVEVERSION 5 gratis lydtimer pr. måned
Tekst-til-tale
(fakturering pr. tegn)
Neural 0.5 million gratis tegn pr. måned
Taleoversættelse
(fakturering pr. sekund)
Standard 5 gratis lydtimer pr. måned
Speaker Recognition
(fakturering pr. transaktion)
Verificering af den talende2 10,000 gratis transaktioner pr. måned
Identifikation af den talende2 10,000 gratis transaktioner pr. måned
Voice Profile Storage 10,000 gratis transaktioner pr. måned

Se dokumentationen for at få oplysninger om kvotaer, grænser og instruktioner om, hvordan du øger samtidige anmodninger.

1Ubrugte modeller tages automatisk ud af drift efter 7 dage.

2Speaker Recognition er en funktion med begrænset adgang, hvor du skal ansøge om adgang.

3Gratis lydtimer for tale til tekst deles mellem standard og brugerdefineret. Batch understøttes ikke.

Pay As You Go: Betal kun for det, du bruger.

Kategori Funktioner Pris
Tale til tekst
(fakturering pr. sekund)
Realtid Batch
v3.2 API eller nyere4
Standard $- pr. time $- pr. time
Brugerdefineret $- pr. time
Slutpunktshosting: $- pr. model pr. time
$- pr. time
Slutpunktshosting: ikke tilgængelig
Brugerdefineret træning i Tale6 $- pr. beregningstime
Forbedrede funktioner til tilføjelsesprogrammer:
 • Kontinuerlig sprogidentifikation
 • Diarization
 • Vurdering af udtale (prosodi, grammatik, ordforråd, emne)
$- pr. time pr. funktion Kontinuerlig sprogidentifikation og diarisering er inkluderet5
Lyd via flere kanaler til samtaletransskription PRØVEVERSION $- pr. time1 I/T
Tekst-til-tale
(fakturering pr. tegn)
Neural Batchsyntese i realtid: $- pr. 1 mio. tegn
Neural HD I realtid og batchsyntese: $- pr. 1 mio. tegn
Brugerdefineret neural2 Træning: $- pr. beregningstime, op til $- pr. træning
Batchsyntese i realtid: $- pr. 1 mio. tegn
Slutpunktshosting: $- pr. model pr. time
Personlig stemme8 Stemmeoprettelse: gratis
Stemmeprofillager: $- pr. 1.000 stemmeprofiler pr. måned
Syntese: $- pr. 1 mio. tegn
Tekst-til-tale-Avatar (fakturering pr. sekund) Avatar Realtid og batchsyntese: $- pr. minut
Brugerdefineret avatar9 Syntese i realtid: $- pr. minut
Batchsyntese: $- pr. minut
Slutpunktshosting: $- pr. model pr. måned
Taleoversættelse
(fakturering pr. sekund)
Standard $- pr. lydtime7
Speaker Recognition
(fakturering pr. transaktion)
Verificering af den talende3 $- pr. 1,000 transaktioner
Identifikation af den talende3 $- pr. 1,000 transaktioner
Voice Profile Storage $- pr. 1,000 stemmeprofiler (10,000 stemmeprofiler pr. måned)

Se dokumentationen for at få oplysninger om kvotaer, grænser og instruktioner om, hvordan du øger samtidige anmodninger.

Tale til tekst-timer måles som de timer med lyd, der sendes til tjenesten, faktureret i sekundintervaller.

1 Dette afspejler prisfastsættelsen for den offentlige prøveversion. Priserne for den generelt tilgængelige version vil blive meddelt senere.

2 Brugerdefineret neural stemme (CNV) er en begrænset adgangsfunktion med Pro- og Lite-versioner. Med CNV Lite (offentlig prøveversion) kan kunder optage deres egen stemme og lave en model til demonstration/evaluering, før de adgang til Pro. Se hvor CNV er tilgængelig.

3 Speaker Recognition er en funktion med begrænset adgang, hvor du skal ansøge om adgang.

4 Hvis du vil drage fordel af denne nye prisfastsættelse, skal du bruge den nye Tale til tekst REST API V3.2-prøveversionen. Se Opret en batchtransskription – Taletjeneste – Azure AI-tjenester | Microsoft Learn for at få oplysninger om brugen af den nye v3.2-prøveversions-API.

5 Forbedrede tilføjelsesfunktioner er inkluderet i Batch-prisen for alle Batch API-versioner.

6 Brugerdefineret træning i tale gælder, når du tilpasser en basismodel, der er udgivet den 1. okt. 2023 eller senere.

7 Denne pris inkluderer 1 lydinput og -output, op til 2 tekstoversættelsessprog ved hjælp af standard- eller brugerdefinerede Tale til tekst og standardoversættelse. Hvis du vil have brugerdefineret oversættelse eller mere end 3 oversættelsessprog, skal du se siden med priser på Azure AI Translator Text Translation.

8 Dette afspejler prisfastsættelsen for den offentlige prøveversion. Prisen for den generelt tilgængelige version annonceres senere i forbindelse med den generelt tilgængelige version. Personal Voice er en begrænset adgangsfunktion, der er begrænset til visse forhåndsgodkendte use cases, der kun er, med behov for at ansøge om adgang. Du kan få mere at vide om tjenesten ved kontrollere dokumentet.

9 Brugerdefineret Avatar er en funktion med begrænset adgangsfunktionalitet med behov for at ansøge om adgang

Bindingsniveauer – Azure – Standard

Kategori Funktioner Pris (pr. måned) Overforbrug
Tale til tekst Standard $- i 2,000 timer $- pr. time
$- i 10,000 timer $- pr. time
$- i 50,000 timer $- pr. time
Brugerdefineret $- i 2,000 timer $- pr. time
$- i 10,000 timer $- pr. time
$- i 50,000 timer $- pr. time
Forbedrede funktioner til tilføjelsesprogrammer:2
 • Kontinuerlig sprogidentifikation
 • Diarization
 • Vurdering af udtale (prosodi, grammatik, ordforråd, emne)
$- i 2,000 timer $- pr. time
$- i 10,000 timer $- pr. time
$- i 50,000 timer $- pr. time
Tekst-til-tale Neural1 $- for 80 mio. tegn $- pr. 1 mio. tegn
$- for 400 mio. tegn $- pr. 1 mio. tegn
$- for 2,000 mio. tegn $- pr. 1 mio. tegn

1Kun syntese i realtid. Dette inkluderer ikke lang lydoprettelse.

2Kun tale til tekst i realtid, funktioner til identifikation af fortløbende sprog og diarisering, der følger med batch tale til tekst.

Bindingsniveauer – forbundet objektbeholder

Kategori Funktioner Pris (pr. måned) Overforbrug
Tale til tekst2 Standard $- i 2,000 timer $- pr. time
$- i 10,000 timer $- pr. time
$- i 50,000 timer $- pr. time
Brugerdefineret $- i 2,000 timer $- pr. time
$- i 10,000 timer $- pr. time
$- i 50,000 timer $- pr. time
Forbedrede funktioner til tilføjelsesprogrammer:2
 • Sprogidentifikation
 • Diarization
$- i 2,000 timer $- pr. time
$- i 10,000 timer $- pr. time
$- i 50,000 timer $- pr. time
Tekst-til-tale Neural1 $- for 80 mio. tegn $- pr. 1 mio. tegn
$- for 400 mio. tegn $- pr. 1 mio. tegn
$- for 2,000 mio. tegn $- pr. 1 mio. tegn

1Kun syntese i realtid. Dette inkluderer ikke lang lydoprettelse.

2Priserne gælder for use cases i realtid og batch. Der er ingen separate batchpriser for objektbeholdere.

Se dokumentationen for at få oplysninger om bindingsniveauer.

Bindingsniveauer – ikke-forbundet objektbeholder

Tilmeld dig for at få adgang til tale i objektbeholdere uden forbindelse, eller få mere at vide

Kategori Funktioner Pris (pr. år) Maks. forbrug (pr. år) Forventet forbrug (pr. måned)
Tale til tekst2 Standard $-
$-
Tilmeld dig for at få adgang
Få mere at vide
120.000 timer
600.000 timer
10.000 timer
50.000 timer
Brugerdefineret $-
$-
Tilmeld dig for at få adgang
Få mere at vide
120.000 timer
600.000 timer
10.000 timer
50.000 timer
Forbedrede funktioner til tilføjelsesprogrammer:
 • Sprogidentifikation
 • Diarization
$-
$-
120.000 timer
600.000 timer
10.000 timer
50.000 timer
Tekst-til-tale Neural1 $-
$-
Tilmeld dig for at få adgang
Få mere at vide
4.8 mia. tegn
24 mia. tegn
400 mio. tegn
2 mia. tegn

1Kun syntese i realtid. Dette inkluderer ikke lang lydoprettelse.

2Priserne gælder for use cases i realtid og batch. Der er ingen separate batchpriser for objektbeholdere.

Disse funktioner udfases og er kun tilgængelige for eksisterende kunder. Tjek oplysninger og få mere at vide om, hvordan du migrerer til nye funktioner.

Instans Kategori Funktioner Pris
Gratis - Web/Container
1 samtidig anmodning
Tekst-til-tale Standard 5 million gratis tegn pr. måned
Brugerdefineret 5 million gratis tegn pr. måned
Slutpunktshosting: 1 gratis model pr. måned
Standard – Web/Objektbeholder
100 samtidige anmodninger om basismodel
20 samtidige anmodninger om brugerdefineret model
Tekst-til-tale Standard $- pr. 1 mio. tegn
Brugerdefineret $- pr. 1 mio. tegn
Slutpunktshosting: $- pr. model pr. time

Azure-priser og købsmuligheder

Få direkte kontakt til os

Få en gennemgang af Azure-prisfastsættelse. Få en forståelse af prisfastsættelsen på din skyløsning, få mere at vide om omkostningsoptimering, og anmod om et tilpasset tilbud.

Tal med en sælger

Se flere måder at købe på

Køb Azure-tjenester via Azure-webstedet, en Microsoft-repræsentant eller en Azure-partner.

Se nærmere på dine muligheder

Flere ressourcer

Azure AI Tale

Få mere at vide om funktioner og egenskaber i forbindelse med Azure AI Tale.

Prisberegner

Anslå dine forventede månedlige omkostninger ved hjælp af en hvilken som helst kombination af Azure-produkter.

Dokumentation

Se tekniske vejledninger, videoer og andet Azure AI Tale-materiale.

  • For Tale til tekst og Taleoversættelse faktureres forbruget i intervaller på ét sekund.
  • For Tekst-til-tale: forbrug faktureres pr. tegn. Kontrollér definitionen af tegn i bemærkningen til prisfastsættelsen.
  • For hosting af brugerdefineret neural stemme: Forbrug faktureres pr. slutpunkt pr. sekund. Se detaljerne i prisnoten.
  • For personligt stemmeprofillager: Forbrug faktureres pr. stemmeprofil pr. dag. Se detaljerne i prisnoten.
  • For Tekst-til-tale Avatar faktureres forbruget pr. sekund.
  • For Tale-til-tekst og Tekst-til-tale (herunder Avatar) faktureres slutpunktshosting for brugerdefinerede modeller pr. sekund pr. model.
 • Speech Service giver brugerne mulighed for at tilpasse grundlæggende modeller på baggrund af deres egne akustiske data og sprogdata. Det giver brugerdefinerede talemodeller, som kan bruges til både Tale til tekst og Taleoversættelse.

 • Sprogmodellen er en sandsynlighedsdistribution baseret på ordsekvenser. Sprogmodellen hjælper systemet med at fastlægge ordsekvenser, der lyder ens, på baggrund af sandsynligheden for selve ordsekvenserne. \"Genkend tale\" og \"gentænd svale\" lyder f.eks. ens, men den første hypotese er meget mere sandsynlig og vil derfor blive tildelt en meget højere score af sprogmodellen. Hvis du har en forventning om, at stemmeanmodninger til dit program indeholder særlige elementer af ordforråd, såsom produktnavne eller jargon, der er ikke opstår ofte i almindelig tale, kan du sandsynligvis opnå en forbedre ydeevne ved at tilpasse sprogmodellen. Hvis du f.eks. bygger en app til at søge MSDN med tale, er det sandsynligt, at termer såsom \"objektorienteret\" eller \"navneområde\" eller \"dot.net\" forekommer hyppigere end i almindelige stemmeprogrammer. En tilpasning af sprogmodellen gør det muligt for systemet at lære dette.

 • Den akustiske model er en klassificering, der markerer korte fragmenter af lyd i adskillige fonemer eller lydenheder på hvert sprog. Disse fonemer kan derefter sættes sammen og forme ord. Ordet \"tale\" indeholder f.eks. fire fonemer, \"t a l e\". Disse klassificeringer er lavet 100 gange i sekundet efter ordre. Tilpasning af den akustiske model gør det muligt for systemet bedre at lære at genkende tale i atypiske miljøer. Hvis du f.eks. har en app, der er designet til at blive brugt af en medarbejder på et lager eller en fabrik, kan en tilpasset akustisk model genkende tale i disse lydmiljøer mere præcist.

 • Tale-tjenesten tilbyder en lang række tekst til tale-stemmetyper (TTS), men den brugerdefinerede neurale stemme giver dig mulighed for at skabe din egen brugerdefinerede stemme, der passer til dine behov og dit brand. Læs bloggen for at få flere oplysninger.

 • Sprogsidentifikation giver dig mulighed for at identificere et skift i talt sprog og transskribere tale i overensstemmelse hermed. Dette kan anvendes i scenarier, hvor lydsproget er ukendt, eller når taler(e) kan tale flere sprog. Enkeltsprogsidentifikation er tilgængelig uden ekstra omkostninger. Fortløbende sprogidentifikation er en forbedret funktion til tilføjelsesprogrammer. Vis dokumenter for at få mere at vide.

  • Vurdering af udtale evaluerer udtale af tale og giver talende feedback om nøjagtigheden og talefærdigheden af den indtalte lyd. Med udtalevurdering kan sprogelever øve sig, få øjeblikkelig feedback og forbedre deres udtale, så de kan tale og præsentere med ro i sindet. Undervisere kan bruge funktionen til at evaluere udtalen af flere talere i realtid. Besøg dokumenter for at få mere at vide.
  • Det faktureres som standard Tale til tekst, f.eks.:
   For evaluering af 8 sekunders tale faktureres du omkring $-

Tal med en sælger, og få en gennemgang af Azure-priserne. Få en forståelse af prisen på din cloudløsning.

Få gratis cloudtjenester og en kredit på $200, så du kan udforske Azure i 30 dage.

Tilføjet for at beregne. Tryk på 'v' for at få vist på beregner
Kan vi hjælpe dig?