Gå till huvudinnehåll
Azure

Priser för Azure AI Speech

Unified Speech Services för tal-till-text, text-till-tal och talöversättning

De enhetliga Speech-tjänsterna omfattar ett brett utbud funktioner för taligenkänning och talgenerering, som taltranskription, text till tal och talöversättning. Speech-tjänsterna omfattar ett brett utbud funktioner för taligenkänning och talgenerering, som taltranskription, text till tal, talöversättning och talarigenkänning.

Utforska prisalternativ

Använd filter för att anpassa prisalternativ efter dina behov.

Priserna är endast uppskattningar och är inte avsedda som faktiska priscitat. Den faktiska prissättningen kan variera beroende på vilken typ av avtal som ingås med Microsoft, inköpsdatum och växelkursen. Priserna beräknas baserat på amerikanska dollar och konverteras med London stängningskurs som registreras under de två arbetsdagarna före den sista arbetsdagen i föregående månads slut. Om de två arbetsdagarna före slutet av månaden infaller på en helgdag på större marknader är prisinställningsdagen vanligtvis dagen omedelbart före de två arbetsdagarna. Den här avgiften gäller för alla transaktioner under den kommande månaden. Logga in på priskalkylatorn för Azure för att se priser baserat på ditt aktuella program/erbjudande hos Microsoft. Kontakta en Azure försäljningsspecialist för mer information om prissättning eller för att begära en prisoffert. Se vanliga frågor och svar om Prissättning för Azure.

Kostnadsfri (F0)

Kategori Funktioner Pris
Tal till text
(fakturering per sekund)
Standard 5 ljudtimmar utan kostnad per månad3
Anpassat 5 ljudtimmar utan kostnad per månad3
Värdhantering med slutpunkt: 1 modell utan kostnad per månad1
Flerkanalsljud för samtalstranskription FÖRHANDSVERSION 5 ljudtimmar utan kostnad per månad
Text till tal
(fakturering per tecken)
Neural 0.5 million tecken utan kostnad per månad
Talöversättning
(fakturering per sekund)
Standard 5 ljudtimmar utan kostnad per månad
Talarigenkänning
(fakturering per transaktion)
Talarverifiering2 10,000 kostnadsfria transaktioner per månad
Talaridentifiering2 10,000 kostnadsfria transaktioner per månad
Lagring av röstprofil 10,000 kostnadsfria transaktioner per månad

Se dokumentationen för information om kvoter, gränser och instruktioner om hur du ökar samtidiga begäranden.

1Oanvända modeller inaktiveras automatiskt efter 7 dagar

2Talarigenkänning är en funktion med begränsad åtkomst där du måste ansöka om åtkomst.

3Kostnadsfria ljudtimmar för tal till text delas mellan Standard och Custom. Batch stöds inte.

Betala per användning: betala endast för det du använder.

Kategori Pris
Tal till text
(fakturering per sekund)
Standard Transkription i realtid: $- per timme
Snabb transkription: $- per timme9
Batch-transkription: $- per timme1
Anpassat Transkription i realtid: $- per timme
Batch-transkription: $- per timme1
Värdhantering med slutpunkt: $- per modell och timme
Anpassat tal-träning5: $- per beräkningstimme
Förbättrade tilläggsfunktioner:
  • Kontinuerlig språkidentifiering
  • Diarisering
  • Uttalsutvärdering (prosody, grammatik, vokabulär, ämne)
Realtid: $- per timme per funktion
Batch (kontinuerlig språkidentifiering, diarisering): Ingår i Standard/Anpassad (ingen extra kostnad)
Flerkanalsljud för samtalstranskription FÖRHANDSVERSION $- per timme2
Talöversättning
(fakturering per sekund)
Talöversättning i realtid $- per ljudtimme3
VideoöversättningFörhandsversion Batch: $- per utdatavideominut
Innehållsredigering: $- per utdatavideominut
Personlig röst: $- per utdatavideominut
Text till tal8 Standardröst Neural: $- per 1 miljon tecken
Neural HD4: $- per 1 miljon tecken
Custom Voice Professionell röst:
Syntet: $- per 1 miljon tecken
Träning av röstmodell: $- per beräkningstimme, upp till $- per träning
Värdhantering med slutpunkt: $- per modell och timme
Personlig röst6:
Syntet: $- per 1 miljon tecken
Röstskapande: Kostnadsfritt
Lagring av röstprofil: $- per 1 000 röstprofiler per månad
Förbättrade tilläggsfunktioner: Avatar Standard: $- per minut
Anpassat:
Realtidssyntes: $- per minut
Batchsyntes: $- per minut
Slutpunktsvärd: $- per modell och timme
Talarigenkänning
(fakturering per transaktion)
Talarverifiering7 $- per 1,000 transaktioner
Talaridentifiering7 $- per 1,000 transaktioner
Lagring av röstprofil $- per 1,000 röstprofiler (10,000 röstprofiler per månad)

Se dokumentationen för information om kvoter, gränser och instruktioner om hur du ökar samtidiga begäranden.

Tal till text-timmar mäts som timmar ljud som skickas till tjänsten, faktureras i andra steg.

1Om du vill dra nytta av den här nya prissättningen för batch-transkription måste du använda Tal till text REST API V3.2 eller senare versioner. Mer information finns i Tal till text-REST API.

2Detta återspeglar prissättningen för den offentliga förhandsversionen.

3I det här priset ingår 1 ljudinmatning och utdata, upp till 2 textöversättningsspråk med standardspråk eller anpassade Tal till text och standardöversättning. För anpassade översättningsspråk eller 3+ översättningsspråk refererar du till Azure AI Translator Text sidan med översättningspriser.

4OpenAI-text till tal-röster är tillgängliga via två modellvarianter: Neural och NeuralHD. Läs mer här.

5Anpassad talträning gäller när du anpassar en basmodell som släpps den 1 oktober 2023 eller senare.

6Personal Voice är en begränsad åtkomstfunktion som är begränsad till vissa förgodkända användningsfall endast, med ett behov av att ansöka om åtkomst. Om du vill veta mer om tjänsten kontrollera dokumentets.

7Talarigenkänning är en funktion med begränsad åtkomst där du måste ansöka om åtkomst.

8Text till tal: talsyntesanvändning faktureras per tecken. Avataren faktureras per sekund. Utbildnings- och modellvärdtjänster faktureras per sekund.

9Om du vill använda snabb transkription måste du använda tal till text REST API 2024-05-15-förhandsversion eller senare versioner. Mer information finns i Tal till text-REST API.

Åtagandenivåer – i Azure – Standard

Kategori Funktioner Pris (per månad) Överförbrukning
Tal till text Standard $- för 2,000 timmar $- per timme
$- för 10,000 timmar $- per timme
$- för 50,000 timmar $- per timme
Anpassat $- för 2,000 timmar $- per timme
$- för 10,000 timmar $- per timme
$- för 50,000 timmar $- per timme
Förbättrade tilläggsfunktioner:2
  • Kontinuerlig språkidentifiering
  • Diarisering
  • Uttalsutvärdering (prosody, grammatik, vokabulär, ämne)
$- för 2,000 timmar $- per timme
$- för 10,000 timmar $- per timme
$- för 50,000 timmar $- per timme
Text till tal Neural1 $- för 80M tecken $- per 1M tecken
$- för 400M tecken $- per 1M tecken
$- för 2,000M tecken $- per 1M tecken

1Endast realtidssyntes, detta inkluderar inte långt ljudskapande.

2Endast tal till text i realtid, tilläggsfunktioner för kontinuerlig språkidentifiering och diarisering som ingår i batchtal till text.

Anslutningscontainer för – åtagandenivåer

Kategori Funktioner Pris (per månad) Överförbrukning
Tal till text2 Standard $- för 2,000 timmar $- per timme
$- för 10,000 timmar $- per timme
$- för 50,000 timmar $- per timme
Anpassat $- för 2,000 timmar $- per timme
$- för 10,000 timmar $- per timme
$- för 50,000 timmar $- per timme
Förbättrade tilläggsfunktioner:2
  • Språkidentifiering
  • Diarisering
$- för 2,000 timmar $- per timme
$- för 10,000 timmar $- per timme
$- för 50,000 timmar $- per timme
Text till tal Neural1 $- för 80M tecken $- per 1M tecken
$- för 400M tecken $- per 1M tecken
$- för 2,000M tecken $- per 1M tecken

1Endast realtidssyntes, detta inkluderar inte långt ljudskapande.

2Prissättningen gäller för användningsfall i realtid och batchar. Det finns inga separata batchpriser för containrar.

Information om åtagandenivåer finns i dokumentationen.

Behållare för – frånkopplade åtagandenivåer

Registrera dig för att få åtkomst till tal i frånkopplade containrar eller läs mer

Kategori Funktioner Pris (per år) Maximal användning (per år) Beräknad användning (per månad)
Tal till text2 Standard $-
$-
Registrera dig för att få åtkomst
Läs mer
120 000 timmar
600 000 timmar
10 000 timmar
50 000 timmar
Anpassat $-
$-
Registrera dig för att få åtkomst
Läs mer
120 000 timmar
600 000 timmar
10 000 timmar
50 000 timmar
Förbättrade tilläggsfunktioner:
  • Språkidentifiering
  • Diarisering
$-
$-
120 000 timmar
600 000 timmar
10 000 timmar
50 000 timmar
Text till tal Neural1 $-
$-
Registrera dig för att få åtkomst
Läs mer
4,8B tecken
24B tecken
400 miljoner tecken
2 000 miljoner tecken

1Endast realtidssyntes, detta inkluderar inte långt ljudskapande.

2Prissättningen gäller för användningsfall i realtid och batchar. Det finns inga separata batchpriser för containrar.

Dessa funktioner är inaktuella och är endast tillgängliga för befintliga kunder att använda. Kontrollera information och lär dig hur du migrerar till nya funktioner.

Instans Kategori Funktioner Pris
Kostnadsfri - Webb/Container
1 samtidig begäran
Text till tal Standard 5 million tecken utan kostnad per månad
Anpassat 5 million tecken utan kostnad per månad
Värdhantering med slutpunkt: 1 modell utan kostnad per månad
Standard – webb/container
100 samtidiga begäranden för basmodellen
20 samtidiga begäranden för den anpassade modellen
Text till tal Standard $- per 1 miljon tecken
Anpassat $- per 1 miljon tecken
Värdhantering med slutpunkt: $- per modell och timme

Priser och köpalternativ för Azure

Kontakta oss direkt

Få en genomgång av priser för Azure. Förstå prissättningen för din molnlösning, läs mer om kostnadsoptimering och begär ett anpassat förslag.

Prata med en säljare

Se köpalternativ

Köp Azure-tjänster via Azure-webbplatsen, din Microsoft-representant eller en Azure-partner.

Utforska dina alternativ

Ytterligare resurser

Azure AI Speech

Läs mer om funktioner och egenskaper för Azure AI Speech.

Priskalkylator

Beräkna din förväntade månadskostnad för användning av valfri kombination av Azure-produkter.

Dokumentation

Ta del av tekniska självstudiekurser, videor och fler resurser för Azure AI Speech.

Vanliga frågor och svar

    • För Tal till text och Talöversättning debiteras användningen i steg om en sekund.
    • För Text till tal: användning debiteras per tecken. Kontrollera definitionen av tecknet i prissättingsanteckning.
    • För anpassad neural röstvärdtjänst: användningen faktureras per slutpunkt per sekund. Kontrollera informationen i prissättning.
    • För lagring av personlig röstprofil: användningen debiteras per röstprofil per dag. Kontrollera informationen i prissättning.
    • För Text till tal avatar debiteras användningen per sekund.
    • För Tal till text och Text till tal (inklusive Avatar) debiteras slutpunktsvärd för anpassade modeller per sekund per modell.
  • Med taltjänsten kan användarna anpassa baslinjemodeller utifrån sin egna ljud- och språkdata, vilket ger anpassade talmodeller som kan användas mot både tal till text och talöversättning.

  • Språkmodellen är en sannolikhetsfördelning över sekvenser av ord. Språkmodellen hjälper systemet att välja bland ordsekvenser som låter lika, baserat på ordsekvensernas sannolikhet. Till exempel låter ”känna igen tal” och ”pekoral” lika, men den första hypotesen är mycket mer sannolik, och tilldelas därför en högre poäng av språkmodellen. Om du förväntar dig att röstfrågor ska innehålla vissa vokabulärobjekt, som produktnamn eller en jargong som förekommer väldigt sällan i vanligt talspråk, är det sannolikt att du får bättre prestanda om du anpassar språkmodellen. Om du exempelvis skulle bygga en app som ska söka på MSDN med tal är det sannolikt att termer som ”objektorienterad”, ”namnområde” eller ”.net” förekommer oftare än i vanliga röstprogram. Anpassning av språkmodellen gör att systemet kan lära sig det.

  • Den akustiska modellen är en klassificerare som märker korta ljudfragment till ett av flera fonem, eller ljudenheter, på varje språk. Dessa fonem kan sammanfogas för att forma ord. Ordet ”tal” består till exempel av tre fonem – ”t a l”. Klassificeringarna görs 100 gånger per sekund. Genom anpassning till den akustiska modellen kan systemet lära sig att bättre känna igen tal i ovanliga miljöer. Om du till exempel har en app som är utformad av medarbetare i ett lager eller en fabrik kan en anpassad akustisk modell känna igen tal mer exakt trots de omgivande ljuden.

  • I Speech Service finns redan en mängd olika rösttyper för text till tal (TTS), men med anpassad neural röst kan du också skapa en egen anpassad röst som passar dina behov och ditt varumärke. Läs blogginlägget om du vill veta mer.

  • Språksidentifiering gör att du kan identifiera en växel i talat språk och transkribera tal därefter. Detta kan användas i scenarier där ljudspråket är okänt eller när högtalare kan tala flera språk. Enkel språkidentifiering är tillgängligt utan extra kostnad. Kontinuerlig språkidentifiering är en förbättrad tilläggsfunktion. Gå till dokument om du vill veta mer.

    • Uttalsutvärdering utvärderar talfunktionen och ger talare feedback om noggrannhet och komplexitet för det talade ljudet. Med uttalsutvärdering kan språkstudenter öva, få omedelbar feedback och förbättra sitt uttal så att de kan tala och ge presentationer med självförtroende. Lärare kan använda funktionen för att utvärdera uttal av flera talare i realtid. Gå till docs om du vill veta mer.
    • Den debiteras som standard Tal till text, till exempel:
      Vid utvärdering av 8 sekunders tal debiteras du runt $-

Prata med en säljare för att få en genomgång av Azure-priser. Förstå prissättningen av din molnlösning.

Få kostnadsfria molntjänster och en kredit på $200 för att utforska Azure i 30 dagar.

Har lagts till i beräkningen. Tryck på ”v” för att visa på kalkylator
Kan vi hjälpa dig?