Layanan ucapan terpadu untuk terjemahan ucapan, ucapan ke teks, teks ke ucapan.
Layanan Ucapan terpadu menyediakan berbagai kemampuan pengenalan dan pembuatan ucapan termasuk transkripsi ucapan, teks-ke-ucapan, dan terjemahan ucapan. Layanan Ucapan menyediakan berbagai kemampuan pengenalan dan pembuatan ucapan termasuk transkripsi ucapan, teks-ke-ucapan, terjemahan ucapan, dan pengenalan pembicara.
Jelajahi opsi harga
Terapkan filter untuk menyesuaikan opsi harga dengan kebutuhan Anda.
Harga hanya perkiraan dan tidak dimaksudkan sebagai penawaran harga aktual. Harga sebenarnya dapat bervariasi tergantung jenis perjanjian yang dibuat dengan Microsoft, tanggal pembelian, dan nilai tukar mata uang. Harga dihitung berdasarkan dolar AS dan dikonversi menggunakan kurs spot penutupan bursa London yang diperoleh dalam dua hari kerja sebelum hari kerja terakhir pada akhir bulan sebelumnya. Jika dua hari kerja sebelum akhir bulan jatuh pada hari libur bank di pasar utama, tarif umumnya ditetapkan pada hari tepat sebelum dua hari kerja tersebut. Tarif ini berlaku untuk semua transaksi selama 1 bulan mendatang. Masuk ke Kalkulator harga Azure untuk melihat harga berdasarkan program/penawaran Anda saat ini dengan Microsoft. Hubungi spesialis penjualan Azure untuk informasi selengkapnya tentang harga atau untuk meminta penawaran harga. Lihat tanya jawab umum tentang harga Azure.
Entitas pemerintah AS memenuhi syarat untuk membeli layanan Azure Government dari penyedia solusi lisensi tanpa komitmen keuangan di muka, atau secara langsung melalui langganan online bayar sesuai penggunaan.
Penting— Harga dalam R$ hanyalah referensi. Ini adalah transaksi internasional dan harga akhir tunduk pada nilai tukar dan termasuk pajak IOF dan eNF tidak akan diterbitkan.
Entitas pemerintah AS memenuhi syarat untuk membeli layanan Azure Government dari penyedia solusi lisensi tanpa komitmen keuangan di muka, atau secara langsung melalui langganan online bayar sesuai penggunaan.
Penting— Harga dalam R$ hanyalah referensi. Ini adalah transaksi internasional dan harga akhir tunduk pada nilai tukar dan termasuk pajak IOF dan eNF tidak akan diterbitkan.
Gratis (F0)
| Kategori | Fitur | Harga |
|---|---|---|
| Ucapan ke Teks (tagihan per detik) |
Standar | 5 jam audio gratis per bulan3 |
| Kustom |
5 jam audio gratis per bulan3 Hosting titik akhir: 1 model gratis per bulan1 |
|
| Audio Multisaluran Transkripsi Percakapan PRATINJAU | 5 jam audio gratis per bulan | |
| Teks ke Ucapan (tagihan per karakter) |
Neural | 0.5 million karakter gratis per bulan |
| Terjemahan Ucapan (tagihan per detik) |
Standar | 5 jam audio gratis per bulan |
| Pengenalan Pembicara (tagihan per transaksi) |
Verifikasi Pembicara2 | 10,000 transaksi gratis per bulan |
| Identifikasi Pembicara2 | 10,000 transaksi gratis per bulan | |
| Penyimpanan Profil Suara | 10,000 transaksi gratis per bulan |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
1Model yang tidak digunakan akan dinonaktifkan secara otomatis setelah 7 hari.
2Speaker Recognition is a limited access feature with a need to apply for access.
3Jam audio gratis untuk ucapan ke teks dibagi antara Standar dan Kustom, Batch tidak didukung.
Prabayar: bayar hanya untuk apa yang Anda gunakan.
| Kategori | Harga | |
|---|---|---|
| Voice Live Pro (penagihan per m token)VL1 | Teks |
Input: $- Input Cache: $- Output: $- |
| Audio with Azure Speech in Foundry Tools - Standard |
Input: $- Input Cache: $- Output: $- |
|
| Audio with Azure Speech in Foundry Tools - CustomVL2 |
Input: $- Input Cache: $- Output: $- |
|
| Native audio with speech-to-speech real-time model |
Input: $- Input Cache: $- Output: $- |
|
| Voice Live Standard (per m token billing)VL1 | Teks |
Input: $- Input Cache: $- Output: $- |
| Audio with Azure Speech in Foundry Tools - Standard |
Input: $- Input Cache: $- Output: $- |
|
| Audio with Azure Speech in Foundry Tools - CustomVL2 |
Input: $- Input Cache: $- Output: $- |
|
| Native audio with speech-to-speech real-time model |
Input: $- Input Cache: $- Output: $- |
|
| Voice Live Lite (penagihan per m token)VL1 | Teks |
Input: $- Input Cache: $- Output: $- |
| Audio with Azure Speech in Foundry Tools - Standard |
Input: $- Input Cache: $- Output: $- |
|
| Audio with Azure Speech in Foundry Tools - CustomVL2 |
Input Cache: $- Output: $- |
|
| Native audio with speech-to-speech real-time model |
Input: $- Input Cache: $- |
|
| Voice Live BYO (per m token billing)VL1 | Audio with Azure AI Speech - Standard |
Input: $- Output: $- |
| Audio with Azure AI Speech - CustomVL2 |
Input: $- Output: $- |
|
| Voice Live Avatar (per minute billing) | Avatar output with Voice Live | Charged through Text to Speech Avatar ‘interactive avatar (real-time)’. See below Text to Speech pricing table for details. |
| Ucapan ke Teks (tagihan per detik) |
Transkripsi Standar |
Transkripsi real-time: $- per jam Transkripsi Cepat: $- per jam9 Transkripsi Batch: $- per jam1 |
| Transkripsi Kustom |
Transkripsi real-time: $- per jam Transkripsi Batch: $- per jam1 Hosting titik akhir: $- per model per jam Pelatihan Ucapan Kustom5: $- per jam komputasi |
|
Fitur add-on yang ditingkatkan:
|
Real-time: $- per jam per fitur Batch (identifikasi Bahasa Berkelanjutan, Diarisasi): Disertakan dalam Standar/Kustom (tanpa biaya tambahan) |
|
| Audio Multisaluran Transkripsi Percakapan PRATINJAU | $- per jam2 | |
| Terjemahan Ucapan (tagihan per detik) |
Terjemahan Ucapan Real-time | $- per jam audio3 |
| Live Interpreter |
Input audio: $- per jam audio Output text: $- per 1M karakter Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
| Terjemahan Video |
Video input: $- per jam Video output (Suara standar): $- per jam Video output (Suara personal): $- per jam |
|
| Teks ke Ucapan8 | Suara Standar |
Neural (real time dan batch): $- per 1M karakter Neural HD (real time dan batch)4: $- per 1M karakter |
| Suara Kustom |
Suara Profesional:
Sintesis (real time dan batch): $- per 1 juta karakter
Sintesis (Neural HD real time dan batch): $- per 1M karakter Pelatihan model suara: $- per jam komputasi, hingga $- per pelatihan Hosting titik akhir: $- per model per jam |
|
|
Suara Personal6:
Sintesis (real time dan batch): $- per 1 juta karakter
Pembuatan suara: Gratis Penyimpanan profil suara: $- per 1.000 profil suara per bulan |
||
| Fitur Add-on yang disempurnakan: Avatar |
Standar:
Avatar interaktif (real time): $- per menit
Avatar 4K interaktif (real time): $- per menit Video avatar (batch): $- per menit Video avatar 4K (batch): $- per menit |
|
|
Kustom:
Pelatihan model avatar: $- per jam komputasi
Avatar interaktif (real time): $- per menit Avatar 4K interaktif (real time): $- per menit Video avatar (batch): $- per menit Video avatar 4K (batch): $- per menit Hosting titik akhir: $- per model per jam |
||
| Pengenalan Pembicara (tagihan per transaksi) |
Verifikasi Pembicara7 | $- per 1,000 transaksi |
| Identifikasi Pembicara7 | $- per 1,000 transaksi | |
| Penyimpanan Profil Suara | $- per 1,000 profil suara (10,000 profil suara gratis per bulan) | |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
Jam ucapan ke teks dihitung sebagai jam audio yang dikirim ke layanan, ditagih dengan kelipatan kedua.
1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.
2Hal ini mencerminkan harga pratinjau publik.
3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure Translator in Foundry Tools Text Translation pricing page.
4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.
5Pelatihan Custom Speech berlaku saat menyesuaikan model dasar apa pun yang dirilis pada atau setelah 1 Oktober 2023.
6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.
7Speaker Recognition is a limited access feature with a need to apply for access.
8Teks ke Ucapan: penggunaan sintesis ucapan ditagih per karakter. Avatar ditagih per detik. Pelatihan dan hosting model ditagih per detik.
9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.
VL1With Voice Live Pro, developers can choose from larger LLMs such as GPT-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Standard, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. Models for each tier will be updated or retired as they become available. To learn more how Voice Live API pricing works, click here.
VL2You will be charged separately for custom speech and custom voice model training and hosting. Refer to the ‘Speech to Text – Custom Transcription’ and ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.
LIThis price includes text output
Tingkat Komitmen – Azure - Standar
| Kategori | Fitur | Harga (per bulan) | Kelebihan |
|---|---|---|---|
| Ucapan ke Teks | Standar | $- selama 2,000 jam | $- per jam |
| $- selama 10,000 jam | $- per jam | ||
| $- selama 50,000 jam | $- per jam | ||
| Kustom | $- selama 2,000 jam | $- per jam | |
| $- selama 10,000 jam | $- per jam | ||
| $- selama 50,000 jam | $- per jam | ||
Fitur add-on yang ditingkatkan:2
|
$- selama 2,000 jam | $- per jam | |
| $- selama 10,000 jam | $- per jam | ||
| $- selama 50,000 jam | $- per jam | ||
| Teks ke Ucapan | Neural1 | $- untuk 80 juta karakter | $- per 1 juta karakter |
| $- untuk 400 juta karakter | $- per 1 juta karakter | ||
| $- untuk 2,000 juta karakter | $- per 1 juta karakter |
1Ini mencakup sintesis real time dan sintesis batch dengan suara neural non-HD dan non-AOAI bawaan. Suara HD, suara AOAI, Suara Neural Kustom, dan Suara Pribadi tidak termasuk.
2Ucapan ke teks real-time saja, fitur add-on Identifikasi Bahasa Berkelanjutan dan Diarisasi disertakan dengan ucapan ke teks batch.
Tingkat Komitmen – Kontainer tersambung
| Kategori | Fitur | Harga (per bulan) | Kelebihan |
|---|---|---|---|
| Ucapan ke Teks2 | Standar | $- selama 2,000 jam | $- per jam |
| $- selama 10,000 jam | $- per jam | ||
| $- selama 50,000 jam | $- per jam | ||
| Kustom | $- selama 2,000 jam | $- per jam | |
| $- selama 10,000 jam | $- per jam | ||
| $- selama 50,000 jam | $- per jam | ||
Fitur add-on yang ditingkatkan:2
|
$- selama 2,000 jam | $- per jam | |
| $- selama 10,000 jam | $- per jam | ||
| $- selama 50,000 jam | $- per jam | ||
| Teks ke Ucapan | Neural1 | $- untuk 80 juta karakter | $- per 1 juta karakter |
| $- untuk 400 juta karakter | $- per 1 juta karakter | ||
| $- untuk 2,000 juta karakter | $- per 1 juta karakter |
1Ini mencakup sintesis real time dengan suara neural non-HD dan non-AOAI bawaan. Suara HD, suara AOAI, dan suara kustom (baik suara profesional maupun pribadi) tidak termasuk. Sintesis batch tidak termasuk.
2Harga berlaku untuk kasus penggunaan secara real time dan batch. Tidak ada harga batch terpisah untuk kontainer.
See the documentation for information on Commitment tiers.
Tingkat Komitmen – Kontainer terputus
Sign up to access speech in disconnected containers, or learn more
| Kategori | Fitur | Harga (per tahun) | Penggunaan maks (per tahun) | Penggunaan yang diperkirakan (per bulan) |
|---|---|---|---|---|
| Ucapan ke Teks2 | Standar |
$-
$- Daftar untuk mendapatkan akses Pelajari lebih lanjut |
120,000 Jam
600,000 Jam |
10,000 Jam
50,000 Jam |
| Kustom |
$-
$- Daftar untuk mendapatkan akses Pelajari lebih lanjut |
120,000 Jam
600,000 Jam |
10,000 Jam
50,000 Jam |
|
Fitur add-on yang ditingkatkan:
|
$-
$- |
120,000 Jam
600,000 Jam |
10,000 Jam
50,000 Jam |
|
| Teks ke Ucapan | Neural1 |
$-
$- Daftar untuk mendapatkan akses Pelajari lebih lanjut |
4,8 M karakter
24 M karakter |
400 JT karakter
2.000 M karakter |
1Ini mencakup sintesis real time dengan suara neural non-HD dan non-AOAI bawaan. Suara HD, suara AOAI, dan suara kustom (baik suara profesional maupun pribadi) tidak termasuk. Sintesis batch tidak termasuk.
2Harga berlaku untuk kasus penggunaan secara real time dan batch. Tidak ada harga batch terpisah untuk kontainer.
Fitur-fitur ini tidak digunakan lagi dan hanya tersedia untuk digunakan oleh pelanggan yang sudah ada. Periksa detail dan pelajari cara bermigrasi ke fitur baru.
| Instans | Kategori | Fitur | Harga |
|---|---|---|---|
| Gratis - Web/Kontainer 1permintaan serentak |
Teks ke Ucapan | Standar | 5 million karakter gratis per bulan |
| Kustom |
5 million karakter gratis per bulan Hosting titik akhir: 1 model gratis per bulan |
||
| Standar - Web/Kontainer 100 permintaan serentak untuk model Dasar 20 permintaan serentak untuk model Kustom |
Teks ke Ucapan | Standar | $- per 1M karakter |
| Kustom |
$- per 1M karakter Hosting titik akhir: $- per model per jam |
Opsi harga dan pembelian Azure
Terhubung dengan kami secara langsung
Dapatkan panduan harga Azure. Pahami harga untuk solusi cloud Anda, pelajari tentang pengoptimalan biaya, dan minta proposal khusus.
Bicara dengan spesialis penjualanLihat cara pembelian
Beli layanan Azure melalui situs web Azure, perwakilan Microsoft, atau mitra Azure.
Jelajahi opsi AndaSumber daya tambahan
Azure AI Speech
Pelajari selengkapnya tentang fitur dan kemampuan Azure AI Speech.
Kalkulator harga
Perkirakan biaya bulanan Anda untuk penggunaan kombinasi produk Azure apa pun.
Dokumentasi
Tinjau tutorial teknis, video, dan Azure AI Speech sumber daya lainnya.
Tanya jawab umum
-
- Untuk Ucapan ke Teks dan Terjemahan Ucapan, penggunaan ditagih dalam kelipatan satu detik.
- For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
- For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
- For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
- Untuk Avatar Teks ke Ucapan, penggunaan ditagih per detik.
- Untuk Ucapan ke Teks dan Teks ke Ucapan (termasuk Avatar), hosting titik akhir untuk model kustom ditagih per detik per model.
-
Layanan Ucapan memungkinkan pengguna untuk menyesuaikan model dasar berdasarkan data akustik dan bahasa mereka sendiri, yang mengarah ke model ucapan kustom yang dapat digunakan terhadap Ucapan ke Teks dan Penerjemahan Ucapan.
-
Model bahasa adalah distribusi probabilitas atas urutan kata. Model bahasa membantu sistem memutuskan di antara urutan kata yang terdengar sama, berdasarkan kemungkinan urutan kata itu sendiri. Misalnya, suara “recognize speech” dan “wreck a nice beach” terdengar sama, tetapi hipotesis pertama jauh lebih mungkin terjadi, dan karenanya akan diberi skor yang lebih tinggi oleh model bahasa. Jika Anda mengharapkan kueri suara pada aplikasi Anda berisi item kosakata tertentu, seperti nama produk atau jargon yang jarang muncul dalam ucapan biasa, Anda mungkin dapat memperoleh peningkatan kinerja dengan menyesuaikan model bahasanya. Misalnya, jika Anda membuat aplikasi untuk mencari MSDN dengan suara, kemungkinan istilah seperti “object-oriented” atau “namespace” atau “dot net” akan muncul lebih sering daripada dalam aplikasi suara biasa. Mengustomisasi model bahasa akan memungkinkan sistem mempelajari hal ini.
-
Model akustik adalah penggolong yang melabeli fragmen-fragmen pendek audio ke dalam salah satu dari beberapa fonem, atau unit suara, dalam setiap bahasa. Fonem-fonem ini kemudian dapat ditautkan bersama-sama untuk membentuk kata. Misalnya, kata “speech” terdiri dari empat fonem “s p iy ch”. Klasifikasi ini dibuat dengan urutan 100 kali per detik. Mengustomisasi model akustik dapat memungkinkan sistem untuk belajar melaksanakan pekerjaan mengenali ucapan dengan lebih baik di lingkungan yang tidak biasa. Misalnya, jika Anda memiliki aplikasi yang dirancang untuk digunakan oleh pekerja di gudang atau pabrik, model akustik yang dikustomisasi dapat lebih akurat mengenali ucapan jika ada kebisingan yang ditemukan di lingkungan tersebut.
-
Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
Hubungi ahli penjualan untuk panduan harga Azure. Pahami harga untuk solusi cloud Anda.
Dapatkan layanan cloud gratis dan kredit $200 untuk menjelajahi Azure selama 30 hari.