Servicios de voz unificados para la conversión de voz en texto y de texto en voz, y para la traducción de voz.
Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz. El servicio de voz proporciona un amplio abanico de características de reconocimiento y generación de voz, como la transcripción de voz, la conversión de texto a voz, la traducción de voz y el reconocimiento del hablante.
Explore las opciones de precios
Aplique filtros para adaptar las opciones de precios a sus necesidades.
Los precios son solo estimaciones y no están pensados como cotizaciones de precios reales. Los precios reales pueden variar en función del tipo de contrato especificado con Microsoft, la fecha de compra y el tipo de cambio de moneda. Los precios se calculan en dólares estadounidenses y se convierten con las tarifas al contado de cierre de Londres que se capturan en los dos días laborables anteriores al último día laborable del mes anterior. Si los dos días laborables anteriores al final del mes se encuentran en un día festivo en los principales mercados, el día de configuración de tarifas suele ser el día inmediatamente anterior a los dos días laborables. Esta tarifa se aplica a todas las transacciones durante el próximo mes. Inicie sesión en la calculadora de precios de Azure para ver los precios basados en su programa u oferta actuales con Microsoft. Póngase en contacto con un especialista en ventas de Azure para obtener más información sobre precios o para solicitar una oferta de precios. Vea preguntas poco frecuentes sobre los precios de Azure.
Las entidades gubernamentales de EE. UU. pueden comprar servicios de Azure Government a un proveedor de soluciones de licencia sin ningún compromiso financiero por adelantado, o bien directamente a través de una suscripción en línea de pago por uso.
Importante: el precio en R$ es solo una referencia. Se trata de transacciones internacionales y el precio final está sujeto a tipos de cambio y a la inclusión de impuestos sobre operaciones financieras. No se emitirá ningún eNF.
Las entidades gubernamentales de EE. UU. pueden comprar servicios de Azure Government a un proveedor de soluciones de licencia sin ningún compromiso financiero por adelantado, o bien directamente a través de una suscripción en línea de pago por uso.
Importante: el precio en R$ es solo una referencia. Se trata de transacciones internacionales y el precio final está sujeto a tipos de cambio y a la inclusión de impuestos sobre operaciones financieras. No se emitirá ningún eNF.
Gratis (F0)
| Categoría | Características | Precio |
|---|---|---|
| Speech to Text (facturación por segundo) |
Estándar | 5 horas de audio gratis al mes3 |
| Personalizado |
5 horas de audio gratis al mes3 Hospedaje de puntos de conexión: 1 modelos gratis al mes1 |
|
| Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR | 5 horas de audio gratis al mes | |
| Text to Speech (facturación por carácter) |
Neuronal | 0.5 million caracteres gratis al mes |
| Speech Translation (facturación por segundo) |
Estándar | 5 horas de audio gratis al mes |
| Speaker Recognition (facturación por transacción) |
Comprobación del hablante2 | 10,000 transacciones gratis por mes |
| Identificación del hablante2 | 10,000 transacciones gratis por mes | |
| Almacenamiento de perfiles de voz | 10,000 transacciones gratis por mes |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
1Los modelos sin usar se retirarán automáticamente después de 7 días.
2Speaker Recognition is a limited access feature with a need to apply for access.
3Las horas de audio gratuitas para la conversión de voz a texto se comparten entre Estándar y Personalizado. No se admite Lote.
Pago por uso: pague solo por lo que use.
| Categoría | Precio | |
|---|---|---|
| Voice Live Pro (facturación por millón de token)VL1 | Texto |
Entrada: $- Entrada en caché: $- Salida: $- |
| Audio con Voz de Azure AI - Estándar |
Entrada: $- Entrada en caché: $- Salida: $- |
|
| Audio con Voz de Azure AI - PersonalizadoVL2 |
Salida: $- |
|
| Audio nativo con GPT-4o-Realtime |
Entrada: $- Entrada en caché: $- Salida: $- |
|
| Voice Live Basic (facturación por millón de token)VL1 | Texto |
Entrada: $- Entrada en caché: $- Salida: $- |
| Audio con Voz de Azure AI - Estándar |
Entrada: $- Entrada en caché: $- Salida: $- |
|
| Audio con Voz de Azure AI - PersonalizadoVL2 |
Salida: $- |
|
| Audio nativo con GPT-4o Mini-Realtime |
Entrada: $- Entrada en caché: $- Salida: $- |
|
| Voice Live Lite (facturación por millón de token)VL1 | Texto |
Entrada: $- Entrada en caché: $- Salida: $- |
| Audio con Voz de Azure AI - Estándar |
Entrada: $- Entrada en caché: $- Salida: $- |
|
| Audio con Voz de Azure AI - PersonalizadoVL2 |
Salida: $- |
|
| Audio nativo con Phi-MM |
Entrada: $- Entrada en caché: $- |
|
| Speech to Text (facturación por segundo) |
Transcripción Estándar |
Transcripción en tiempo real: $- por hora Transcripción rápida: $- por hora9 Transcripción por lotes: $- por hora1 |
| Transcripción personalizada |
Transcripción en tiempo real: $- por hora Transcripción por lotes: $- por hora1 Hospedaje de puntos de conexión: $- por modelo a la hora Entrenamiento sobre el Habla personalizada5: $- por hora de proceso |
|
Características mejoradas del complemento:
|
Tiempo real: $- por hora por característica Lote (identificación continua de idioma, diarización): incluido en Estándar/Personalizado (sin cargo adicional) |
|
| Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR | $- por hora2 | |
| Speech Translation (facturación por segundo) |
Speech Translation en tiempo real | $- por hora de audio3 |
| Live Interpreter |
Input audio: $- por hora de audio Output text: $- por cada millón de caracteres Output audio (Standard voice): $- per audio hourLI Output audio (Custom voice): $- per audio hourLI |
|
| Traducción de vídeo |
Vídeo de entrada: $- por hora Vídeo de salida (voz Estándar): $- por hora Vídeo de salida (voz personal): $- por hora |
|
| Text to Speech8 | Voz estándar |
Neuronal (en tiempo real y por lotes): $- por cada millón de caracteres HD neuronal (en tiempo real y por lotes)4: $- por cada millón de caracteres |
| Voz personalizada |
Voz profesional:
Síntesis (en tiempo real y por lotes): $- por 1 millón de caracteres
Síntesis (neural HD en tiempo real y por lotes): $- por 1 millón de caracteres Entrenamiento del modelo de voz: $- por hora de proceso, hasta $- por entrenamiento Hospedaje de puntos de conexión: $- por modelo a la hora |
|
|
Voz personal6:
Síntesis (en tiempo real y por lotes): $- por 1 millón de caracteres
Creación de voz: gratis Almacenamiento de perfiles de voz: $- por 1000 perfiles de voz al mes |
||
| Características mejoradas del complemento: avatar |
Estándar:
Avatar interactivo (en tiempo real): $- por minuto
Avatar 4K interactivo (en tiempo real): $- por minuto Vídeo de avatar (lote): $- por minuto Vídeo de avatar 4K (lote): $- por minuto |
|
|
Personalizado:
Entrenamiento del modelo de avatar: $- por hora de proceso
Avatar interactivo (en tiempo real): $- por minuto Avatar 4K interactivo (en tiempo real): $- por minuto Vídeo de avatar (lote): $- por minuto Vídeo de avatar 4K (lote): $- por minuto Hospedaje de puntos de conexión: $- por modelo por hora |
||
| Speaker Recognition (facturación por transacción) |
Comprobación del hablante7 | $- por 1,000 transacciones |
| Identificación del hablante7 | $- por 1,000 transacciones | |
| Almacenamiento de perfiles de voz | $- por 1,000 perfiles de voz (10,000 perfiles de voz gratis al mes) | |
See the documentation for information on quotas, limits and instructions on how to increase concurrent requests.
Las horas de voz a texto se miden como las horas de audio enviadas al servicio, facturadas en incrementos de un segundo.
1To take advantage of this new Batch Transcription pricing you need to use Speech to text REST API V3.2 or later versions. See Speech to text REST API for information.
2Esto refleja los precios de la versión preliminar pública.
3This price includes 1 audio input and output, up to 2 text translation language using standard or custom Speech to Text and standard Translation. For custom Translation or 3+ translation languages, please reference the Azure AI Translator Text Translation pricing page.
4Selected text to speech voices are available via two model variants: Neural and NeuralHD. Learn more here.
5El entrenamiento de Habla personalizada se aplica al personalizar cualquier modelo base publicado el 1 de octubre de 1, 2023 o después.
6Personal Voice is a limited access feature restricted to certain pre-approved use cases only, with a need to applying for access. To learn more about the service, check the document.
7Speaker Recognition is a limited access feature with a need to apply for access.
8Text to Speech: el uso de síntesis de voz se factura por carácter. El avatar se factura por segundo. El entrenamiento y el hospedaje de modelos se facturan por segundo.
9To use Fast Transcription you need to use Speech to text REST API 2024-05-15-preview or later versions. See Speech to text REST API for information.
VL1With Voice Live Plus, developers can choose from LLMs such as GPT-4o-Realtime, GPT-4o and GPT-4.1 models. With Voice Live Basic, developers can choose from smaller LLMs such as GPT-4o-Mini-Realtime, GPT-4o Mini and GPT-4.1 Mini models. With Voice Live Lite, developers can choose from SLMs and equivalent models such as GPT-4.1 Nano and Phi models. To learn more how Voice Live API pricing works, click here.
VL2You will be charged separately for custom voice model training and hosting. Refer to the ‘Text to Speech – Custom Voice – Professional’ pricing for details. Custom voice is a limited access feature. Learn more about how to create custom voices.
LIThis price includes text output
Niveles de compromiso - Azure - Estándar
| Categoría | Características | Precio (mensual) | Uso por encima del límite |
|---|---|---|---|
| Speech to Text | Estándar | $- durante 2,000 horas | $- por hora |
| $- durante 10,000 horas | $- por hora | ||
| $- durante 50,000 horas | $- por hora | ||
| Personalizado | $- durante 2,000 horas | $- por hora | |
| $- durante 10,000 horas | $- por hora | ||
| $- durante 50,000 horas | $- por hora | ||
Características mejoradas del complemento:2
|
$- durante 2,000 horas | $- por hora | |
| $- durante 10,000 horas | $- por hora | ||
| $- durante 50,000 horas | $- por hora | ||
| Text to Speech | Neuronal1 | $- durante 80 M de caracteres | $- por cada 1 M de caracteres |
| $- durante 400 M de caracteres | $- por cada 1 M de caracteres | ||
| $- durante 2,000 M de caracteres | $- por cada 1 M de caracteres |
1Esto incluye síntesis en tiempo real y síntesis por lotes con voces neuronales no HD y no AOAI precompiladas. No se incluyen voces HD, voces AOAI, Voz neuronal personalizada y Voz personal.
2Solo voz a texto en tiempo real, identificación continua del idioma y características del complemento de diarización incluidas con la conversión de voz en texto por lotes.
Niveles de compromiso: contenedor conectado
| Categoría | Características | Precio (mensual) | Uso por encima del límite |
|---|---|---|---|
| Speech to Text2 | Estándar | $- durante 2,000 horas | $- por hora |
| $- durante 10,000 horas | $- por hora | ||
| $- durante 50,000 horas | $- por hora | ||
| Personalizado | $- durante 2,000 horas | $- por hora | |
| $- durante 10,000 horas | $- por hora | ||
| $- durante 50,000 horas | $- por hora | ||
Características mejoradas del complemento:2
|
$- durante 2,000 horas | $- por hora | |
| $- durante 10,000 horas | $- por hora | ||
| $- durante 50,000 horas | $- por hora | ||
| Text to Speech | Neuronal1 | $- durante 80 M de caracteres | $- por cada 1 M de caracteres |
| $- durante 400 M de caracteres | $- por cada 1 M de caracteres | ||
| $- durante 2,000 M de caracteres | $- por cada 1 M de caracteres |
1Esto incluye síntesis en tiempo real con voces neuronales no HD y no AOAI precompiladas. Las voces HD, las voces AOAI y las voces personalizadas (tanto las voces profesionales como las personales) no están incluidas. No se incluye la síntesis por lotes.
2Los precios se aplican a los casos de uso por lotes y en tiempo real. No hay ningún precio por lotes independiente para los contenedores.
See the documentation for information on Commitment tiers.
Niveles de compromiso: contenedor desconectado
Sign up to access speech in disconnected containers, or learn more
| Categoría | Características | Precio (por año) | Uso máximo por año | Uso previsto (al mes) |
|---|---|---|---|---|
| Speech to Text2 | Estándar |
$-
$- Iniciar sesión para obtener el acceso Más información |
120 000 horas
600 000 horas |
10 000 horas
50 000 horas |
| Personalizado |
$-
$- Iniciar sesión para obtener el acceso Más información |
120 000 horas
600 000 horas |
10 000 horas
50 000 horas |
|
Características mejoradas del complemento:
|
$-
$- |
120 000 horas
600 000 horas |
10 000 horas
50 000 horas |
|
| Text to Speech | Neuronal1 |
$-
$- Iniciar sesión para obtener el acceso Más información |
4,8B caracteres
24B caracteres |
400 millones de caracteres
2000 millones de caracteres |
1Esto incluye síntesis en tiempo real con voces neuronales no HD y no AOAI precompiladas. Las voces HD, las voces AOAI y las voces personalizadas (tanto las voces profesionales como las personales) no están incluidas. No se incluye la síntesis por lotes.
2Los precios se aplican a los casos de uso por lotes y en tiempo real. No hay ningún precio por lotes independiente para los contenedores.
Estas características están en desuso y solo están disponibles para que los clientes existentes las usen. Compruebe los detalles y obtenga información sobre cómo migrar a nuevas características.
| Instancia | Categoría | Características | Precio |
|---|---|---|---|
| Gratis - Web/Container 1 solicitud simultánea |
Text to Speech | Estándar | 5 million caracteres gratis al mes |
| Personalizado |
5 million caracteres gratis al mes Hospedaje de puntos de conexión: 1 modelos gratis al mes |
||
| Estándar: web/contenedor 100 solicitudes simultáneas para el modelo base 20 solicitudes simultáneas para un modelo personalizado |
Text to Speech | Estándar | $- por cada millón de caracteres |
| Personalizado |
$- por cada millón de caracteres Hospedaje de puntos de conexión: $- por modelo a la hora |
Precios y opciones de compra de Azure
Póngase en contacto con nosotros directamente
Obtenga un tutorial sobre los precios de Azure. Averigüe cómo funcionan los precios para su solución en la nube, descubra cómo se pueden optimizar los costos y solicite una propuesta personalizada.
Hable con un especialista de ventasConozca las opciones de compra
Puede adquirir servicios de Azure en el sitio web de la plataforma y a través de un representante de Microsoft o de un asociado de Azure.
Explore sus opcionesRecursos adicionales
Voz de Azure AI
Obtenga más información sobre las características y funcionalidades de Voz de Azure AI.
Calculadora de precios
Haga una estimación de los costos mensuales que le supondría el uso de cualquier combinación de productos de Azure.
Documentación
Consulte tutoriales técnicos, vídeos y más recursos de Voz de Azure AI.
Preguntas frecuentes
-
- Para Speech to Text y Speech Translation, el uso se factura en incrementos de un segundo.
- For Text to Speech: usage is billed per character. Check the definition of character in the pricing note.
- For custom neural voice hosting: usage is billed per endpoint per second. Check details in the pricing note.
- For personal voice profile storage: usage is billed per voice profile per day. Check details in the pricing note.
- Por Text to Speech avatar, el uso se factura por segundo.
- Para Speech to Text y Text to Speech (avatar incluido), el hospedaje de puntos de conexión para modelos personalizados se factura por segundo por modelo.
-
El Servicio de voz permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en Speech to Text y Speech Translation.
-
El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.
-
El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.
-
Speech service offers a wide range of text-to-speech (TTS) voice fonts, however custom neural voice allows you to build your own custom voice that suits your needs and your brand. Read the blog for more information.
-
Language identification allows you to identify a switch in spoken language and transcribe speech accordingly. This can be applied in scenarios where the audio language is unknown, or when speaker(s) may speak multiple languages. Single Language Identification is available at no additional cost. Continuous Language Identification is an enhanced add-on feature. Visit docs to learn more.
-
- Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Educators can use the capability to evaluate pronunciation of multiple speakers in real time. Visit docs to learn more.
- It is charged as standard Speech to Text, example:
For evaluation of 8 seconds of speech, you will be charged around $-
Hable con un especialista de ventas para que le explique en detalle los precios de Azure. Conozca el precio de su solución en la nube.
Obtenga servicios en la nube gratuitos y un crédito de $200 para explorar Azure durante 30 días.