Servicios de voz unificados para la conversión de voz en texto y de texto en voz, y para la traducción de voz.
Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz. El servicio de voz proporciona un amplio abanico de características de reconocimiento y generación de voz, como la transcripción de voz, la conversión de texto a voz, la traducción de voz y el reconocimiento del hablante.
Explore las opciones de precios
Aplique filtros para adaptar las opciones de precios a sus necesidades.
Los precios son solo estimaciones y no pretenden ser presupuestos reales. Los precios reales pueden variar según el tipo de contrato acordado con Microsoft, la fecha de compra y el tipo de cambio. Los precios se calculan en dólares estadounidenses y se convierten con las tasas de referencia de Thomson Reuters, actualizadas el primer día de cada mes natural. Inicie sesión en la Calculadora de precios de Azure para ver los precios según su programa u oferta actuales con Microsoft. Póngase en contacto con un especialista de ventas de Azure para más información sobre los precios o solicitar un presupuesto. Para obtener más información sobre los precios de Azure, consulte las preguntas más frecuentes.
Las entidades gubernamentales de EE. UU. pueden comprar servicios de Azure Government a un proveedor de soluciones de licencia sin ningún compromiso financiero por adelantado, o bien directamente a través de una suscripción en línea de pago por uso.
Importante: el precio en R$ es solo una referencia. Se trata de transacciones internacionales y el precio final está sujeto a tipos de cambio y a la inclusión de impuestos sobre operaciones financieras. No se emitirá ningún eNF.
Las entidades gubernamentales de EE. UU. pueden comprar servicios de Azure Government a un proveedor de soluciones de licencia sin ningún compromiso financiero por adelantado, o bien directamente a través de una suscripción en línea de pago por uso.
Importante: el precio en R$ es solo una referencia. Se trata de transacciones internacionales y el precio final está sujeto a tipos de cambio y a la inclusión de impuestos sobre operaciones financieras. No se emitirá ningún eNF.
Gratis (F0)
Categoría | Características | Precio |
---|---|---|
Speech to Text (facturación por segundo) |
Estándar | 5 horas de audio gratis al mes |
Personalizado |
5 horas de audio gratis al mes Hospedaje de puntos de conexión: 1 modelos gratis al mes1 |
|
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR | 5 horas de audio gratis al mes | |
Text to Speech (facturación por carácter) |
Neuronal | 0.5 million caracteres gratis al mes |
Speech Translation (facturación por segundo) |
Estándar | 5 horas de audio gratis al mes |
Speaker Recognition (facturación por transacción) |
Comprobación del hablante2 | 10,000 transacciones gratis por mes |
Identificación del hablante2 | 10,000 transacciones gratis por mes | |
Almacenamiento de perfiles de voz | 10,000 transacciones gratis por mes |
Pago por uso: pague solo por lo que use.
Categoría | Características | Precio |
---|---|---|
Speech to Text (facturación por segundo) |
Estándar | $- por hora de audio |
Personalizado |
$- por hora de audio Hospedaje de puntos de conexión: $- por modelo a la hora |
|
Características mejoradas del complemento:
|
$- por hora de audio por característica | |
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR | $- por hora de audio1 | |
Text to Speech (facturación por carácter) |
Neuronal |
En tiempo real y síntesis por lotes: $- por un millón
caracteres Creación de audio largo: $- por cada millón de caracteres |
Creación de Voz2 |
Entrenamiento: $- por hora de proceso, hasta $- por entrenamiento En tiempo real y síntesis por lotes: $- por cada millón de caracteres Hospedaje de puntos de conexión: $- por modelo a la hora Creación de audio largo: $- por cada millón de caracteres |
|
Speech Translation (facturación por segundo) |
Estándar | $- por hora de audio |
Speaker Recognition (facturación por transacción) |
Comprobación del hablante3 | $- por 1,000 transacciones |
Identificación del hablante3 | $- por 1,000 transacciones | |
Almacenamiento de perfiles de voz | $- por 1,000 perfiles de voz (10,000 perfiles de voz gratis al mes) |
Niveles de compromiso
Instancia | Categoría | Características | Precio (mensual) | Uso por encima del límite |
---|---|---|---|---|
Azure - Estándar | Speech to Text | Estándar | $- durante 2,000 horas | $- por hora |
$- durante 10,000 horas | $- por hora | |||
$- durante 50,000 horas | $- por hora | |||
Personalizado | $- durante 2,000 horas | $- por hora | ||
$- durante 10,000 horas | $- por hora | |||
$- durante 50,000 horas | $- por hora | |||
Text to Speech | Neuronal1 | $- durante 80 M de caracteres | $- por cada 1 M de caracteres | |
$- durante 400 M de caracteres | $- por cada 1 M de caracteres | |||
$- durante 2,000 M de caracteres | $- por cada 1 M de caracteres | |||
Contenedor conectado - Estándar | Speech to Text | Estándar | $- durante 2,000 horas | $- por hora |
$- durante 10,000 horas | $- por hora | |||
$- durante 50,000 horas | $- por hora | |||
Personalizado | $- durante 2,000 horas | $- por hora | ||
$- durante 10,000 horas | $- por hora | |||
$- durante 50,000 horas | $- por hora | |||
Text to Speech | Neuronal1 | $- durante 80 M de caracteres | $- por cada 1 M de caracteres | |
$- durante 400 M de caracteres | $- por cada 1 M de caracteres | |||
$- durante 2,000 M de caracteres | $- por cada 1 M de caracteres | |||
Contenedor desconectado | Speech to Text | Estándar |
Iniciar sesión para obtener el acceso
Más información |
|
Personalizado |
Iniciar sesión para obtener el acceso
Más información |
|||
Text to Speech | Neuronal1 |
Iniciar sesión para obtener el acceso
Más información |
Estas características están en desuso y solo están disponibles para que los clientes existentes las usen. Compruebe los detalles y obtenga información sobre cómo migrar a nuevas características.
Instancia | Categoría | Características | Precio |
---|---|---|---|
Gratis - Web/Container 1 solicitud simultánea |
Text to Speech | Estándar | 5 million caracteres gratis al mes |
Personalizado |
5 million caracteres gratis al mes Hospedaje de puntos de conexión: 1 modelos gratis al mes |
||
Estándar: web/contenedor 100 solicitudes simultáneas para el modelo base 20 solicitudes simultáneas para un modelo personalizado |
Text to Speech | Estándar | $- por cada millón de caracteres |
Personalizado |
$- por cada millón de caracteres Hospedaje de puntos de conexión: $- por modelo a la hora |
Precios y opciones de compra de Azure

Póngase en contacto con nosotros directamente
Obtenga un tutorial sobre los precios de Azure. Averigüe cómo funcionan los precios para su solución en la nube, descubra cómo se pueden optimizar los costos y solicite una propuesta personalizada.
Hable con un especialista de ventasConozca las opciones de compra
Puede adquirir servicios de Azure en el sitio web de la plataforma y a través de un representante de Microsoft o de un asociado de Azure.
Explore sus opcionesRecursos adicionales
Servicios de voz
Obtenga más información sobre las características y funcionalidades de Servicios de voz.
Calculadora de precios
Haga una estimación de los costos mensuales que le supondría el uso de cualquier combinación de productos de Azure.
Documentación
Consulte tutoriales técnicos, vídeos y más recursos de Servicios de voz.
Preguntas frecuentes
-
- Para Speech to Text y Speech Translation, el uso se factura en incrementos de un segundo.
- Para Text to Speech: el uso se factura por carácter. Compruebe la definición de carácter en la nota de precios.
- Para Speech to Text y Text to Speech, el hospedaje de puntos de conexión para modelos personalizados se factura por segundo por modelo.
- Para los comandos personalizados: la facturación se realiza en función del consumo de Speech to Text, Text to Speech y Language Understanding. Los comandos personalizados no incluyen nuevos medidores de facturación.
- No se aplica ningún cargo por entrenar modelos Speech to Text. Los únicos costos son el hospedaje de puntos de conexión por modelo una vez implementado y, a continuación, el costo por hora de audio de Habla personalizada a Texto.
-
El Servicio de voz permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en Speech to Text y Speech Translation.
-
El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.
-
El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.
-
El servicio de voz ofrece una amplia gama de fuentes de voz para la conversión de texto en voz (TTS). Sin embargo, la voz neuronal personalizada le permite crear su propia voz adaptada a sus necesidades y a su marca. Lea el blog para obtener más información.
-
Identificación lingüística permite identificar un cambio en el idioma hablado y transcribir la voz en consecuencia. Esto se puede aplicar en escenarios en los que se desconoce el idioma del audio o cuando los oradores pueden hablar varios idiomas. La identificación de idioma único está disponible sin costo adicional. La identificación continua del lenguaje es una característica de complemento mejorada. Visite docs para obtener más información.
Hable con un especialista de ventas para que le explique en detalle los precios de Azure. Conozca el precio de su solución en la nube.
Obtenga servicios en la nube gratuitos y un crédito de $200 para explorar Azure durante 30 días.