Saltar al contenido principal

Precios de Servicios de voz

Servicios de voz unificados para la conversión de voz en texto y de texto en voz, y para la traducción de voz.

Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz. El servicio de voz proporciona un amplio abanico de características de reconocimiento y generación de voz, como la transcripción de voz, la conversión de texto a voz, la traducción de voz y el reconocimiento del hablante.

Explore las opciones de precios

Aplique filtros para adaptar las opciones de precios a sus necesidades.

Los precios son solo estimaciones y no pretenden ser presupuestos reales. Los precios reales pueden variar según el tipo de contrato acordado con Microsoft, la fecha de compra y el tipo de cambio. Los precios se calculan en dólares estadounidenses y se convierten con las tasas de referencia de Thomson Reuters, actualizadas el primer día de cada mes natural. Inicie sesión en la Calculadora de precios de Azure para ver los precios según su programa u oferta actuales con Microsoft. Póngase en contacto con un especialista de ventas de Azure para más información sobre los precios o solicitar un presupuesto. Para obtener más información sobre los precios de Azure, consulte las preguntas más frecuentes.

Gratis (F0)

Categoría Características Precio
Speech to Text
(facturación por segundo)
Estándar 5 horas de audio gratis al mes
Personalizado 5 horas de audio gratis al mes
Hospedaje de puntos de conexión: 1 modelos gratis al mes1
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR 5 horas de audio gratis al mes
Text to Speech
(facturación por carácter)
Neuronal 0.5 million caracteres gratis al mes
Speech Translation
(facturación por segundo)
Estándar 5 horas de audio gratis al mes
Speaker Recognition
(facturación por transacción)
Comprobación del hablante2 10,000 transacciones gratis por mes
Identificación del hablante2 10,000 transacciones gratis por mes
Almacenamiento de perfiles de voz 10,000 transacciones gratis por mes

Consulte la documentación para obtener información sobre las cuotas, los límites y las instrucciones sobre cómo aumentar las solicitudes simultáneas.

1Los modelos sin usar se retirarán automáticamente después de 7 días.

2Speaker Recognition es una característica de acceso limitado que necesita para solicitar acceso.

Pago por uso: pague solo por lo que use.

Categoría Características Precio
Speech to Text
(facturación por segundo)
Estándar $- por hora de audio
Personalizado $- por hora de audio
Hospedaje de puntos de conexión: $- por modelo a la hora
Características mejoradas del complemento:
  • Identificación del idioma
  • Diarización por lotes para más de 3 oradores
$- por hora de audio por característica
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR $- por hora de audio1
Text to Speech
(facturación por carácter)
Neuronal En tiempo real y síntesis por lotes: $- por un millón caracteres
Creación de audio largo: $- por cada millón de caracteres
Creación de Voz2 Entrenamiento: $- por hora de proceso, hasta $- por entrenamiento
En tiempo real y síntesis por lotes: $- por cada millón de caracteres
Hospedaje de puntos de conexión: $- por modelo a la hora
Creación de audio largo: $- por cada millón de caracteres
Speech Translation
(facturación por segundo)
Estándar $- por hora de audio
Speaker Recognition
(facturación por transacción)
Comprobación del hablante3 $- por 1,000 transacciones
Identificación del hablante3 $- por 1,000 transacciones
Almacenamiento de perfiles de voz $- por 1,000 perfiles de voz (10,000 perfiles de voz gratis al mes)

Consulte la documentación para obtener información sobre las cuotas, los límites y las instrucciones sobre cómo aumentar las solicitudes simultáneas.

1 Los precios reflejados se corresponden con la versión preliminar pública. El precio de disponibilidad general se anunciará más adelante con el lanzamiento de esta versión.

2 Voz neuronal personalizada (CNV) es una funcionalidad de acceso limitado con las versiones Pro y Lite. Con CNV Lite (versión preliminar pública), los clientes pueden grabar su propia voz y crear un modelo para demostración o evaluación, antes de solicitar acceso a Pro. Compruebe dónde está disponible CNV.

3 Speaker Recognition es una característica de acceso limitado que necesita para solicitar acceso.

Niveles de compromiso

Instancia Categoría Características Precio (mensual) Uso por encima del límite
Azure - Estándar Speech to Text Estándar $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Personalizado $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Text to Speech Neuronal1 $- durante 80 M de caracteres $- por cada 1 M de caracteres
$- durante 400 M de caracteres $- por cada 1 M de caracteres
$- durante 2,000 M de caracteres $- por cada 1 M de caracteres
Contenedor conectado - Estándar Speech to Text Estándar $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Personalizado $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Text to Speech Neuronal1 $- durante 80 M de caracteres $- por cada 1 M de caracteres
$- durante 400 M de caracteres $- por cada 1 M de caracteres
$- durante 2,000 M de caracteres $- por cada 1 M de caracteres
Contenedor desconectado Speech to Text Estándar Iniciar sesión para obtener el acceso
Más información
Personalizado Iniciar sesión para obtener el acceso
Más información
Text to Speech Neuronal1 Iniciar sesión para obtener el acceso
Más información
1 Solo síntesis en tiempo real, no incluye la creación de audio larga.

Estas características están en desuso y solo están disponibles para que los clientes existentes las usen. Compruebe los detalles y obtenga información sobre cómo migrar a nuevas características.

Instancia Categoría Características Precio
Gratis - Web/Container
1 solicitud simultánea
Text to Speech Estándar 5 million caracteres gratis al mes
Personalizado 5 million caracteres gratis al mes
Hospedaje de puntos de conexión: 1 modelos gratis al mes
Estándar: web/contenedor
100 solicitudes simultáneas para el modelo base
20 solicitudes simultáneas para un modelo personalizado
Text to Speech Estándar $- por cada millón de caracteres
Personalizado $- por cada millón de caracteres
Hospedaje de puntos de conexión: $- por modelo a la hora

Precios y opciones de compra de Azure

Póngase en contacto con nosotros directamente

Obtenga un tutorial sobre los precios de Azure. Averigüe cómo funcionan los precios para su solución en la nube, descubra cómo se pueden optimizar los costos y solicite una propuesta personalizada.

Hable con un especialista de ventas

Conozca las opciones de compra

Puede adquirir servicios de Azure en el sitio web de la plataforma y a través de un representante de Microsoft o de un asociado de Azure.

Explore sus opciones

Recursos adicionales

Servicios de voz

Obtenga más información sobre las características y funcionalidades de Servicios de voz.

Calculadora de precios

Haga una estimación de los costos mensuales que le supondría el uso de cualquier combinación de productos de Azure.

Documentación

Consulte tutoriales técnicos, vídeos y más recursos de Servicios de voz.

    • Para Speech to Text y Speech Translation, el uso se factura en incrementos de un segundo.
    • Para Text to Speech: el uso se factura por carácter. Compruebe la definición de carácter en la nota de precios.
    • Para Speech to Text y Text to Speech, el hospedaje de puntos de conexión para modelos personalizados se factura por segundo por modelo.
    • Para los comandos personalizados: la facturación se realiza en función del consumo de Speech to Text, Text to Speech y Language Understanding. Los comandos personalizados no incluyen nuevos medidores de facturación.
    • No se aplica ningún cargo por entrenar modelos Speech to Text. Los únicos costos son el hospedaje de puntos de conexión por modelo una vez implementado y, a continuación, el costo por hora de audio de Habla personalizada a Texto.
  • El Servicio de voz permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en Speech to Text y Speech Translation.

  • El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.

  • El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.

  • El servicio de voz ofrece una amplia gama de fuentes de voz para la conversión de texto en voz (TTS). Sin embargo, la voz neuronal personalizada le permite crear su propia voz adaptada a sus necesidades y a su marca. Lea el blog para obtener más información.

  • Identificación lingüística permite identificar un cambio en el idioma hablado y transcribir la voz en consecuencia. Esto se puede aplicar en escenarios en los que se desconoce el idioma del audio o cuando los oradores pueden hablar varios idiomas. La identificación de idioma único está disponible sin costo adicional. La identificación continua del lenguaje es una característica de complemento mejorada. Visite docs para obtener más información.

Hable con un especialista de ventas para que le explique en detalle los precios de Azure. Conozca el precio de su solución en la nube.

Obtenga servicios en la nube gratuitos y un crédito de $200 para explorar Azure durante 30 días.

Agregado al presupuesto. Presione 'v' para verlo en la calculadora
¿Podemos ayudarle?