Omitir navegación

Precios de Servicios de voz

Servicios de voz unificados para la conversión de voz en texto y de texto en voz, y para la traducción de voz.

Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz. El servicio de voz proporciona un amplio abanico de características de reconocimiento y generación de voz, como la transcripción de voz, la conversión de texto a voz, la traducción de voz y el reconocimiento del hablante.

Explore las opciones de precios

Aplique filtros para adaptar las opciones de precios a sus necesidades.

Prices are estimates only and are not intended as actual price quotes. Actual pricing may vary depending on the type of agreement entered with Microsoft, date of purchase, and the currency exchange rate. Prices are calculated based on US dollars and converted using Thomson Reuters benchmark rates refreshed on the first day of each calendar month. Sign in to the Azure pricing calculator to see pricing based on your current program/offer with Microsoft. Contact an Azure sales specialist for more information on pricing or to request a price quote. See frequently asked questions about Azure pricing.

Gratis

Instancia Categoría Características Precio
Gratis - Web/Container
1 solicitud simultánea1
Speech to Text Estándar2 5 horas de audio gratis al mes
Personalizado 5 horas de audio gratis al mes
Hospedaje de puntos de conexión: 1 modelos gratis al mes 3
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR 4 5 horas de audio gratis al mes
Text to Speech Estándar 5 million caracteres gratis al mes
Neuronal 0.5 million caracteres gratis al mes
Personalizado 5 million caracteres gratis al mes
Hospedaje de puntos de conexión: 1 modelos gratis al mes
Traducción de voz Estándar 5 horas de audio gratis al mes
Speaker Recognition Comprobación del hablante 10,000 transacciones gratis por mes
Identificación del hablante 10,000 transacciones gratis por mes
Almacenamiento de datos de voz 10,000 transacciones gratis por mes

Consulte la documentación para obtener información detallada adicional sobre las cuotas y los límites de todos los planes de tarifa.

1Para aumentar las solicitudes simultáneas, vea estas instrucciones.

2Speech to Text incluye ahora una característica de valoración de la pronunciación, tanto para la instancia del nivel Gratis (por ejemplo, 5 horas de audio gratis al mes) como para la instancia del nivel Estándar, que está sujeta a los precios estándar de $1 por hora de audio.

3Los modelos sin usar se retirarán automáticamente después de 7 días.

4El multicanal de transcripción de conversaciones recomienda un dispositivo de matriz de micrófono circular. Para más información, puede consultar el SDK de dispositivos de voz de Microsoft.

Pago por uso

Instancia Categoría Características Precio
Estándar: web/contenedor
100 solicitudes simultáneas para el modelo base
20 solicitudes simultáneas para un modelo personalizado1
Speech to Text Estándar2 $- por hora de audio
Personalizado $- por hora de audio
Hospedaje de puntos de conexión: $- por modelo a la hora
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR 4 $- por hora de audio 5
Text to Speech Estándar $- por cada millón de caracteres
Neuronal $- por un millón caracteres 6
Creación de audio largo: $- por cada millón de caracteres
Personalizado $- por cada millón de caracteres
Hospedaje de puntos de conexión: $- por modelo a la hora 8
Creación de Voz 7 Entrenamiento: $- por hora de proceso, hasta $- por entrenamiento
Síntesis en tiempo real: $- por cada millón de caracteres
Hospedaje de puntos de conexión: $- por modelo a la hora
Creación de audio largo: $- por cada millón de caracteres
Traducción de voz Estándar $- por hora de audio
Speaker Recognition Comprobación del hablante $- por 1,000 transacciones
Identificación del hablante $- por 1,000 transacciones
Almacenamiento de datos de voz $- por 1,000 perfiles de voz (10,000 perfiles de voz gratis al mes)

Consulte la documentación para obtener información detallada adicional sobre las cuotas y los límites de todos los planes de tarifa.

1Para aumentar las solicitudes simultáneas, vea estas instrucciones.

2Speech to Text incluye ahora una característica de valoración de la pronunciación, tanto para la instancia del nivel Gratis (por ejemplo, 5 horas de audio gratis al mes) como para la instancia del nivel Estándar, que está sujeta a los precios estándar de $1 por hora de audio.

3Los modelos sin usar se retirarán automáticamente después de 7 días.

4El multicanal de transcripción de conversaciones recomienda un dispositivo de matriz de micrófono circular. Para más información, puede consultar el SDK de dispositivos de voz de Microsoft.

5Los precios reflejados se corresponden con la versión preliminar pública. El precio de disponibilidad general se anunciará más adelante con el lanzamiento de esta versión.

6Consulte la documentación sobre la voz neuronal para saber las regiones en las que está disponible Neural Text to Speech.

7La característica Voz neuronal personalizada es de acceso limitado. Más información sobre el proceso de acceso limitado. Consulte dónde está disponible la característica Voz neuronal personalizada.

8La voz personalizada dejará de usarse el 29 de febrero de 2024. Ahora disponemos de una oferta mejorada en Voz neuronal personalizada. Migre a Voz neuronal personalizada.

Niveles de compromiso

This pricing is limited access. Apply here.

Instancia Categoría Características Precio (mensual) Uso por encima del límite
Azure - Estándar Speech to Text Estándar $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Text to Speech Neuronal $- durante 80 M de caracteres $- por cada 1 M de caracteres
$- durante 400 M de caracteres $- por cada 1 M de caracteres
$- durante 2,000 M de caracteres $- por cada 1 M de caracteres
Contenedor conectado - Estándar Speech to Text Estándar $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Text to Speech Neuronal $- durante 80 M de caracteres $- por cada 1 M de caracteres
$- durante 400 M de caracteres $- por cada 1 M de caracteres
$- durante 2,000 M de caracteres $- por cada 1 M de caracteres

Precios y opciones de compra de Azure

Póngase en contacto con nosotros directamente

Obtenga un tutorial sobre los precios de Azure. Averigüe cómo funcionan los precios para su solución en la nube, descubra cómo se pueden optimizar los costos y solicite una propuesta personalizada.

Hable con un especialista de ventas

Conozca las opciones de compra

Puede adquirir servicios de Azure en el sitio web de la plataforma y a través de un representante de Microsoft o de un asociado de Azure.

Explore sus opciones

Recursos adicionales

Detalles de Servicios de voz

Obtenga más información sobre las características y funcionalidades de Servicios de voz.

Calculadora de precios

Haga una estimación de los costos mensuales que le supondría el uso de cualquier combinación de productos de Azure.

Documentación

Consulte tutoriales técnicos, vídeos y más recursos de Servicios de voz.

    • Para Speech Translation, Speech to Text y Speech to Text con un modelo de Habla personalizada, el uso se factura en incrementos de un segundo.
    • Para Text to Speech con voces neuronales o neuronales personalizadas, el uso se factura por carácter. Compruebe la definición de carácter en la Nota de precios.
    • Para el hospedaje de modelos de voz personalizados, el uso se factura por horas. Para el hospedaje de fuentes de voz personalizadas, el uso se factura a diario.
    • Para los comandos personalizados: la facturación se realiza en función del consumo de Speech to Text, Text to Speech y Language Understanding. Los comandos personalizados no incluyen nuevos medidores de facturación.
    • No se aplica ningún cargo por el entrenamiento de los modelos de voz. Los únicos costos en los que se incurre derivan del hospedaje del modelo una vez entrenado, además del costo por hora de la transcripción de voz.
  • El Servicio de voz permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en Speech to Text y Speech Translation.

  • El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.

  • El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.

  • El servicio de voz ofrece una amplia gama de fuentes de voz para la conversión de texto en voz (TTS). Sin embargo, la voz neuronal personalizada le permite crear su propia voz adaptada a sus necesidades y a su marca. Lea el blog para obtener más información.

  • Hay situaciones en las que un hablante o varios hablantes pueden hablar varios idiomas en el mismo archivo de audio o en la misma presentación en directo. La detección continua del idioma permite identificar un cambio en el idioma hablado y transcribir con precisión la voz correspondiente. Esta característica es gratis durante la versión preliminar privada y se puede acceder a ella en el SDK del servicio de voz. Consulte Docs para obtener más información.

Hable con un especialista de ventas para que le explique en detalle los precios de Azure. Conozca el precio de su solución en la nube.

Obtenga servicios en la nube gratuitos y un crédito de $200 para explorar Azure durante 30 días.

Agregado al presupuesto. Presione 'v' para verlo en la calculadora