Saltar al contenido principal
Azure

Precios de Voz de Azure AI

Servicios de voz unificados para la conversión de voz en texto y de texto en voz, y para la traducción de voz.

Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz. El servicio de voz proporciona un amplio abanico de características de reconocimiento y generación de voz, como la transcripción de voz, la conversión de texto a voz, la traducción de voz y el reconocimiento del hablante.

Explore las opciones de precios

Aplique filtros para adaptar las opciones de precios a sus necesidades.

Los precios son solo estimaciones y no están pensados como cotizaciones de precios reales. Los precios reales pueden variar en función del tipo de contrato especificado con Microsoft, la fecha de compra y el tipo de cambio de moneda. Los precios se calculan en dólares estadounidenses y se convierten con las tarifas al contado de cierre de Londres que se capturan en los dos días laborables anteriores al último día laborable del mes anterior. Si los dos días laborables anteriores al final del mes se encuentran en un día festivo en los principales mercados, el día de configuración de tarifas suele ser el día inmediatamente anterior a los dos días laborables. Esta tarifa se aplica a todas las transacciones durante el próximo mes. Inicie sesión en la calculadora de precios de Azure para ver los precios basados en su programa u oferta actuales con Microsoft. Póngase en contacto con un especialista en ventas de Azure para obtener más información sobre precios o para solicitar una oferta de precios. Vea preguntas poco frecuentes sobre los precios de Azure.

Gratis (F0)

Categoría Características Precio
Speech to Text
(facturación por segundo)
Estándar 5 horas de audio gratis al mes3
Personalizado 5 horas de audio gratis al mes3
Hospedaje de puntos de conexión: 1 modelos gratis al mes1
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR 5 horas de audio gratis al mes
Text to Speech
(facturación por carácter)
Neuronal 0.5 million caracteres gratis al mes
Speech Translation
(facturación por segundo)
Estándar 5 horas de audio gratis al mes
Speaker Recognition
(facturación por transacción)
Comprobación del hablante2 10,000 transacciones gratis por mes
Identificación del hablante2 10,000 transacciones gratis por mes
Almacenamiento de perfiles de voz 10,000 transacciones gratis por mes

Consulte la documentación para obtener información sobre las cuotas, los límites y las instrucciones sobre cómo aumentar las solicitudes simultáneas.

1Los modelos sin usar se retirarán automáticamente después de 7 días.

2Speaker Recognition es una característica de acceso limitado que necesita para solicitar acceso.

3Las horas de audio gratuitas para la conversión de voz a texto se comparten entre Estándar y Personalizado. No se admite Lote.

Pago por uso: pague solo por lo que use.

Categoría Precio
Speech to Text
(facturación por segundo)
Estándar Transcripción en tiempo real: $- por hora
Transcripción rápidaVista previa: $- por hora9
Transcripción por lotes: $- por hora1
Personalizado Transcripción en tiempo real: $- por hora
Transcripción por lotes: $- por hora1
Hospedaje de puntos de conexión: $- por modelo a la hora
Entrenamiento sobre el Habla personalizada5: $- por hora de proceso
Características mejoradas del complemento:
  • Identificación continua del idioma
  • Diarización
  • Evaluación de pronunciación (prosodia, gramática, vocabulario, tema)
Tiempo real: $- por hora por característica
Lote (identificación continua de idioma, diarización): incluido en Estándar/Personalizado (sin cargo adicional)
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR $- por hora2
Speech Translation
(facturación por segundo)
Speech Translation en tiempo real $- por hora de audio3
Traducción de vídeoVista previa Lote: $- por minuto de vídeo de salida
Edición de contenido: $- por minuto de vídeo de salida
Voz personal: $- por minuto de vídeo de salida
Text to Speech8 Voz estándar Neuronal: $- por cada millón de caracteres
HD neuronal4: $- por cada millón de caracteres
Voz personalizada Voz profesional:
Síntesis: $- por cada millón de caracteres
Entrenamiento del modelo de voz: $- por hora de proceso, hasta $- por entrenamiento
Hospedaje de puntos de conexión: $- por modelo a la hora
Voz personal6:
Síntesis: $- por cada millón de caracteres
Creación de voz: gratis
Almacenamiento de perfiles de voz: $- por 1000 perfiles de voz al mes
Características mejoradas del complemento: avatar Estándar: $- por minuto
Personalizado:
Síntesis en tiempo real: $- por minuto
Síntesis por lotes: $- por minuto
Hospedaje de puntos de conexión: $- por modelo por hora
Speaker Recognition
(facturación por transacción)
Comprobación del hablante7 $- por 1,000 transacciones
Identificación del hablante7 $- por 1,000 transacciones
Almacenamiento de perfiles de voz $- por 1,000 perfiles de voz (10,000 perfiles de voz gratis al mes)

Consulte la documentación para obtener información sobre las cuotas, los límites y las instrucciones sobre cómo aumentar las solicitudes simultáneas.

Las horas de voz a texto se miden como las horas de audio enviadas al servicio, facturadas en incrementos de un segundo.

1Para aprovechar estos nuevos precios de transcripción por lotes, debe usar la API de REST de conversión de voz en texto V3.2 o versiones posteriores. Consulte la API de REST de conversión de voz en texto para obtener información.

2Esto refleja los precios de la versión preliminar pública.

3Este precio incluye 1 entrada y salida de audio, hasta 2 idiomas de traducción de texto con Speech to Text estándar o personalizado y traducción estándar. Para idiomas personalizados de traducción o de más de 3 idiomas de traducción, consulte la página de precios de traducción de texto de Azure AI Translator.

4Las voces de texto a voz de OpenAI están disponibles a través de dos variantes de modelo: Neural y NeuralHD. Obtenga más información aquí.

5El entrenamiento de Habla personalizada se aplica al personalizar cualquier modelo base publicado el 1 de octubre de 1, 2023 o después.

6Voz personal es una característica de acceso limitado restringida a ciertos casos de uso aprobados previamente solo, con la necesidad de solicitar acceso. Para obtener más información sobre el servicio, compruebe el documento.

7Speaker Recognition es una característica de acceso limitado que necesita para solicitar acceso.

8Text to Speech: el uso de síntesis de voz se factura por carácter. El avatar se factura por segundo. El entrenamiento y el hospedaje de modelos se facturan por segundo.

9Para usar la Transcripción rápida, debe usar la API de REST de conversión de voz en texto 2024-05-15-preview o versiones posteriores. Consulte la API de REST de conversión de voz en texto para obtener información.

Niveles de compromiso - Azure - Estándar

Categoría Características Precio (mensual) Uso por encima del límite
Speech to Text Estándar $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Personalizado $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Características mejoradas del complemento:2
  • Identificación continua del idioma
  • Diarización
  • Evaluación de pronunciación (prosodia, gramática, vocabulario, tema)
$- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Text to Speech Neuronal1 $- durante 80 M de caracteres $- por cada 1 M de caracteres
$- durante 400 M de caracteres $- por cada 1 M de caracteres
$- durante 2,000 M de caracteres $- por cada 1 M de caracteres

1Solo síntesis en tiempo real, no incluye la creación de audio larga.

2Solo voz a texto en tiempo real, identificación continua del idioma y características del complemento de diarización incluidas con la conversión de voz en texto por lotes.

Niveles de compromiso: contenedor conectado

Categoría Características Precio (mensual) Uso por encima del límite
Speech to Text2 Estándar $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Personalizado $- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Características mejoradas del complemento:2
  • Identificación del idioma
  • Diarización
$- durante 2,000 horas $- por hora
$- durante 10,000 horas $- por hora
$- durante 50,000 horas $- por hora
Text to Speech Neuronal1 $- durante 80 M de caracteres $- por cada 1 M de caracteres
$- durante 400 M de caracteres $- por cada 1 M de caracteres
$- durante 2,000 M de caracteres $- por cada 1 M de caracteres

1Solo síntesis en tiempo real, no incluye la creación de audio larga.

2Los precios se aplican a los casos de uso por lotes y en tiempo real. No hay ningún precio por lotes independiente para los contenedores.

Consulte la documentación para obtener información sobre los niveles de compromiso.

Niveles de compromiso: contenedor desconectado

Regístrese para acceder a voz en contenedores desconectados o obtener más información

Categoría Características Precio (por año) Uso máximo por año Uso previsto (al mes)
Speech to Text2 Estándar $-
$-
Iniciar sesión para obtener el acceso
Más información
120 000 horas
600 000 horas
10 000 horas
50 000 horas
Personalizado $-
$-
Iniciar sesión para obtener el acceso
Más información
120 000 horas
600 000 horas
10 000 horas
50 000 horas
Características mejoradas del complemento:
  • Identificación del idioma
  • Diarización
$-
$-
120 000 horas
600 000 horas
10 000 horas
50 000 horas
Text to Speech Neuronal1 $-
$-
Iniciar sesión para obtener el acceso
Más información
4,8B caracteres
24B caracteres
400 millones de caracteres
2000 millones de caracteres

1Solo síntesis en tiempo real, no incluye la creación de audio larga.

2Los precios se aplican a los casos de uso por lotes y en tiempo real. No hay ningún precio por lotes independiente para los contenedores.

Estas características están en desuso y solo están disponibles para que los clientes existentes las usen. Compruebe los detalles y obtenga información sobre cómo migrar a nuevas características.

Instancia Categoría Características Precio
Gratis - Web/Container
1 solicitud simultánea
Text to Speech Estándar 5 million caracteres gratis al mes
Personalizado 5 million caracteres gratis al mes
Hospedaje de puntos de conexión: 1 modelos gratis al mes
Estándar: web/contenedor
100 solicitudes simultáneas para el modelo base
20 solicitudes simultáneas para un modelo personalizado
Text to Speech Estándar $- por cada millón de caracteres
Personalizado $- por cada millón de caracteres
Hospedaje de puntos de conexión: $- por modelo a la hora

Precios y opciones de compra de Azure

Póngase en contacto con nosotros directamente

Obtenga un tutorial sobre los precios de Azure. Averigüe cómo funcionan los precios para su solución en la nube, descubra cómo se pueden optimizar los costos y solicite una propuesta personalizada.

Hable con un especialista de ventas

Conozca las opciones de compra

Puede adquirir servicios de Azure en el sitio web de la plataforma y a través de un representante de Microsoft o de un asociado de Azure.

Explore sus opciones

Recursos adicionales

Voz de Azure AI

Obtenga más información sobre las características y funcionalidades de Voz de Azure AI.

Calculadora de precios

Haga una estimación de los costos mensuales que le supondría el uso de cualquier combinación de productos de Azure.

Documentación

Consulte tutoriales técnicos, vídeos y más recursos de Voz de Azure AI.

    • Para Speech to Text y Speech Translation, el uso se factura en incrementos de un segundo.
    • Para Text to Speech: el uso se factura por carácter. Compruebe la definición de carácter en la nota de precios.
    • Para el hospedaje de voz neuronal personalizada: el uso se factura por punto de conexión por segundo. Consulte los detalles en la nota de precios .
    • Para el almacenamiento de perfiles de voz personales: el uso se factura por perfil de voz al día. Consulte los detalles en la nota de precios .
    • Por Text to Speech avatar, el uso se factura por segundo.
    • Para Speech to Text y Text to Speech (avatar incluido), el hospedaje de puntos de conexión para modelos personalizados se factura por segundo por modelo.
  • El Servicio de voz permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en Speech to Text y Speech Translation.

  • El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.

  • El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.

  • El servicio de voz ofrece una amplia gama de fuentes de voz para la conversión de texto en voz (TTS). Sin embargo, la voz neuronal personalizada le permite crear su propia voz adaptada a sus necesidades y a su marca. Lea el blog para obtener más información.

  • Identificación lingüística permite identificar un cambio en el idioma hablado y transcribir la voz en consecuencia. Esto se puede aplicar en escenarios en los que se desconoce el idioma del audio o cuando los oradores pueden hablar varios idiomas. La identificación de idioma único está disponible sin costo adicional. La identificación continua del lenguaje es una característica de complemento mejorada. Visite docs para obtener más información.

    • La evaluación de pronunciación evalúa la pronunciación de voz y proporciona a los oradores comentarios sobre la precisión y la fluidez del audio hablado. Con la evaluación de la pronunciación, los estudiantes de idioma pueden practicar, recibir comentarios instantáneos y mejorar su pronunciación para que puedan hablar y presentar con confianza. Los educadores pueden usar la capacidad de evaluar la pronunciación de varios oradores en tiempo real. Visite docs para obtener más información.
    • Se cobra como Speech to Text estándar, por ejemplo:
      Para la evaluación de 8 segundos de voz, se le cobrará alrededor de $-

Hable con un especialista de ventas para que le explique en detalle los precios de Azure. Conozca el precio de su solución en la nube.

Obtenga servicios en la nube gratuitos y un crédito de $200 para explorar Azure durante 30 días.

Agregado al presupuesto. Presione 'v' para verlo en la calculadora
¿Podemos ayudarle?