Servicios de voz unificados para la conversión de voz en texto y de texto en voz, y para la traducción de voz.
Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz. El servicio de voz proporciona un amplio abanico de características de reconocimiento y generación de voz, como la transcripción de voz, la conversión de texto a voz, la traducción de voz y el reconocimiento del hablante.
Explore las opciones de precios
Aplique filtros para adaptar las opciones de precios a sus necesidades.
Los precios son solo estimaciones y no están pensados como cotizaciones de precios reales. Los precios reales pueden variar en función del tipo de contrato especificado con Microsoft, la fecha de compra y el tipo de cambio de moneda. Los precios se calculan en dólares estadounidenses y se convierten con las tarifas al contado de cierre de Londres que se capturan en los dos días laborables anteriores al último día laborable del mes anterior. Si los dos días laborables anteriores al final del mes se encuentran en un día festivo en los principales mercados, el día de configuración de tarifas suele ser el día inmediatamente anterior a los dos días laborables. Esta tarifa se aplica a todas las transacciones durante el próximo mes. Inicie sesión en la calculadora de precios de Azure para ver los precios basados en su programa u oferta actuales con Microsoft. Póngase en contacto con un especialista en ventas de Azure para obtener más información sobre precios o para solicitar una oferta de precios. Vea preguntas poco frecuentes sobre los precios de Azure.
Las entidades gubernamentales de EE. UU. pueden comprar servicios de Azure Government a un proveedor de soluciones de licencia sin ningún compromiso financiero por adelantado, o bien directamente a través de una suscripción en línea de pago por uso.
Importante: el precio en R$ es solo una referencia. Se trata de transacciones internacionales y el precio final está sujeto a tipos de cambio y a la inclusión de impuestos sobre operaciones financieras. No se emitirá ningún eNF.
Las entidades gubernamentales de EE. UU. pueden comprar servicios de Azure Government a un proveedor de soluciones de licencia sin ningún compromiso financiero por adelantado, o bien directamente a través de una suscripción en línea de pago por uso.
Importante: el precio en R$ es solo una referencia. Se trata de transacciones internacionales y el precio final está sujeto a tipos de cambio y a la inclusión de impuestos sobre operaciones financieras. No se emitirá ningún eNF.
Gratis (F0)
Categoría | Características | Precio |
---|---|---|
Speech to Text (facturación por segundo) |
Estándar | 5 horas de audio gratis al mes3 |
Personalizado |
5 horas de audio gratis al mes3 Hospedaje de puntos de conexión: 1 modelos gratis al mes1 |
|
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR | 5 horas de audio gratis al mes | |
Text to Speech (facturación por carácter) |
Neuronal | 0.5 million caracteres gratis al mes |
Speech Translation (facturación por segundo) |
Estándar | 5 horas de audio gratis al mes |
Speaker Recognition (facturación por transacción) |
Comprobación del hablante2 | 10,000 transacciones gratis por mes |
Identificación del hablante2 | 10,000 transacciones gratis por mes | |
Almacenamiento de perfiles de voz | 10,000 transacciones gratis por mes |
Pago por uso: pague solo por lo que use.
Categoría | Precio | |
---|---|---|
Speech to Text (facturación por segundo) |
Estándar |
Transcripción en tiempo real: $- por hora Transcripción rápida: $- por hora9 Transcripción por lotes: $- por hora1 |
Personalizado |
Transcripción en tiempo real: $- por hora Transcripción por lotes: $- por hora1 Hospedaje de puntos de conexión: $- por modelo a la hora Entrenamiento sobre el Habla personalizada5: $- por hora de proceso |
|
Características mejoradas del complemento:
|
Tiempo real: $- por hora por característica Lote (identificación continua de idioma, diarización): incluido en Estándar/Personalizado (sin cargo adicional) |
|
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR | $- por hora2 | |
Speech Translation (facturación por segundo) |
Speech Translation en tiempo real | $- por hora de audio3 |
Traducción de vídeoVista previa |
Lote: $- por minuto de vídeo de salida Edición de contenido: $- por minuto de vídeo de salida Voz personal: $- por minuto de vídeo de salida |
|
Text to Speech8 | Voz estándar |
Neuronal: $- por cada millón de caracteres HD neuronal4: $- por cada millón de caracteres |
Voz personalizada |
Voz profesional:
Síntesis: $- por cada millón de caracteres
Entrenamiento del modelo de voz: $- por hora de proceso, hasta $- por entrenamiento Hospedaje de puntos de conexión: $- por modelo a la hora |
|
Voz personal6:
Síntesis: $- por cada millón de caracteres
Creación de voz: gratis Almacenamiento de perfiles de voz: $- por 1000 perfiles de voz al mes |
||
Características mejoradas del complemento: avatar | Estándar: $- por minuto | |
Personalizado:
Síntesis en tiempo real: $- por minuto
Síntesis por lotes: $- por minuto Hospedaje de puntos de conexión: $- por modelo por hora |
||
Speaker Recognition (facturación por transacción) |
Comprobación del hablante7 | $- por 1,000 transacciones |
Identificación del hablante7 | $- por 1,000 transacciones | |
Almacenamiento de perfiles de voz | $- por 1,000 perfiles de voz (10,000 perfiles de voz gratis al mes) |
Niveles de compromiso - Azure - Estándar
Categoría | Características | Precio (mensual) | Uso por encima del límite |
---|---|---|---|
Speech to Text | Estándar | $- durante 2,000 horas | $- por hora |
$- durante 10,000 horas | $- por hora | ||
$- durante 50,000 horas | $- por hora | ||
Personalizado | $- durante 2,000 horas | $- por hora | |
$- durante 10,000 horas | $- por hora | ||
$- durante 50,000 horas | $- por hora | ||
Características mejoradas del complemento:2
|
$- durante 2,000 horas | $- por hora | |
$- durante 10,000 horas | $- por hora | ||
$- durante 50,000 horas | $- por hora | ||
Text to Speech | Neuronal1 | $- durante 80 M de caracteres | $- por cada 1 M de caracteres |
$- durante 400 M de caracteres | $- por cada 1 M de caracteres | ||
$- durante 2,000 M de caracteres | $- por cada 1 M de caracteres |
1Solo síntesis en tiempo real, no incluye la creación de audio larga.
2Solo voz a texto en tiempo real, identificación continua del idioma y características del complemento de diarización incluidas con la conversión de voz en texto por lotes.
Niveles de compromiso: contenedor conectado
Categoría | Características | Precio (mensual) | Uso por encima del límite |
---|---|---|---|
Speech to Text2 | Estándar | $- durante 2,000 horas | $- por hora |
$- durante 10,000 horas | $- por hora | ||
$- durante 50,000 horas | $- por hora | ||
Personalizado | $- durante 2,000 horas | $- por hora | |
$- durante 10,000 horas | $- por hora | ||
$- durante 50,000 horas | $- por hora | ||
Características mejoradas del complemento:2
|
$- durante 2,000 horas | $- por hora | |
$- durante 10,000 horas | $- por hora | ||
$- durante 50,000 horas | $- por hora | ||
Text to Speech | Neuronal1 | $- durante 80 M de caracteres | $- por cada 1 M de caracteres |
$- durante 400 M de caracteres | $- por cada 1 M de caracteres | ||
$- durante 2,000 M de caracteres | $- por cada 1 M de caracteres |
1Solo síntesis en tiempo real, no incluye la creación de audio larga.
2Los precios se aplican a los casos de uso por lotes y en tiempo real. No hay ningún precio por lotes independiente para los contenedores.
Consulte la documentación para obtener información sobre los niveles de compromiso.
Niveles de compromiso: contenedor desconectado
Regístrese para acceder a voz en contenedores desconectados o obtener más información
Categoría | Características | Precio (por año) | Uso máximo por año | Uso previsto (al mes) |
---|---|---|---|---|
Speech to Text2 | Estándar |
$-
$- Iniciar sesión para obtener el acceso Más información |
120 000 horas
600 000 horas |
10 000 horas
50 000 horas |
Personalizado |
$-
$- Iniciar sesión para obtener el acceso Más información |
120 000 horas
600 000 horas |
10 000 horas
50 000 horas |
|
Características mejoradas del complemento:
|
$-
$- |
120 000 horas
600 000 horas |
10 000 horas
50 000 horas |
|
Text to Speech | Neuronal1 |
$-
$- Iniciar sesión para obtener el acceso Más información |
4,8B caracteres
24B caracteres |
400 millones de caracteres
2000 millones de caracteres |
1Solo síntesis en tiempo real, no incluye la creación de audio larga.
2Los precios se aplican a los casos de uso por lotes y en tiempo real. No hay ningún precio por lotes independiente para los contenedores.
Estas características están en desuso y solo están disponibles para que los clientes existentes las usen. Compruebe los detalles y obtenga información sobre cómo migrar a nuevas características.
Instancia | Categoría | Características | Precio |
---|---|---|---|
Gratis - Web/Container 1 solicitud simultánea |
Text to Speech | Estándar | 5 million caracteres gratis al mes |
Personalizado |
5 million caracteres gratis al mes Hospedaje de puntos de conexión: 1 modelos gratis al mes |
||
Estándar: web/contenedor 100 solicitudes simultáneas para el modelo base 20 solicitudes simultáneas para un modelo personalizado |
Text to Speech | Estándar | $- por cada millón de caracteres |
Personalizado |
$- por cada millón de caracteres Hospedaje de puntos de conexión: $- por modelo a la hora |
Precios y opciones de compra de Azure
Póngase en contacto con nosotros directamente
Obtenga un tutorial sobre los precios de Azure. Averigüe cómo funcionan los precios para su solución en la nube, descubra cómo se pueden optimizar los costos y solicite una propuesta personalizada.
Hable con un especialista de ventasConozca las opciones de compra
Puede adquirir servicios de Azure en el sitio web de la plataforma y a través de un representante de Microsoft o de un asociado de Azure.
Explore sus opcionesRecursos adicionales
Voz de Azure AI
Obtenga más información sobre las características y funcionalidades de Voz de Azure AI.
Calculadora de precios
Haga una estimación de los costos mensuales que le supondría el uso de cualquier combinación de productos de Azure.
Documentación
Consulte tutoriales técnicos, vídeos y más recursos de Voz de Azure AI.
Preguntas frecuentes
-
- Para Speech to Text y Speech Translation, el uso se factura en incrementos de un segundo.
- Para Text to Speech: el uso se factura por carácter. Compruebe la definición de carácter en la nota de precios.
- Para el hospedaje de voz neuronal personalizada: el uso se factura por punto de conexión por segundo. Consulte los detalles en la nota de precios .
- Para el almacenamiento de perfiles de voz personales: el uso se factura por perfil de voz al día. Consulte los detalles en la nota de precios .
- Por Text to Speech avatar, el uso se factura por segundo.
- Para Speech to Text y Text to Speech (avatar incluido), el hospedaje de puntos de conexión para modelos personalizados se factura por segundo por modelo.
-
El Servicio de voz permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en Speech to Text y Speech Translation.
-
El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.
-
El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.
-
El servicio de voz ofrece una amplia gama de fuentes de voz para la conversión de texto en voz (TTS). Sin embargo, la voz neuronal personalizada le permite crear su propia voz adaptada a sus necesidades y a su marca. Lea el blog para obtener más información.
-
Identificación lingüística permite identificar un cambio en el idioma hablado y transcribir la voz en consecuencia. Esto se puede aplicar en escenarios en los que se desconoce el idioma del audio o cuando los oradores pueden hablar varios idiomas. La identificación de idioma único está disponible sin costo adicional. La identificación continua del lenguaje es una característica de complemento mejorada. Visite docs para obtener más información.
-
- La evaluación de pronunciación evalúa la pronunciación de voz y proporciona a los oradores comentarios sobre la precisión y la fluidez del audio hablado. Con la evaluación de la pronunciación, los estudiantes de idioma pueden practicar, recibir comentarios instantáneos y mejorar su pronunciación para que puedan hablar y presentar con confianza. Los educadores pueden usar la capacidad de evaluar la pronunciación de varios oradores en tiempo real. Visite docs para obtener más información.
- Se cobra como Speech to Text estándar, por ejemplo:
Para la evaluación de 8 segundos de voz, se le cobrará alrededor de $-
Hable con un especialista de ventas para que le explique en detalle los precios de Azure. Conozca el precio de su solución en la nube.
Obtenga servicios en la nube gratuitos y un crédito de $200 para explorar Azure durante 30 días.