Precios de Cognitive Services: Speech Services

Use API de inteligencia para habilitar características de visión, lenguaje y búsqueda.

Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz. El servicio de voz proporciona un amplio abanico de características de reconocimiento y generación de voz, como la transcripción de voz, la conversión de texto a voz, la traducción de voz y el reconocimiento del hablante.

Detalles de precios

Instancia Categoría Características Precio
Gratis - Web/Container
1 solicitud simultánea1
Speech to Text Estándar 5 horas de audio gratis al mes
Personalizado 5 horas de audio gratis al mes
Hospedaje de puntos de conexión: 1 modelos gratis al mes 2
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR 3 5 horas de audio gratis al mes
Text to Speech Estándar 5 million caracteres gratis al mes
Neuronal 0.5 million caracteres gratis al mes
Personalizado 5 million caracteres gratis al mes
Hospedaje de puntos de conexión: 1 modelos gratis al mes
Traducción de voz Estándar 5 horas de audio gratis al mes
Speaker Recognition7 Comprobación del hablante 10,000 transacciones gratis por mes
Identificación del hablante 10,000 transacciones gratis por mes
Estándar - Web/Container
20 solicitud simultánea 1
Speech to Text Estándar $- por hora de audio
Personalizado $- por hora de audio
Hospedaje de puntos de conexión: $- por modelo a la hora
Audio multicanal de transcripción de conversaciones VERSIÓN PRELIMINAR 3 $- por hora de audio 4
Text to Speech Estándar $- por cada millón de caracteres
Neuronal $- por cada millón de caracteres 5
Creación de audio largo: $- por cada millón de caracteres
Personalizado $- por cada millón de caracteres
Hospedaje de puntos de conexión: $- por modelo a la hora
Creación de Voz VERSIÓN PRELIMINAR 6 neuronal personalizada: póngase en contacto con nosotros
Síntesis en tiempo real: $- por cada millón de caracteres
Hospedaje de puntos de conexión: $- por modelo a la hora
Creación de audio largo: $- por cada millón de caracteres
Traducción de voz Estándar $- por hora de audio
Speaker Recognition7 Comprobación del hablante $- por 1,000 transacciones
Identificación del hablante $- por 1,000 transacciones

Consulte la documentación para obtener información detallada adicional sobre las cuotas y los límites de todos los planes de tarifa.

1Para aumentar las solicitudes simultáneas, vea estas instrucciones.

2Los modelos sin usar se retirarán automáticamente después de 7 días.

3El multicanal de transcripción de conversaciones recomienda un dispositivo de matriz de micrófono circular. Para más información, puede consultar el SDK de dispositivos de voz de Microsoft.

4Los precios reflejados se corresponden con la versión preliminar pública. El precio de disponibilidad general se anunciará más adelante con el lanzamiento de esta versión.

5Consulte la documentación sobre la voz neuronal para saber las regiones en las que está disponible Neural Text to Speech.

6La funcionalidad Voz neuronal personalizada está en versión preliminar restringida. Más información sobre el proceso de restricción.

7Actualmente, Speaker Recognition solo está disponible en la región Oeste de EE. UU. Seleccione "Oeste de EE. UU." como región para ver los precios de Speaker Recognition.

Soporte técnico y contrato de nivel de servicio 

  • Se incluye soporte técnico gratis de facturación y administración de suscripciones
  • Se garantiza una disponibilidad del 99,9 por ciento del tiempo para Cognitive Services en el nivel Estándar. No se ofrece ningún contrato de nivel de servicio con la versión de evaluación gratuita. Lea el Acuerdo de Nivel de Servicio (SLA).

Preguntas más frecuentes

    • Para Speech Translation, Speech to Text y Speech to Text con un modelo de Habla personalizada, el uso se factura en incrementos de un segundo.
    • Para Text to Speech y Text to Speech con una fuente de Voz personalizada, el uso se factura por carácter.
    • Para el hospedaje de modelos de voz personalizados, el uso se factura por horas. Para el hospedaje de fuentes de voz personalizadas, el uso se factura a diario.
    • Para los comandos personalizados: la facturación se realiza en función del consumo de Speech to Text, Text to Speech y Language Understanding. Los comandos personalizados no incluyen nuevos medidores de facturación.
    • No se aplica ningún cargo por el entrenamiento de los modelos de voz. Los únicos costos en los que se incurre derivan del hospedaje del modelo una vez entrenado, además del costo por hora de la transcripción de voz.
  • El Servicio de voz permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en Speech to Text y Speech Translation.

  • El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.

  • El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.

  • Microsoft Speech Services proporcionan más de 70 voces predeterminadas (es decir, fuentes de voz) en más de 40 idiomas para ayudarlo a convertir su texto en audio. A pesar del aumento de los asistentes virtuales y las diversas aplicaciones basadas en la voz, no obstante, muchas empresas desean tener una voz única que represente a su negocio y que esté diseñada cuidadosamente para la identidad de su marca. Por ejemplo, si está desarrollando un bot de chat para su servicio de atención al cliente, puede asociarlo con una voz específica de la marca de su empresa para generar una relación con el cliente. Asimismo, un desarrollador de software de navegación para autos puede habilitar Text to Speech en distintas voces personalizadas para enriquecer la experiencia del usuario.

    Esto es muy fácil mediante Voice Studio, el portal de desarrollo de voces personalizadas. A través de sus propios datos de audio (voces humanas grabadas con sus scripts asociados), puede generar una fuente de voz personalizada que luego se implementará en el servicio Text-to-Speech de Microsoft. También puede incorporarse fácilmente en sus aplicaciones con un punto de conexión de la API para su propio uso.

Recursos

Calcule el coste mensual de los servicios de Azure

Consulte las preguntas más frecuentes sobre los precios de Azure

Más información acerca de Azure Cognitive Services

Consulte tutoriales técnicos, vídeos y más recursos

Agregado al presupuesto. Presione 'v' para verlo en la calculadora

Hable con un especialista de ventas para que le explique en detalle los precios de Azure. Conozca el precio de su solución en la nube.

Obtenga servicios en la nube gratuitos y un crédito de $200 para explorar Azure durante 30 días.