Precios de Cognitive Services: Speech Services

Use API de inteligencia para habilitar funcionalidades de visión, lenguaje y búsqueda.

Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz.

Detalles de precios

Neural Text to Speech ya se encuentra disponible con carácter general. Los precios que se muestran son de la versión en disponibilidad general y entran en vigor el 1 de julio de 2019. Hasta el 30 de junio de 2019, se cobrará con un descuento del 50 %.

El contenedor de voz está disponible en versión preliminar pública.

Instancia Category Características Precio
Gratis - Web/Container
1 solicitud simultánea1
Speech to Text Estándar 5 horas de audio gratis al mes
Custom Speech 5 horas de audio gratis al mes
Hospedaje de puntos de conexión de Custom Speech2 1 modelos gratis al mes
Audio multicanal de transcripción de conversacionesVERSIÓN PRELIMINAR 3 5 horas de audio gratis al mes
Text to Speech Estándar 5 millones de caracteres gratis al mes
Neuronal 0.5 millones de caracteres gratis al mes
Voz personalizada 5 millones de caracteres gratis al mes
Hospedaje de puntos de conexión de voz personalizada2 1 modelos gratis al mes
Traducción de voz Estándar 5 horas de audio gratis al mes
Estándar - Web/Container
20 solicitud simultánea1
Speech to Text Estándar $- por hora de audio
Custom Speech $- por hora de audio
Hospedaje de puntos de conexión de Custom Speech $- por modelo y mes
Audio multicanal de transcripción de conversacionesVERSIÓN PRELIMINAR 3 $- por hora de audio4
Text to Speech Estándar $- por cada millón de caracteres
Neuronal $- por cada millón de caracteres5
Voz personalizada $- por cada millón de caracteres
Hospedaje de puntos de conexión de voz personalizada $- por modelo y mes
Traducción de voz Estándar $- por hora de audio

1Las solicitudes simultáneas se aplicaron solo a los puntos de conexión web.

2Los modelos sin usar se retirarán automáticamente después de 7 días.

3El multicanal de transcripción de conversaciones recomienda un dispositivo de matriz de micrófono circular. Para más información, puede consultar el SDK de dispositivos de voz de Microsoft.

4Los precios reflejados se corresponden con la versión preliminar pública. El precio de disponibilidad general se anunciará más adelante con el lanzamiento de esta versión.

5Los precios que se muestran son de la versión en disponibilidad general y entran en vigor el 1 de julio de 2019. Hasta el 30 de junio de 2019, Texto a voz neuronal se cobrará con un descuento del 50 %. Consulte la documentación sobre la voz neuronal para saber las regiones en las que está disponible Neural Text to Speech.

Soporte técnico y contrato de nivel de servicio 

  • Se incluye soporte técnico gratis de facturación y administración de suscripciones
  • Se garantiza una disponibilidad del 99,9 por ciento del tiempo para Cognitive Services en el nivel Estándar. No se ofrece ningún contrato de nivel de servicio con la versión de evaluación gratuita. Lea el Acuerdo de Nivel de Servicio (SLA).

Preguntas más frecuentes

    • Para Speech Translation, Speech to Text y Speech to Text con modelo de voz personalizado, el uso se factura en incrementos de un segundo
    • Para Text to Speech y Text to Speech con fuente de voz personalizada, el uso se factura por carácter
    • Para el hospedaje de modelos de voz personalizados, el uso se factura por horas. Para el hospedaje de fuentes de voz personalizadas, el uso se factura a diario.
  • El servicio Speech permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en Speech to Text y Speech Translation.

  • El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.

  • El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.

  • Microsoft Speech Services proporcionan más de 70 voces predeterminadas (es decir, fuentes de voz) en más de 40 idiomas para ayudarlo a convertir su texto en audio. A pesar del aumento de los asistentes virtuales y las diversas aplicaciones basadas en la voz, no obstante, muchas empresas desean tener una voz única que represente a su negocio y que esté diseñada cuidadosamente para la identidad de su marca. Por ejemplo, si está desarrollando un bot de chat para su servicio de atención al cliente, puede asociarlo con una voz específica de la marca de su empresa para generar una relación con el cliente. Asimismo, un desarrollador de software de navegación para autos puede habilitar Text to Speech en distintas voces personalizadas para enriquecer la experiencia del usuario.

    Esto es muy fácil mediante Voice Studio, el portal de desarrollo de voces personalizadas. A través de sus propios datos de audio (voces humanas grabadas con sus scripts asociados), puede generar una fuente de voz personalizada que luego se implementará en el servicio Text-to-Speech de Microsoft. También puede incorporarse fácilmente en sus aplicaciones con un punto de conexión de la API para su propio uso.

Recursos

Calcule el costo mensual de los servicios de Azure

Consulte las preguntas más frecuentes sobre los precios de Azure

Más información acerca de Cognitive Services

Consulte tutoriales técnicos, vídeos y más recursos

Agregado al presupuesto. Presione 'v' para verlo en la calculadora

Aprenda y cree soluciones con un crédito de $200 y continúe gratis