Precios de Cognitive Services: Speech Services

Use API de inteligencia para habilitar características de visión, voz, lenguaje y conocimiento

Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz.

Detalles de precios

La conversión neuronal de texto a voz actualmente se encuentra disponible con carácter general. Se le cobrarán $- por cada millón de caracteres (50 % de descuento respecto al precio de disponibilidad general) hasta el 30 de junio de 2019. A partir del 1 de julio de 2019, se le cobrará el precio de disponibilidad general de $- por cada millón de caracteres.

El contenedor de voz está disponible en versión preliminar pública.

Instancia Category Características Precio
Gratis - Web/Container
1 solicitud simultánea1
Conversión de voz en texto Estándar 5 audio hours free per month
Custom Speech 5 audio hours free per month
Custom Speech endpoint hosting2 1 modelos gratis al mes
Audio multicanal de transcripción de conversacionesVERSIÓN PRELIMINAR 3 5 audio hours free per month
Text to Speech Estándar 5 millones de caracteres gratis al mes
Neuronal 0.5 millones de caracteres gratis al mes
Voz personalizada 5 millones de caracteres gratis al mes
Custom Voice endpoint hosting2 1 modelos gratis al mes
Traducción de voz Estándar 5 audio hours free per month
Estándar - Web/Container
20 solicitud simultánea1
Conversión de voz en texto Estándar $- per audio hour
Custom Speech $- per audio hour
Custom Speech endpoint hosting $- por modelo y mes
Audio multicanal de transcripción de conversacionesVERSIÓN PRELIMINAR 3 $- per audio hour4
Text to Speech Estándar $- por cada millón de caracteres
Neuronal $- por cada millón de caracteres5
Voz personalizada $- por cada millón de caracteres
Custom Voice endpoint hosting $- por modelo y mes
Traducción de voz Estándar $- per audio hour

1Las solicitudes simultáneas se aplicaron solo a los puntos de conexión web.

2Los modelos sin usar se retirarán automáticamente después de 7 días.

3El multicanal de transcripción de conversaciones recomienda un dispositivo de matriz de micrófono circular. Para más información, puede consultar el SDK de dispositivos de voz de Microsoft.

4Los precios reflejados se corresponden con la versión preliminar pública. El precio de disponibilidad general se anunciará más adelante con el lanzamiento de esta versión.

5Prices shown are GA prices, which take effect July 1, 2019. Through June 30, 2019, Neural TTS will be charged at a 50% discount. Check the neural documentation for the regions where Neural Text to Speech is available.

Soporte técnico y contrato de nivel de servicio 

  • Se incluye soporte técnico gratis de facturación y administración de suscripciones
  • Se garantiza una disponibilidad del 99,9 por ciento del tiempo para Cognitive Services en el nivel Estándar. No se ofrece ningún contrato de nivel de servicio con la versión de evaluación gratuita. Lea el Acuerdo de Nivel de Servicio (SLA).

Preguntas más frecuentes

    • Para la traducción de voz, conversión de voz en texto y voz en texto con el modelo de voz personalizado: su uso se factura en incrementos de un segundo
    • Para el texto a voz y la conversión de voz en texto con fuentes de voz personalizadas: su uso de factura por carácter
    • Para el hospedaje de modelos de voz personalizados y el hospedaje de fuentes de voz personalizadas: su uso se factura a diario
  • El servicio Speech permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en la conversión de voz a texto y en la traducción de voz.

  • El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.

  • El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.

  • Microsoft Speech Services proporcionan más de 70 voces predeterminadas (es decir, fuentes de voz) en más de 40 idiomas para ayudarlo a convertir su texto en audio. A pesar del aumento de los asistentes virtuales y las diversas aplicaciones basadas en la voz, no obstante, muchas empresas desean tener una voz única que represente a su negocio y que esté diseñada cuidadosamente para la identidad de su marca. Por ejemplo, si está desarrollando un bot de chat para su servicio de atención al cliente, puede asociarlo con una voz específica de la marca de su empresa para generar una relación con el cliente. Asimismo, un desarrollador de software de navegación para autos puede habilitar la conversión de texto a voz en distintas voces personalizadas para enriquecer la experiencia del usuario.

    Esto es muy fácil mediante Voice Studio, el portal de desarrollo de voces personalizadas. A través de sus propios datos de audio (voces humanas grabadas con sus scripts asociados), puede generar una fuente de voz personalizada que luego se implementará en el servicio Text-to-Speech de Microsoft. También puede incorporarse fácilmente en sus aplicaciones con un punto de conexión de la API para su propio uso.

Recursos

Calcule el costo mensual de los servicios de Azure

Consulte las preguntas más frecuentes sobre los precios de Azure

Más información acerca de Cognitive Services

Consulte tutoriales técnicos, vídeos y más recursos

Agregado al presupuesto. Presione 'v' para verlo en la calculadora Véalo en la calculadora

Aprenda y cree soluciones con un crédito de $200 y continúe gratis