Omitir navegación

Precios de Cognitive Services: Speech Services

Use API de inteligencia para habilitar características de visión, voz, lenguaje y conocimiento

Los servicios de voz unificados proporcionan una gran variedad de capacidades de generación y reconocimiento de voz, incluidas la transcripción, la conversión de texto a voz y la traducción de voz.

Detalles de precios

Instancia Solicitud simultánea Características Precio
Gratis 1 solicitud simultánea Traducción de voz 5 horas gratis al mes
Conversión de voz en texto 5 horas gratis al mes
Conversión de voz en texto con modelo de voz personalizado 5 horas gratis al mes
Hospedaje de puntos de conexión de voz1 1 modelo gratis al mes
Text to Speech con voces estándar 5 millones de caracteres al mes
Texto a voz con fuente de voz personalizada 5 millones de caracteres al mes
Text to Speech con voces neuronales 0,5 millones de caracteres gratis al mes
Hospedaje de fuentes de voz personalizadas1 1 modelo gratis al mes
Estándar 20 solicitudes simultáneas Traducción de voz $- por hora
Conversión de voz en texto $- por hora
Conversión de voz en texto con modelo de voz personalizado $- por hora
Hospedaje de puntos de conexión de voz $-/modelo/mes
Text to Speech con voces estándar $- por 1M char
Texto a voz con fuente de voz personalizada $- por 1M char
Text to Speech con voces neuronales $- por 1M char2
Hospedaje de fuentes de voz personalizadas $-/modelo/mes
1Los modelos sin usar se retirarán automáticamente después de 7 días.
2Este es el precio de una versión preliminar pública de Text to Speech con voces neuronales.

Soporte técnico y contrato de nivel de servicio 

  • Se incluye soporte técnico gratis de facturación y administración de suscripciones
  • Se garantiza una disponibilidad del 99,9 por ciento del tiempo para Cognitive Services en el nivel Estándar. No se ofrece ningún contrato de nivel de servicio con la versión de evaluación gratuita. Lea el Acuerdo de Nivel de Servicio (SLA).

Preguntas más frecuentes

Servicios de voz

    • Para la traducción de voz, conversión de voz en texto y voz en texto con el modelo de voz personalizado: su uso se factura en incrementos de un segundo
    • Para el texto a voz y la conversión de voz en texto con fuentes de voz personalizadas: su uso de factura por carácter
    • Para el hospedaje de modelos de voz personalizados y el hospedaje de fuentes de voz personalizadas: su uso se factura a diario
  • El servicio Speech permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. Esto da lugar a modelos de voz personalizados que se pueden usar en la conversión de voz a texto y en la traducción de voz.

  • El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.

  • El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.

  • Microsoft Speech Services proporcionan más de 70 voces predeterminadas (es decir, fuentes de voz) en más de 40 idiomas para ayudarlo a convertir su texto en audio. A pesar del aumento de los asistentes virtuales y las diversas aplicaciones basadas en la voz, no obstante, muchas empresas desean tener una voz única que represente a su negocio y que esté diseñada cuidadosamente para la identidad de su marca. Por ejemplo, si está desarrollando un bot de chat para su servicio de atención al cliente, puede asociarlo con una voz específica de la marca de su empresa para generar una relación con el cliente. Asimismo, un desarrollador de software de navegación para autos puede habilitar la conversión de texto a voz en distintas voces personalizadas para enriquecer la experiencia del usuario.

    Esto es muy fácil mediante Voice Studio, el portal de desarrollo de voces personalizadas. A través de sus propios datos de audio (voces humanas grabadas con sus scripts asociados), puede generar una fuente de voz personalizada que luego se implementará en el servicio Text-to-Speech de Microsoft. También puede incorporarse fácilmente en sus aplicaciones con un punto de conexión de la API para su propio uso.

General

  • Bing Search APIs se factura por número de transacciones (también denominadas llamadas API). Estos planes son de pago por uso y no generan costos adicionales por consultas complejas y más de 10 resultados (hasta 50 resultados en la mayoría de los casos).

  • En caso de que se supere el número mencionado de transacciones por segundo (TPS), el uso se reducirá para que se mantenga dentro del límite mencionado. Si su aplicación necesita un número mayor de TPS que el mencionado en esta página, póngase en contacto con el equipo de soporte técnico de Azure.

  • A efectos de facturación, una transacción es una solicitud correcta de llamada API de Bing (aunque hay advertencias sobre ataques por denegación del servicio [DoS]). Con fines de registro y generación de informes, como en el caso del complemento Estadísticas de Bing, se trata de cualquier llamada API de Bing, independientemente de que se haya realizado correctamente o no.

  • Puede cambiar el nivel de servicio siempre que quiera. Asegúrese de utilizar las claves adecuadas en las llamadas API. Si mantiene un contrato Enterprise con Microsoft, trabaje con el ejecutivo de cuentas.

Recursos

Calcule el costo mensual de los servicios de Azure

Consulte las preguntas más frecuentes sobre los precios de Azure

Más información acerca de Cognitive Services

Consulte tutoriales técnicos, vídeos y más recursos

Agregado al presupuesto. Presione 'v' para verlo en la calculadora Véalo en la calculadora

Aprenda y cree soluciones con un crédito de $200 y continúe gratis