Precios de Cognitive Services - Custom Speech Service VERSIÓN PRELIMINAR

Use API de inteligencia para habilitar características de visión, voz, lenguaje y conocimiento

Custom Speech Service permite crear modelos de reconocimiento de voz personalizados e implementarlos en un punto de conexión de conversión de voz a texto adaptado a su aplicación. Con Custom Speech Service, puede personalizar el modelo de lenguaje del reconocedor de voz para que aprenda el vocabulario de una aplicación y el estilo de habla de los usuarios. También puede personalizar el modelo acústico del reconocedor de voz para adaptarlo al entorno y a los usuarios que se espera que tenga la aplicación.

Detalles de precios

La adaptación de modelos es gratuita.

Gratis S1
Model Deployments 1 model $-/model/month
Model Adaptation 3 hours/month Unlimited
Pruebas de precisión 2 hours/month 2 hours free and then $-/hour
Escalado N/D $-/unidad/día, donde cada unidad permite enviar cinco solicitudes simultáneas
Sin seguimiento N/D $-/modelo/mes
Precios de solicitudes 2 hours/month 2 hours free and then $-/hour

Soporte técnico y contrato de nivel de servicio 

  • Soporte de facturación y administración de suscripciones gratuito
  • ¿Necesita soporte técnico para los servicios de vista previa? Utilice nuestros foros
  • Se garantiza que Cognitive Services en ejecución en el nivel estándar estará disponible al menos el 99,9 % del tiempo. No se proporciona ningún contrato de nivel de servicio para el nivel gratuito. Leer el contrato de nivel de servicio
  • No hay contratos de nivel de servicio durante el período de vista previa. Más información

Preguntas más frecuentes

Custom Speech Service

  • El nivel 1 puede procesar hasta cuatro fragmentos de audio (es decir, cuatro transcripciones) a la vez y responder en tiempo real. Si el usuario envía más de cuatro fragmentos de audio simultáneos, los fragmentos siguientes se rechazan y se devuelven con un código de error que indica que hay demasiados reconocimientos concurrentes. Lo mismo ocurre en el nivel 2, donde se pueden procesar 12 transcripciones simultáneas. El nivel Gratis ofrece una transcripción concurrente. Se supone que el audio se carga en tiempo real. Si el audio se carga más rápido, en términos de concurrencia, se considera que la solicitud está en curso hasta que ha transcurrido la duración del audio (incluso si es posible devolver antes el resultado del reconocimiento).

    Nota: Si necesita un nivel de concurrencia superior, póngase en contacto con nosotros.

  • El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.

  • El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.

  • El reconocimiento de frase corta admite grabaciones de voz con una duración máxima de 15 segundos. Cuando se utiliza con la Speech Client library, como los datos se envían al servidor, el cliente recibe varios resultados parciales y un resultado final con varias opciones que se consideran las mejores.

  • El reconocimiento de dictado largo admite grabaciones de voz de hasta dos minutos de duración. Cuando se utiliza con la Speech Client library, como los datos se envían al servidor, el cliente recibe varios resultados parciales y varios resultados finales, en función de las pausas que indique el servidor en la oración.

  • Por ejemplo, si un cliente utiliza el nivel S1 para procesar un millón de transcripciones, se le cobra el precio del nivel ($-), las 100,000 primeras transcripciones se facturan a $- por 1,000 transcripciones y las 900,000 transcripciones restantes se facturan a $- por 1,000 transcripciones. Por tanto, al cliente se le facturan $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Consulte la información sobre Custom Speech Service que se ofrece en la página web de Microsoft Cognitive Services y en el sitio web de Custom Speech Service, www.cris.ai.

  • La implementación de modelos personalizados es el proceso de encapsular un modelo personalizado y exponerlo como servicio. El modelo personalizado implementado expone un punto de conexión por el que se puede acceder a él. Los usuarios pueden implementar tantos modelos como necesiten.

  • Custom Speech Service permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. A este proceso lo denominamos personalización de modelos.

  • Cuando se crea un modelo personalizado, los usuarios tienen la opción de cargar datos de prueba para evaluar el modelo recién creado. Pueden usar tantos datos como necesiten para probar los nuevos modelos personalizados, es decir, pueden ejecutar un número ilimitado de pruebas de precisión.

  • Cuando se implementa un modelo personalizado, su URI puede procesar una solicitud de audio cada vez. Para situaciones en las que se envía más de una solicitud de audio a ese URI de forma simultánea, los usuarios tienen la opción de escalar horizontalmente esta carga hasta un ritmo de cinco solicitudes a la vez. Para ello, deben comprar unidades de escalado. Cada unidad de escalado garantiza un máximo de cinco solicitudes de audio simultáneas al precio de $200 por unidad de escalado. Por ejemplo, si un usuario prevé que se van a enviar 23 solicitudes de audio a ese punto de conexión al mismo tiempo, debería comprar cinco unidades de escalado para garantizar un máximo de 25 solicitudes concurrentes.

  • La administración de registro permite a los usuarios desactivar el registro para sus modelos implementados. Aquellos usuarios a los que les preocupe la privacidad pueden desactivar el registro para un modelo implementado a la tarifa de $20 al mes.

  • Precios de solicitudes se refiere al costo de procesar solicitudes de audio en el punto de conexión de un modelo personalizado implementado.

General

  • El uso de Emotion API, Face API, Language Understanding Intelligent Service API, Bing Speech to Text API y Bing Text-to-Speech API se factura por millares de llamadas de transacciones de API cuando se ejecuta activamente una llamada de API de producción. La facturación se prorratea para la cantidad de llamadas de transacciones de API de producción.

    El servicio Bing Long Form Speech API se factura por hora de voz analizada. La facturación se prorratea por minuto.

    Las API Recomendaciones y Análisis de texto se pueden adquirir en unidades de los niveles estándar a un precio fijo. Cada unidad de un nivel incluye determinadas cantidades de transacciones de API. Si el usuario supera las cantidades incluidas, el uso por encima del límite se factura a la tarifa que se especifica en la tabla de precios anterior. Este uso por encima del límite se prorratea y el servicio se factura mensualmente. Las cantidades incluidas en un nivel se restablecen cada mes.

  • En el nivel Gratis, el uso está sujeto al límite de transacciones. Los clientes no pueden acumular uso por encima del límite en el nivel Gratis.

  • Si se supera el uso en el nivel Estándar, la cuenta comienza a acumular uso por encima del límite. Este uso por encima del límite se factura mensualmente y se calcula a la tarifa especificada para cada nivel.

  • Cualquier llamada de API (con la excepción de llamadas de puntuación por lotes) cuenta como una transacción. Las llamadas de puntuación por lotes contarán según el número de elementos que necesitan puntuarse en esa transacción.

  • En el nivel Gratis, el uso está sujeto al límite de transacciones. Los clientes no pueden acumular uso por encima del límite en el nivel Gratis. La puntuación por lotes no se admite en el nivel Gratis.

  • Recommendations API se puede adquirir en unidades de los niveles estándar a un precio fijo. Cada unidad de un nivel incluye determinadas cantidades de transacciones de API. Si el usuario supera las cantidades incluidas, el uso por encima del límite se factura a la tarifa que se especifica en la tabla de precios anterior. Este uso por encima del límite se prorratea y el servicio se factura mensualmente. Las cantidades incluidas en un nivel se restablecen cada mes.

  • Bing Search APIs, Bing Autosuggest API y Bing Speller API, se facturan con carácter mensual. En función del nivel adquirido, se incluirán cantidades de transacciones definidas como llamadas API. Las cantidades incluidas siempre se vincularán con el mes natural, con independencia de cuándo empiecen a utilizarse. Si el usuario supera las cantidades incluidas, el uso por encima del límite se factura a la tarifa que se especifica en la tabla de precios. Este uso por encima del límite no se prorratea y el servicio se factura mensualmente. Las cantidades incluidas en cada nivel se restablecen cada mes.

  • Please visit the Cognitive Services subscription page to request free trials.

  • Puede actualizar a un nivel superior en cualquier momento. La tarifa de facturación y las cantidades incluidas correspondientes al nivel superior empezarán a aplicarse de inmediato.

Recursos

Calculadora

Calcule el costo mensual de los servicios de Azure

Preguntas más frecuentes sobre compras

Consulte las preguntas más frecuentes sobre los precios de Azure

Detalles del producto

Más información acerca de Cognitive Services

Documentación

Consulte tutoriales técnicos, vídeos y más recursos

Suscríbase ahora y obtenga $200 en créditos de Azure

Empiece ahora