Omitir navegación

Precios de Cognitive Services - Custom Speech Service VERSIÓN PRELIMINAR

Use API de inteligencia para habilitar características de visión, voz, lenguaje y conocimiento

Custom Speech Service permite crear modelos de reconocimiento de voz personalizados e implementarlos en un punto de conexión de conversión de voz a texto adaptado a su aplicación. Con Custom Speech Service, puede personalizar el modelo de lenguaje del reconocedor de voz para que aprenda el vocabulario de una aplicación y el estilo de habla de los usuarios. También puede personalizar el modelo acústico del reconocedor de voz para adaptarlo al entorno y a los usuarios que se espera que tenga la aplicación.

Detalles de precios

La adaptación de modelos es gratuita.

Instancia Características PrecioVERSIÓN PRELIMINAR
Gratis Implementaciones de modelos 1 modelo gratis al mes
Adaptación de modelos 3 horas gratis al mes
Pruebas de precisión 2 horas gratis al mes
Escalado N/D
Sin seguimiento N/D
Precios de solicitudes 2 horas gratis al mes
S2 Implementaciones de modelos $-/modelo/mes
Adaptación de modelos Ilimitado
Pruebas de precisión 2 horas gratis y, después, a $-/hora
Escalado $-/unidad/día, donde cada unidad permite enviar cinco solicitudes simultáneas
Sin seguimiento $-/modelo/mes
Precios de solicitudes 2 horas gratis y, después, a $-/hora

Soporte técnico y contrato de nivel de servicio 

  • Se incluye soporte técnico gratis de facturación y administración de suscripciones
  • ¿Necesita soporte técnico para los servicios de vista previa? Utilice nuestros foros.
  • Se garantiza una disponibilidad del 99,9 por ciento del tiempo para Cognitive Services en el nivel Estándar. No se ofrece ningún contrato de nivel de servicio con la versión de evaluación gratuita. Lea el Acuerdo de Nivel de Servicio (SLA).
  • No hay contratos de nivel de servicio durante el período de vista previa. Más información.

Preguntas más frecuentes

Custom Speech Service

  • El nivel 1 puede procesar hasta cuatro fragmentos de audio (es decir, cuatro transcripciones) a la vez y responder en tiempo real. Si el usuario envía más de cuatro fragmentos de audio simultáneos, los fragmentos siguientes se rechazan y se devuelven con un código de error que indica que hay demasiados reconocimientos concurrentes. Lo mismo ocurre en el nivel 2, donde se pueden procesar 12 transcripciones simultáneas. El nivel Gratis ofrece una transcripción concurrente. Se supone que el audio se carga en tiempo real. Si el audio se carga más rápido, en términos de concurrencia, se considera que la solicitud está en curso hasta que ha transcurrido la duración del audio (incluso si es posible devolver antes el resultado del reconocimiento).

    Nota: Si necesita un nivel de concurrencia superior, póngase en contacto con nosotros.

  • El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras. Por ejemplo, “bolsa de patatas fritas” y “bolsa de batatas fritas” suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta. Si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suele utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje. Por ejemplo, si estuviera creando una aplicación que realice búsquedas en MSDN mediante voz, es probable que términos como “orientado a objetos”, “espacio de nombres” o “punto net” aparezcan con más frecuencia que en aplicaciones de voz normales. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.

  • El modelo acústico es un clasificador que etiqueta breves fragmentos de audio en uno de varios fonemas, o unidades de sonido, en cada idioma. Después, estos fonemas se pueden unir para formar palabras. Por ejemplo, la palabra “voz” se compone de tres fonemas: “b o z”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo. La personalización del modelo acústico permite que el sistema aprenda a reconocer mejor la voz en entornos atípicos. Por ejemplo, si tiene una aplicación diseñada para que la utilicen empleados de un almacén o una fábrica, un modelo acústico personalizado puede reconocer la voz con más precisión cuando hay ruido en el entorno.

  • El reconocimiento de frase corta admite grabaciones de voz con una duración máxima de 15 segundos. Cuando se utiliza con la Speech Client library, como los datos se envían al servidor, el cliente recibe varios resultados parciales y un resultado final con varias opciones que se consideran las mejores.

  • El reconocimiento de dictado largo admite grabaciones de voz de hasta dos minutos de duración. Cuando se utiliza con la Speech Client library, como los datos se envían al servidor, el cliente recibe varios resultados parciales y varios resultados finales, en función de las pausas que indique el servidor en la oración.

  • Por ejemplo, si un cliente utiliza el nivel S1 para procesar un millón de transcripciones, se le cobra el precio del nivel ($-), las 100,000 primeras transcripciones se facturan a $- por 1,000 transcripciones y las 900,000 transcripciones restantes se facturan a $- por 1,000 transcripciones. Por tanto, al cliente se le facturan $- + 100,000 * ($- / 1,000) + 900,000 * ($- / 1,000) = $4500.

  • Consulte la información sobre Custom Speech Service que se ofrece en la página web de Microsoft Cognitive Services y en el sitio web de Custom Speech Service, www.cris.ai.

  • La implementación de modelos personalizados es el proceso de encapsular un modelo personalizado y exponerlo como servicio. El modelo personalizado implementado expone un punto de conexión por el que se puede acceder a él. Los usuarios pueden implementar tantos modelos como necesiten.

  • Custom Speech Service permite a los usuarios adaptar modelos de línea base en función de sus propios datos acústicos y lingüísticos. A este proceso lo denominamos personalización de modelos.

  • Cuando se crea un modelo personalizado, los usuarios tienen la opción de cargar datos de prueba para evaluar el modelo recién creado. Pueden usar tantos datos como necesiten para probar los nuevos modelos personalizados, es decir, pueden ejecutar un número ilimitado de pruebas de precisión.

  • Cuando se implementa un modelo personalizado, su URI puede procesar una solicitud de audio cada vez. Para situaciones en las que se envía más de una solicitud de audio a ese URI de forma simultánea, los usuarios tienen la opción de escalar horizontalmente esta carga hasta un ritmo de cinco solicitudes a la vez. Para ello, deben comprar unidades de escalado. Cada unidad de escalado garantiza un máximo de cinco solicitudes de audio simultáneas al precio de $200 por unidad de escalado. Por ejemplo, si un usuario prevé que se van a enviar 23 solicitudes de audio a ese punto de conexión al mismo tiempo, debería comprar cinco unidades de escalado para garantizar un máximo de 25 solicitudes concurrentes.

  • La administración de registro permite a los usuarios desactivar el registro para sus modelos implementados. Aquellos usuarios a los que les preocupe la privacidad pueden desactivar el registro para un modelo implementado a la tarifa de $20 al mes.

  • Precios de solicitudes se refiere al costo de procesar solicitudes de audio en el punto de conexión de un modelo personalizado implementado.

General

  • Bing Search APIs se factura por número de transacciones (también denominadas llamadas API). Estos planes son de pago por uso y no generan costos adicionales por consultas complejas y más de 10 resultados (hasta 50 resultados en la mayoría de los casos).

  • En caso de que se supere el número mencionado de transacciones por segundo (TPS), el uso se reducirá para que se mantenga dentro del límite mencionado. Si su aplicación necesita un número mayor de TPS que el mencionado en esta página, póngase en contacto con el equipo de soporte técnico de Azure.

  • A efectos de facturación, una transacción es una solicitud correcta de llamada API de Bing (aunque hay advertencias sobre ataques por denegación del servicio [DoS]). Con fines de registro y generación de informes, como en el caso del complemento Estadísticas de Bing, se trata de cualquier llamada API de Bing, independientemente de que se haya realizado correctamente o no.

  • Puede cambiar el nivel de servicio siempre que quiera. Asegúrese de utilizar las claves adecuadas en las llamadas API. Si mantiene un contrato Enterprise con Microsoft, trabaje con el ejecutivo de cuentas.

Recursos

Calcule el costo mensual de los servicios de Azure

Consulte las preguntas más frecuentes sobre los precios de Azure

Más información acerca de Cognitive Services

Consulte tutoriales técnicos, vídeos y más recursos

Agregado al presupuesto. Presione 'v' para verlo en la calculadora Véalo en la calculadora

Aprenda y cree soluciones con un crédito de $200 y continúe gratis