Conversión de voz en texto

Convierta audio en texto al instante para responder con naturalidad.

Speech to Text de Cognitive Services ofrece una amplio conjunto de funcionalidades que puede insertar en sus aplicaciones para admitir varios escenarios de transcripción, como la transcripción de conversaciones, la transcripción de voz y la transcripción de voz personalizada.

Transcripción de conversaciones

Habilite la transcripción de reuniones presenciales. La transcripción de conversaciones captura la voz en tiempo real para que todos los participantes de la reunión puedan participar de lleno en la discusión, identificar lo que ha dicho cada uno y cuándo se ha dicho y continuar rápidamente con los pasos siguientes.

Use la transcripción de conversaciones para:

  • Capturar la voz de todo lo que se dice en la sala de reuniones.
  • Ayudar a proteger los datos con certificaciones de cumplimiento y seguridad líderes en el sector.
  • Ofrecer compatibilidad con los equipos de reuniones y conferencias que usan micrófonos y cámaras de vídeo mediante el emparejamiento con Speech Devices SDK.

Véala en acción

Error al cargar esta demostración. Espere e inténtelo de nuevo.

Altavoz Transcripción

Esta demostración es incompatible con su navegador. Para disfrutar de una mejor experiencia, use un navegador diferente.

¿Desea crear esto?

Transcripción de voz

Convierta audio con voz en texto. Llame a la API para reconocer el audio que proceda del micrófono, de otros orígenes de audio de streaming en tiempo real o de un archivo de audio grabado. Conforme se envía audio al servidor, se pueden devolver resultados parciales del reconocimiento si se solicita.

Puede usar la API para crear aplicaciones inteligentes activadas por voz. Vea la demostración para saber cómo funciona. Seleccione el idioma de destino, haga clic en el micrófono y empiece a hablar. O simplemente haga clic en una de las frases orales de ejemplo*.

Véala en acción

Para probar la demostración con su propia voz a través de un micrófono, cambie a un explorador distinto con compatibilidad para WebRTC, por ejemplo una versión reciente de Microsoft Edge, Firefox o Chrome.

¿Desea crear esto?

Custom Speech Service: transcripción de voz con un modelo personalizado

Elimine las barreras del reconocimiento de voz, como el estilo de habla, el vocabulario y el ruido de fondo. Nuestras tecnologías de reconocimiento de voz combinan varias API para producir la salida de texto. Los clientes pueden personalizar las API conforme a sus necesidades y los datos disponibles.

Véala en acción

Oraciones de ejemplo

Línea de base

Custom Speech

Cree modelos de idioma personalizados adaptados a los estilos de habla de los usuarios

No deje que diferentes vocabularios y estilos de habla bloqueen el entendimiento. Personalice el modelo de idioma del reconocimiento de voz de su aplicación adaptándolo a las expresiones de su campo, a términos técnicos, geográficos o de mercado e, incluso, al estilo del hablante.

Adapte su solución al entorno de los usuarios con modelos acústicos personalizados

Asegúrese de que el reconocimiento de voz de una aplicación funcione en todos los entornos. Con modelos acústicos personalizados, puede tener en cuenta el ruido de fondo y adaptar la solución a los entornos de los usuarios.

Use modelos de voz de gran calidad de Microsoft

Habilite reconocimiento de voz personalizado y muy eficaz creando sus propios modelos de reconocimiento de voz personalizados a partir de los modelos vanguardistas de Microsoft.

¿Desea crear esto?

Explore un escenario de voz

Centro de llamadas

Speech servicesWith Speech Services, it’s easy to transcribe every call. Index the transcription for full-text search, or apply Text Analytics to detect sentiment, language and key phrases for insights. If your call centre recordings involve specialist terminology, such as product names or IT jargon, create a custom language model to teach Speech Services the vocabulary. A custom acoustic model helps Speech Services understand speakers even with background noise or poor phone connections. For more information, read how batch transcription works with Speech Services.
  1. Información general
  2. Flujo

Servicios de voz

Información general

Con Speech Services, es fácil transcribir cada llamada. Indexe la transcripción para realizar búsquedas de texto completo o aplique Text Analytics para detectar opiniones, idiomas y frases clave para las conclusiones. Si las grabaciones del centro de llamadas contienen terminología especializada (como nombres de producto o jerga de TI), cree un modelo de lenguaje personalizado para enseñar el vocabulario a Speech Services. Un modelo acústico personalizado ayuda a Speech Services a entender a los hablantes incluso con ruido de fondo o con conexiones telefónicas de mala calidad.

Para más información, consulte cómo funciona la transcripción por lotes con Speech Services.

Flujo

  1. 1 Adapte un modelo a su dominio e impleméntelo
  2. 2 Cargue sus registros en un contenedor de blobs
  3. 3 Cree una solicitud POST para la transcripción por lotes
  4. 4 Speech Services programa el trabajo de transcripción
  5. 5 Los archivos estéreo se dividen en dos canales
  6. 6 Los archivos mono se someten a un proceso de diarización para distinguir entre los hablantes
  7. 7 Descargue la transcripción con el identificador de la transcripción

Vea las API de Cognitive Services

Computer Vision

Condense información de aplicación práctica a partir de imágenes

Face

Detecte, identifique, analice, organice y etiquete caras en las fotos

Ink Recognizer VERSIÓN PRELIMINAR

Servicio de inteligencia artificial que reconoce contenido de lápiz digital, como escritura manual, formas y el diseño de documentos en tinta digital

Video Indexer

Obtenga conocimiento de sus vídeos

Custom Vision

Personalice fácilmente los novedosos modelos de visión artificial para adaptarlos a su caso particular

Form Recognizer VERSIÓN PRELIMINAR

Servicio de extracción de documentos basado en inteligencia artificial que reconoce sus formularios

Análisis de texto

Evaluar fácilmente las opiniones y temas para comprender lo que los usuarios quieren

Translator Text

Realice fácilmente una traducción automática con una llamada a la API de REST sencilla

QnA Maker

Convierta la información en respuestas de conversación de fácil navegación

Language Understanding

Enseñe a las aplicaciones a entender los comandos de sus usuarios

Immersive Reader VERSIÓN PRELIMINAR

Dé capacidad para leer y comprender textos a usuarios de todas las edades y capacidades

Servicios de voz

Servicios de voz unificados para la conversión de voz en texto y de texto en voz, y para la traducción de voz.

Speaker Recognition VERSIÓN PRELIMINAR

Use la voz para la identificación y verificación de hablantes individuales

Content Moderator

Moderación automatizada de imágenes, texto y vídeo

Anomaly Detector VERSIÓN PRELIMINAR

Agregue funcionalidades de detección de anomalías a sus aplicaciones con facilidad.

Personalizer VERSIÓN PRELIMINAR

Servicio de inteligencia artificial que ofrece una experiencia del usuario personalizada

Use el SDK de dispositivos de voz para compilar un dispositivo de ambiente y crear una palabra de reactivación personalizada

Más información