Omitir navegación

Text to Speech

Convierta texto en voz para crear interfaces más naturales y accesibles

Speak human, not robot

Build apps and services that speak to users naturally, improving accessibility and usability. Convert text to audio in near real time, play it back, and save it as a file for later use. Text to Speech is available in both Neural and Standard versions.

Applying the latest in digital speech innovation, the Neural Text to Speech capability makes the voices of your apps nearly indistinguishable from recordings of people. The natural inflection and clear articulation significantly reduce listening fatigue when interacting with AI systems. Use Neural Text to Speech to make interactions with chatbots and virtual assistants more natural and engaging, to convert digital text such as e-books into audiobooks, and to enhance in-car navigation systems.

Neural Text to Speech in action

English (US): Jessa

Sentence Recording
The third type, a logarithm of the unsigned fold change, is undoubtedly the most tractable.
As the name suggests, the original submarines came from Yugoslavia.
This is easy enough if you have an unfinished attic directly above the bathroom.

English (US): Guy

Sentence Recording
Susan Candiotti reports they've given up their trip.
Carol knows my lifestyle.
The seagrass fiber is tough, durable, and smooth.

¿Desea crear esto?

The Standard Text to Speech capability speaks to users in multiple languages. Choose from more than 75 voices in over 45 languages or locales, including options for male and female voices. Adjust parameters such as speed, pitch, volume, pronunciation, and additional pauses.

Standard Text to Speech in action

Para ver cómo funciona la síntesis de voz, haga clic en Reproducir.*

Lenguaje Texto de ejemplo Voz de ejemplo
English (US) An airport spokesman said more than 110 planes were damaged by hail.
Chinese (CN) 广告收入的比例高达90%以上
Japanese (JP) 皆様のご協力のたまものと
German (DE) Der Anstieg der Verbraucherpreise in der Eurozone verlangsamt sich weiter.
Spanish (ES) El alcalde de Santiago convoca a los medios para inaugurar dos semáforos.
Turkish (ES) Tren durduğu sırada vagonun ortasında bir patlama meydana geldi.

¿Desea crear esto?

Texto a voz con modelos de voz personalizada

¿Tiene que darle una voz de marca única y reconocible a su agente de voz? Texto a voz, la característica de personalización de voz, simplifica la creación de aplicaciones únicas habilitadas para voz, sin necesidad de conocimientos técnicos.

Véala en acción

Lenguaje

Calidad

Texto de ejemplo Voz de ejemplo

¿Quiere empezar a compilar su propio modelo de voz?

Modelos de voz fáciles

Para personalizar su agente de voz, grabe y cargue datos de aprendizaje y el servicio creará una fuente de voz única sintonizada con su grabación. Inicie una prueba de concepto con una pequeña cantidad de datos. El sistema se escala sin problemas a medida que los datos aumentan, lo que mejora la calidad de voz natural.

Coherentes e integrados

Los modelos de voz personalizada se integran por completo con otros servicios de voz de Cognitive Services. No se requiere ninguna codificación y el modelo de voz personalizada puede implementarse fácilmente en la API.

Rápido y seguro

Mediante un único punto de conexión de API y la administración de autenticación segura, puede conectar sus fuentes de voz rápidamente en todas las plataformas. Los modelos están bajo su control.

Explore un escenario de voz

Quiosco multimedia inteligente

La combinación de los servicios de voz y Language Understanding permite que las aplicaciones y los usuarios interactúen con naturalidad. Utilice conversión de voz en texto para capturar una pregunta del usuario, Language Understanding para analizar la intención y formular una respuesta apropiada y conversión de texto en voz para sintetizar el texto en una respuesta hablada. Cree interfaces de conversación para diversos escenarios tales como banca, viajes y entretenimiento.

Bot de chat para operaciones comerciales

Commerce chatbotTogether, the Azure Bot Service and Language Understanding service enable developers to create conversational interfaces for various scenarios like banking, travel, and entertainment. For example, a hotel’s concierge can use a bot to enhance traditional e-mail and phone call interactions by validating a customer via Azure Active Directory and using Cognitive Services to better contextually process customer requests using text and voice. The Speech recognition service can be added to support voice commands.1237456
  1. Información general
  2. Flujo

De forma conjunta, Azure Bot Service y el servicio Language Understanding permiten a los desarrolladores crear interfaces de conversación para distintos escenarios, como banca, viajes y entretenimiento. Por ejemplo, un recepcionista de hotel puede usar un bot para mejorar las interacciones tradicionales de correo electrónico y llamadas telefónicas mediante la validación de un cliente a través de Azure Active Directory y el uso de Cognitive Services para mejorar el procesamiento contextual de las solicitudes de los clientes mediante texto y voz. Se puede agregar el servicio de reconocimiento de voz para admitir los comandos de voz.

  1. 1 El cliente usa su aplicación móvil.
  2. 2 El usuario se autentica con Azure AD B2C.
  3. 3 El usuario solicita información con un bot de aplicación personalizado.
  4. 4 Cognitive Services ayuda a procesar las solicitudes de lenguaje natural.
  5. 5 El cliente revisa la respuesta, quien además puede matizar la pregunta mediante una conversación natural.
  6. 6 Una vez que el usuario está satisfecho con el resultado, el bot de aplicación actualiza la reserva del cliente.
  7. 7 Application Insights recopila telemetría de tiempo de ejecución para facilitar el desarrollo con el uso y el rendimiento del bot.
"Microsoft Cognitive Services gives us a huge range of opportunities. It's a perfect match for us now and in the future, when we want to add more features to our app."

Jaan Apajalahti, CEO

Vea las API de Cognitive Services

Computer Vision

Condense información de aplicación práctica a partir de imágenes

Face

Detecte, identifique, analice, organice y etiquete caras en las fotos

Video Indexer

Obtenga conocimiento de sus vídeos

Content Moderator

Moderación automatizada de imágenes, texto y vídeo

Custom Vision VERSIÓN PRELIMINAR

Personalice fácilmente los novedosos modelos de visión artificial para adaptarlos a su caso particular

Análisis de texto

Evaluar fácilmente las opiniones y temas para comprender lo que los usuarios quieren

Translator Text

Realice fácilmente una traducción automática con una llamada a la API de REST sencilla

Bing Spell Check

Detecte y corrija errores ortográficos en las aplicaciones

Content Moderator

Moderación automatizada de imágenes, texto y vídeo

Language Understanding

Enseñe a las aplicaciones a entender los comandos de sus usuarios

Servicios de voz

Servicios de voz unificados para la conversión de voz en texto y de texto en voz, y para la traducción de voz.

Speaker Recognition VERSIÓN PRELIMINAR

Use la voz para la identificación y verificación de hablantes individuales

QnA Maker

Convierta la información en respuestas de conversación de fácil navegación

Use el SDK de dispositivos de voz para compilar un dispositivo de ambiente y crear una palabra de reactivación personalizada

Más información