語音轉換文字

迅速將音訊轉換成文字,以取得自然的回應。

認知服務的語音轉換文字可提供各種功能,讓您嵌入應用程式,以支援各種轉譯案例,包括交談轉譯語音轉譯自訂語音轉譯

交談轉譯

實現現場會議轉譯。交談轉譯可即時擷取語音,讓所有與會者完整參與討論、知道誰在何時說了什麼,並快速跟進後續步驟。

使用交談轉譯服務時,您可以:

  • 擷取會議室所有位置的語音。
  • 使用領先業界的安全性和合規性認證,協助保護資料。
  • 透過語音裝置 SDK 配對,支援會議和研討會設定以使用麥克風和攝影機。

觀看影片

載入此示範時發生錯誤,請稍後再試一次

喇叭 文字記錄

此示範與您的瀏覽器不相容。若要取得最佳體驗,請使用不同的瀏覽器。

想要建置這個嗎?

語音轉譯

將語音轉換成文字。呼叫此 API,以辨識來自麥克風、其他即時串流音訊來源或錄製音訊檔案的音訊。當音訊傳送至伺服器時,會傳回部分辨識結果 (如經要求)。

您可以使用此 API 建置透過語音觸發的智慧型應用程式。試用示範查看運作方式。請選取您的目標語言,然後按一下麥克風並開始說話。或直接按一下其中一個範例語音片語。*

觀看影片

若要使用麥克風以您自己的聲音試用示範,請變更為具有 WebRTC 支援的其他瀏覽器,例如 Microsoft Edge、Firefox 或 Chrome 的最新版本。

想要建置這個嗎?

自訂語音服務:透過自訂模型進行語音轉譯

克服像是語音模式、詞彙及背景雜音等語音辨識的阻礙。我們的語音辨識技術結合了多個 API 來產生文字輸出。客戶可以根據自己的需求及可用的資料來自訂這些 API。

觀看影片

範例句子

基準

客製化的語音

建立根據使用者說話方式量身打造的自訂語言模型

別讓各種詞彙與說話方式妨礙理解。自訂您應用程式語音辨識的語言模型,根據您的產業措辭,技術、地理或市場詞彙,甚至是說話者風格來量身打造。

透過自訂原音模型根據使用者環境進行調整

確定您應用程式的語音辨識在所有環境中均運作正常。透過自訂原音模型,您可以處理背景雜音並達到使用者預期的環境。

使用 Microsoft 的強固語音模型

在 Microsoft 現有的最先進模型之上,建置您自己的自訂語音辨識模型,以啟用強大且個人化的語音辨識。

想要建置這個嗎?

探索語音案例

話務中心

Speech ServicesWith Speech Services, it's easy to transcribe every call. Index the transcription for full-text search, or apply Text Analytics to detect sentiment, language, and key phrases for insights. If your call center recordings involve specialized terminology, such as product names or IT jargon, create a custom language model to teach Speech Services the vocabulary. A custom acoustic model helps Speech Services understand speakers even with background noise or poor phone connections. For more information, read how batch transcription works with Speech Services.
  1. 概觀
  2. 流程

語音服務

概觀

使用語音服務時,您可以輕鬆轉譯每個通話。編製轉譯的索引以進行全文檢索搜尋,或套用文字分析來偵測情感、語言與關鍵片語,以獲取見解。如果話務中心的錄音涉及專用術語 (例如,產品名稱或 IT 專業術語),您可以建立自訂語言模型讓語音服務學習這些詞彙。即使在背景噪音或通話連線差的環境下,自訂原音模型仍可協助語音服務了解說話者的內容。

如需詳細資訊,請參閱批次轉譯與語音服務的運作方式。

流程

  1. 1 讓模型適應網域,並部署該模型
  2. 2 將錄音上傳至 Blob 容器
  3. 3 建立 POST 要求來進行批次轉譯
  4. 4 語音服務可排程轉譯工作
  5. 5 立體聲檔案會分割為兩個頻道
  6. 6 單聲道檔案會進行自動分段標記,以區隔個別說話者
  7. 7 使用轉譯識別碼下載轉譯

探索認知服務 API

Computer Vision

從影像擷取可操作的資訊

臉部

偵測、識別、分析、組織和標記相片中的臉孔

筆跡辨識器 預覽

能夠辨識數位筆跡內容的 AI 服務,例如手寫、圖形及手寫文件的版面配置

影片索引器

深入探索影片

自訂視覺

輕鬆自訂先進且適合您獨特使用案例的電腦視覺模型

表單辨識器 預覽

具 AI 功能的文件擷取服務,能夠理解您的表單

文字分析

輕鬆解讀意見與話題,從而了解使用者的需求

Translator Text

使用簡單的 REST API 呼叫,輕鬆進行機器翻譯

製作問與答的人員

將資訊整理成易於導覽的交談式回答

語言理解

教導您的應用程式理解使用者發出的命令

沈浸式閱讀程式 預覽

讓年齡層和活動能力不同的使用者們都能閱讀和理解文字

語音服務

語音轉換文字、文字轉換語音和語音翻譯的統一語音服務

說話者辨識 預覽

使用語音來辨識及驗證各個說話者

內容仲裁

自動審核影像、文字及影片

Anomaly Detector 預覽

輕鬆為應用程式賦予異常偵測功能。

個人化工具 預覽

提供個人化使用者體驗的 AI 服務

使用 Speech Devices SDK 建置環境裝置並建立自訂喚醒字

深入了解