Microsoft はニューラル ネットワークのテキスト読み上げのプレビューを公開する

2018年12月13日 に投稿済み

Technical Fellow, Cloud and AI

Azure Cognitive Services の一部である Speech Service は、最新のディープ ラーニング イノベーションを適用して、ニューラル ネットワークを利用したテキスト読み上げ機能を提供するようになりました。本日利用可能になったプレビューにアクセスしてください。

Neural Text-to-Speech を利用すると、アプリの音声が人間の声とほとんど区別のつかないものになります。Neural Text to Speech を使用して、チャットボットや仮想アシスタントとの会話をより自然で魅力的なものにしましょう。また、電子書籍からオーディオブックへの変換など、デジタル テキストの変換や、自然な音声のエクスペリエンスによるカーナビゲーション システムのアップグレードなどにも使用できます。

今回のリリースには、今年開催された Ignite における Neural Text-to-Speech の初公開以降の大幅な機能強化が含まれています。

音声品質の強化

次のような機能を利用することで、さまざまなユーザー シナリオでより力強い自然な音声が得られます。

  • 多様な話者間での転移学習による大規模な教師のいるトレーニング
  • 教師なし事前学習のより多くの機能
  • 信頼性の高いニューラル モデル デザインの追加 

実行時パフォーマンスの向上

Neural Text-to-Speech エンジンは、ハードウェア アクセラレータによる幅広いコード最適化、並列推論モデルの適用、音質とパフォーマンスのバランスを考慮したモデルの簡略化によって、準瞬時の実行時パフォーマンスを発揮します。実時間係数は、以前のバージョンから 0.05X 未満に改善されました。つまり、50 ミリ秒未満で 1 秒のオーディオを生成できるということです。オーディオの最初のバイトの生成は、以前より 6 倍高速に実行されます。

サービスの提供状況の向上

Neural Text-to-Speech は、その後、米国、ヨーロッパ、アジアの 3 つのデータセンターに拡張されました。世界のどこでも、待機時間のオーバーヘッドを削減してニューラル音声を統合できます。

 

これらのアップデートにより、Speech Services の Neural Text-to-Speech 機能では、従来型のアプローチやハイブリッド システムのアプローチと比べて最も自然に聞こえる音声体験がユーザーに提供されます。

本日からこの機能を、事前に作成された 2 種類の英語のニューラル音声で使用できます。Jessa と Guy に会ってみましょう。彼らが発する音声を聞いてください

プレビュー中は割引をご利用いただけます。詳細については、Speech Services の価格ページをご覧ください。

この機能の中国語またはドイツ語版にアクセスしたい場合は、リクエストを送信してください