Text to Speech

テキストを本物のような音声に変換し、より自然なインターフェイスを実現

ロボットではなく、人と話す

Speech サービスの一部である Text to Speech を使用して、自然に話すアプリやサービスを構築しましょう。幅広い言語で数十種類の音声を使用できるソリューションを実現できます。音声合成テクノロジの画期的な研究に基づいて構築された Neural Text to Speech 機能で本物のような音声が生成されます。モデルをカスタマイズし、ご自分のソリューションやブランドに合わせて独自の音声を作成できます。

本物のような音声

人間の声のアクセント パターンやイントネーションと一致する、滑らかで自然に聞こえる音声を実現します。

世界中とつながる

80 種類以上の音声と、45 の言語と地域のバリエーションを使用して、世界中のユーザーとつながることができます。

カスタマイズされたエクスペリエンス

わずか数分のトレーニング データから始めて、ご自分のアプリのブランドに合った独自の音声を作成できます。

音声の最適化

スピード、音量、発音などの属性を簡単に調節し、使用するシナリオに合わせて音声出力を微調整できます。

自然に聞こえる音声を生成

自然で人間らしいイントネーションと明瞭な発音を備えた新しい音声をアプリに提供します。ディープ ニューラル ネットワークを使用すると、Text to Speech で生成されるコンピューターの音声は表現豊かになり、自然な話し声とほとんど区別できなくなります。

英語 (米国): 女性

音声サンプル
The third type, a logarithm of the unsigned fold change, is undoubtedly the most tractable.
As the name suggests, the original submarines came from Yugoslavia.
This is easy enough if you have an unfinished attic directly above the bathroom.

英語 (米国): 男性

音声サンプル
Susan Candiotti reports they've given up their trip.
Carol knows my lifestyle.
The seagrass fiber is tough, durable, and smooth.

中国語 (CN):Xiaoxiao

音声サンプル
您好,欢迎致电客服中心。我是华北地区的客服人员,工号0165。请问有什么可以帮您?
想和你表白,试了一万种方式,找了一千次时机,但都放弃了,最终只能原地踏步。
负责人Michael透露,新推出的紧凑型SUV搭载了智能的音响系统,可以语音控制volume大小。不过,车身的整体造型还是个secret。

ドイツ語 (DE):Katja

音声サンプル
Bestimmte Berufsgruppen sind nur noch schwer zu rekrutieren.
Sein Gedicht steckt voller Übertreibungen, die für den Schriftsteller allerdings typisch sind.
Er organisiert eine Unterstützung der schwächeren durch die stärksten Bundesländer.

イタリア語 (IT):Elsa

音声サンプル
Tenete conto di un fattore importante.
Alcuni prodotti in gran parte sono di buona qualità.
Crisi? Vietato rilassarsi, siamo ancora in emergenza.

使ってみたいですか?

世界中のユーザーにリアルタイムでつながる

テキストをリアルタイムで音声に変換し、滑らかな会話エクスペリエンスを実現します。80 種類以上の音声と、45 の言語と地域のバリエーションを使用して、世界中のユーザーとつながることができます。

言語 サンプル テキスト 音声サンプル
English (US) An airport spokesman said more than 110 planes were damaged by hail.
Chinese (CN) 广告收入的比例高达90%以上
Japanese (JP) 皆様のご協力のたまものと
German (DE) Der Anstieg der Verbraucherpreise in der Eurozone verlangsamt sich weiter.
Spanish (ES) El alcalde de Santiago convoca a los medios para inaugurar dos semáforos.
Turkish (ES) Tren durduğu sırada vagonun ortasında bir patlama meydana geldi.

使ってみたいですか?

独自ブランドの音声を作成

わずか数分のトレーニング オーディオから始めて、コードを 1 行も書かずに独自の音声を作成できます。ディープ ニューラル ネットワーク モデルとカスタム ニューラル音声機能を使用して、非常にリアルで人間らしいカスタム音声が生成されます。この音声はリアルタイムのシナリオや長文の音声コンテンツの合成に使用できます。

言語

画質

サンプル テキスト 音声サンプル

独自の音声モデルの構築を開始しますか?

音声出力を簡単に調整

スピード、発音、ピッチ、音量、イントネーション、無音区間などのパラメーターを制御して、テキストから変換される音声出力をリアルアイムで微調整できます。ニューラル音声を使用すると、会話スタイルを調整することで、明るさや共感のような感情を表現したり、チャットではカジュアルなトーン、ニュース放送ではフォーマルなトーンといったように特定のシナリオに合わせたりすることができます。

音声チューニングの詳細を確認する

クラウドからエッジまで、どこにでも配置

データのセキュリティと低待機時間が最も重要であるシナリオでは、コンテナーを使用してクラウドまたはオンプレミスで Text to Speech を実行できます。音声コンテナーでは、標準音声とカスタム音声の両方がサポートされるようになりました。

コンテナーの Speech の詳細を確認する

エンタープライズのためのセキュリティ

  • Microsoft では、サイバー セキュリティの研究と開発に年間 USD 1 billion 以上を投資しています。

  • 3,500 名以上のセキュリティ エキスパートが、専属でお客様のデータとプライバシーの保護にあたっています。

  • Azure は、他のクラウド プロバイダーを上回る認定を受けています。包括的なリストをご確認ください。

柔軟な価格で必要な機能を利用し、制御し、カスタマイズする

初期コストは不要で、料金は使用した分だけ発生します。Text to Speech の料金は、音声に変換する文字数に基づく従量課金制です。

責任あるニューラル音声のガイドライン

合成音声の責任あるデプロイについて学ぶ

合成音声は、他者からの信頼を得られる方法で設計する必要があります。会社とサービスに信頼をもたらす、合成音声を構築するための原則を学びましょう。

責任あるデプロイのガイドラインを確認する

ボイス タレントから同意を得る

Neural Text to Speech のしくみと、音声録音プロセスの完了後にどのように使用されるのかについて、ボイス タレントが理解できるよう支援します。

ボイス タレントの情報開示ガイダンスを読む

透明性を保つ

ユーザーが合成音声を聞いていることを理解しており、ボイス タレントが自分の音声がどのように使用されるかを認識していることを確認します。

情報開示のガイドラインを確認する 責任あるアプローチについて学ぶ

お問い合わせ

カスタム ニューラル音声機能は、制限付きプレビュー段階にあります。審査プロセスとアクセス方法の詳細については、こちらをご覧ください。

3 つの手順で Text to Speech の使用を開始

無料の Azure アカウントにサインアップすることで、すぐにアクセスできるようになり、$200 クレジットを獲得できます。
Azure Portal にサインインし、Speech を追加します。
クイックスタートドキュメントを参照して、Text to Speech を埋め込む方法を確認します。

Text to Speech の開発者向けリソース

ドキュメントとチュートリアル

Text to Speech を使ってみましょう。

コース

Text to Speech の使用方法を説明する Pluralsight コースを受講しましょう。

コースの受講

カスタマイズ

データの準備と独自の音声モデルのトレーニングについてのドキュメントをお読みください。

Text to Speech に関してよく寄せられる質問

  • 標準音声は、統計的パラメトリック音声合成手法や連結音声合成手法を使用して作成されます。これらの音声は非常に明瞭で自然に聞こえます。使用したアプリで 45 を超える言語で話すことができるようになり、幅広い音声オプションを備えています。

    ニューラル音声は、話し言葉のアクセントとイントネーションのパターンを照合し、音声の単位をコンピューターの音声に合成する際に、ディープ ニューラル ネットワークを使用して、従来のテキスト読み上げシステムの限界を克服しています。標準のテキスト読み上げでは、独立したモデルによって管理される言語分析と音響予測の別々の手順に韻律が分解されます。これにより、こもった音声合成になることがあります。ニューラル機能では韻律予測と音声合成が同時に行われ、その結果、より滑らかで自然に聞こえる音声になります。
  • 完全なリストについては、ドキュメントをご覧ください。
  • リージョン別の提供状況を確認してください。

Speech を使ってみましょう