メイン コンテンツにスキップ

ヒーロー画像

Microsoft は、自動車内インフォテインメント システムを使用したドライバーへのサービスの提供方法において、自動車産業の再構築に貢献しています。その例として、Azure は XPENG と提携し、自動車ブランドと顧客のための AI 音声エクスペリエンスを実現しています。このソリューションは、音声合成と表現力豊かな音声、グローバル言語、話者の忠実度、セルフサービスのカスタマイズなど、業界に新たな風を吹き込みます。そして XPENG が、環境音声への投資を再考している自動車メーカーの流れに加わります。

「これは、自動車業界における車両音声操作の最先端を行くものです。」と XPENG の自動車 AI 製品シニア エキスパートである Hao Chao 氏は語ります。「このエクスペリエンスは、まったく新しいレベルの自然な発話を実現します。都市のモビリティを深く理解することで、当社はドライバーとマシンの直感を高いレベルで実現するための AI 技術を活用するシナリオを数多く見つけています。」

XPENG は、車内でのユーザー エクスペリエンスに Microsoft のニューラル テキスト読み上げ技術を利用しました。Microsoft のニューラル テキスト読み上げと一緒に感情スタイルを使用することで、XPENG は顧客により快適なリスニング エクスペリエンスを提供し、聞き疲れに対応することができます。Microsoft のニューラル テキスト読み上げは、人間の声に匹敵するほど流暢で、自然です。Microsoft のテキスト読み上げと複数の感情音声を組み合わせることで、多くの自動車アシスタントが持つ単調な音声を刷新することができます。

「話し方や音声によってドライバーの生活をどのように改善できるかについて、再構築できることを嬉しく思います。」と Azure AI スピーチ製品リーダーの Binggong Ding 氏は語ります。「技術的な観点から、私たちはこれをすべての自動車ブランドとその開発者に役立つモデルにしたいと考えています。音質を犠牲にすることなく、忠実度の高い音声エクスペリエンスを実現するために、合成音声の利用をどのように最適化すればよいか。XPENG は、このチャレンジを積み重ね、お客様が求めていた音声アシスタントを提供しています。

Microsoft の長期的な目標は、高度な複数の感情を備えたグローバルな音声機能を、世界の自動車ブランドと消費者の新しい標準にすることです。XPENG が採用した技術には、数十種類の音声スタイル、独自の感情強度制御、推論機能などが追加されています。国内の政策、規制データ センター要件と EU GDPR、より高いデータ プライバシーポリシー保有者向け要件など、世界中の 90 の認証がカバーされています。Microsoft は自動車メーカーと連携して、Azure Cognitive Services for speech 内のテキスト読み上げおよび音声テキスト変換機能に基づいて、音声による新しいドライブ エクスペリエンスを創造しています。

音声イノベーションの促進

音声は、アンビエント コンピューティング技術における新しいインターフェイスです。近年、ニューラル ネットワークの発展による研究と技術の飛躍により、テキスト読み上げや音声テキスト変換の品質が向上しています。高品質の音声テキスト変換とテキスト読み上げが、次世代のモダンな車内音声エクスペリエンスを実現するという自動車メーカーのニーズを満たしています。Microsoft の音声テキスト変換は、話し手に依存せず、運転中の周囲の騒音にも対応する強固な認識機能を備えています。また Microsoft のテキスト読み上げは、より滑らかで自然な響きの音声を特徴としており、これは自動車メーカーと顧客双方にとっての差別化要因となります。また、音声テキスト変換とテキスト読み上げのどちらでも、車のインフォテインメント システムをハンズフリーで操作できます。Microsoft のテキスト読み上げは、チャット、ニュース番組、カスタマー サービスなど、さまざまな話し方に対応しています。これらの機能強化により、ドライバーにより快適なドライブ体験を提供することができます。音声テキスト変換とテキスト読み上げの最近の進歩について詳しくは、音声テキスト変換に関する調査結果、Switchboard 研究ベンチマークでのヒューマン パリティへの到達、およびヒューマンパリティに近づいたニューラル テキスト読み上げをご覧ください。

グローバル言語の提供

Microsoft は、自動車メーカーのグローバル ビジネスを支援しており、つい最近 100 言語の節目を迎えました。現在は、119 の言語とバリエーション、278 の音声が初めからサポートされています。これは、地球上のすべての人と組織がより多くのことを達成できるようにするという Microsoft のビジョンに沿ったものです。「100 言語というのは、話す言語に関係なく誰もがコミュニケーションできるようになるという私たちの野望を達成するための良いマイルストーンです。」と Microsoft のテクニカル フェロー兼 Azure AI 最高テクノロジ責任者の Xuedong Huang は語ります。より多くの言語とそのバリエーションをカバーすることで、自動車メーカー向けの自然で直感的な音声エクスペリエンスを強化できることを嬉しく思います。

カスタマイズで差別化を図る

Microsoft は、カスタム ニューラル音声機能を使用して、自動車メーカーがより自然な会話インターフェイスを実現できるよう、非常にリアルなブランド音声を開発できるようにしています。ニューラル テキスト読み上げ技術と多言語で多話者のユニバーサル モデルをベースにしたカスタム ニューラル音声を使用すると、わずか 30 分の音声で、豊かな話し方や言語間の適応性に優れた合成音声を作成することができます。カスタム ニューラル音声のリアルで自然な響きの音声によってブランドや特定の擬人化が表現されるため、ユーザーは会話スタイルで自然にアプリケーションを操作することができます。カスタム ニューラル音声を作成するステップ倍ステップの手順については、こちらのブログをご覧ください。

コンプライアンスと責任ある AI

Microsoft は、自動車メーカーのコンプライアンス要件を満たせるよう、世界中の規制基準を満たすための投資に努めています。Azure Cognitive Services の一部である音声サービスは、SOC、FedRAMP、PCI DSS、HIPAA、HITECH、ISO により認定を受けています。Azure インフラストラクチャを基盤とする音声サービスは、エンタープライズレベルのセキュリティ、可用性、コンプライアンス、管理性も提供します。
 
Microsoft は、責任のある方法で AI テクノロジの開発に取り組んでいます。Microsoft は技術の悪用から保護するために、さまざまな技術およびポリシー機能を使用しています。たとえば Microsoft は、個人や社会の権利を守り、人とコンピューターの透過的な相互作用を育み、有害なディープフェイクや誤解を招くようなコンテンツの拡散に対抗することを目的として、カスタム ニューラル音声を設計し、公開しています。これは、責任ある AI に対する Microsoft のコミットメントと一致しています。このコミットメントには、AI システムの目的、機能、および制限について説明する透明性に関するメモが含まれています。

さらに学ぶ

Azure Cognitive Services は、AI を手の届くところに届けます。画期的な AI の調査によってイノベーションを加速させる方法を詳しくご確認ください。

  • Explore

     

    Let us know what you think of Azure and what you would like to see in the future.

     

    Provide feedback

  • Build your cloud computing and Azure skills with free courses by Microsoft Learn.

     

    Explore Azure learning


Join the conversation