メイン コンテンツにスキップ

 Subscribe

このプロジェクトは社内で Flash と呼ばれ、お客様が仮想マシン (VM) の正常性を監視するための堅牢で信頼性の高い迅速なメカニズムを構築するという、Microsoft の確固たるコミットメントに由来する名前です。

主な目的は、お客様が実用的で正確なテレメトリに確実にアクセスし、変更に関するアラートを迅速に受信し、大規模なデータを定期的に監視できるようにすることです。また、お客様が独自の監視要件を満たすために便利に使用できる、一元的で一貫したエクスペリエンスの開発も重視しています。

Azure を使用した仮想マシンの正常性のセキュリティ保護

監視の取り組みを開始するには、高品質の VM 正常性データを出力する Azure 製品のスイートを調べることができます。これらの製品には、リソース正常性、アクティビティ ログ、Azure リソース グラフAzure Monitor メトリック、Azure イベント グリッドがまれます

私たちのチームが過去1年間に作り上げてきたエキサイティングな発展を明らかにすることに興奮しています! これまでに取り組んできた内容を次に示します。

  • VM の可用性監視の強化: VM の可用性の低下を監視する新機能が導入されました。可用性やパフォーマンスへの潜在的な影響を事前に警告します。
  • HealthResources イベント グリッドのパブリック プレビュー: HealthResources イベント グリッド システム トピックのパブリック プレビューを開始します。この機能では、VM の可用性の変更に関する待機時間の短い通知が提供され、必要に応じて迅速な軽減策を実行できます。
  • アプリケーションのフリーズに対する可視性の強化: 選択したネットワークおよびストレージ エージェントの更新中にアプリケーションがフリーズしたときに通知が送信されるようになりました。この可視性の強化により、中断をより明確に管理できます。

品質メインへの私たちのコミットメントは揺るぎない。100% のデータ整合性をメインし、すべての Flash エクスペリエンスで厳格な品質基準を維持することを目指しています。

「昨年は、信頼性の向上に関するブログ シリーズProject Flash の更新プログラムを提供しました。これは、Azure のお客様が仮想マシン (VM) の可用性の中断を便利かつ迅速に診断できるようにするための取り組みを強調しています。現在、お客様が Azure でのワークロードのシームレスな運用に自信を持って依存できるように、VM の可用性監視を改善するための最新の進歩を共有することに興奮しています。Azure Core Platform Fundamentals チームの Pujitha Desiraju シニア テクニカル プログラム マネージャーに、Project Flash の一部として行われた最新の投資を共有するよう依頼しました。—Mark Russinovich、CTO、Azure。

VM 可用性の監視を強化するための VM 可用性の低下状態の概要

VM の正常性検出を強化するための継続的な取り組みの結果として、VM の可用性の低下状態が導入され、品質が大幅に向上したことを明らかにすることに興奮しています。この新機能では、機械学習ベースの異常検出モデルを利用して、中央処理装置 (CPU)、ディスク、メモリの問題など、基になるホスト サーバーに影響を与えるハードウェアの問題による VM の低下を予測します。この機能を Azure リソース グラフ、イベント グリッド、リソース正常性、アクティビティ ログにシームレスに統合し、既に流れている VM 正常性注釈を 補完しています

この機能を追加することで、VM の正常性を監視し、低下した理由を理解することがこれまで以上に簡単になりました。すべての Flash エクスペリエンスで提供されるビューにより、VM の低下が計画的または計画外のイベントの結果であるかどうかを簡単に検出できます。 また、ビューは、責任を負う特定のコンポーネントを効果的に特定し、実行可能な軽減手順を提供し、運用の中断を回避するために正確な再デプロイ日を提供します。

2024 年に向けて、動作不能な高速ネットワークと、ハードウェア障害予測の新しいシナリオに焦点を合わせて拡張する予定です。さらに、低下状態を Azure Monitor の VM 可用性メトリック内のディメンションとして組み込み、ダウンタイムの属性の精度を高める予定です。

VM の可用性の変更に関する待機時間の短いイベント グリッド通知のパブリック プレビュー

ビジネスクリティカルなアプリケーションのシームレスな運用を確保するには、VM の可用性に悪影響を与える可能性のあるイベントをリアルタイムで認識することが重要です。この認識により、修復アクションを迅速に実行して、エンド ユーザーを中断から保護することができます。毎日の運用をサポートするために、新しく追加された VM 正常性注釈を含む HealthResources イベント グリッド システム トピックパブリック プレビューをお知らせします

このシステム トピックでは、VM の正常性データについて詳しく説明します。これにより、VM の可用性状態の変化と必要なコンテキストに関する分析情報がすぐに得られます。このトピックが作成された Azure サブスクリプションの単一インスタンス VM と 仮想マシン スケール セット VM のイベントを受信できます。データは、堅牢なロールベースのアクセス制御 (RBAC) と高度なフィルター機能を備えた最新のパブリッシャー サブスクライバー サービスである Azure Resource Notifications (ARN) によって、このトピックにパブリッシュされます。これにより、イベント グリッド システム トピックを簡単にサブスクライブし、イベント グリッドによって提供される高度なフィルター機能を利用して 関連するイベントを リアルタイムでダウンストリーム ツールにシームレスに送信できます。これにより、問題に即座に対応して軽減することができます。

作業の開始

手順 1:

ユーザーはまず 、通知を受信する Azure サブスクリプション内にシステム トピックを作成します。

手順 2:

その後、ユーザーは、手順 1 のシステム トピック内でイベント サブスクリプションの作成に進みます。この手順では、イベントの ルーティング先となるエンドポイント (Event Hubs など) を指定します。  また、ユーザーには、配信されたイベントのスコープを絞り込むイベント フィルターを構成するオプションもあります。 

HealthResources システム トピックからイベントのサブスクライブを開始するときは、次 のベスト プラクティスを検討してください。

  1. 予想されるイベントのスケールとサイズに基づいて、適切な宛先またはイベント ハンドラーを選択します。
  2. 複数のシステム トピックからの通知を統合する必要があるファンイン シナリオでは、イベント ハブを宛先とすることを強くお勧めします。これは、データの鮮度をメインするリアルタイム処理シナリオや、構成可能な保持期間を使用した分析の定期的な処理に特に役立ちます。

2024 年に向けて、プレビューを本格的な一般提供機能に移行する予定です。

アプリケーションのフリーズに対する可視性の強化

特に機密性の高いワークロードを実行する場合は、システムの再起動が必要なイベントやシステムのフリーズにつながる可能性があるイベントを可視化することが重要です。計画されたネットワークおよびストレージ エージェントの更新の特定のシナリオで、フリーズの影響が発生した場合に VM の正常性に関する注釈を導入することに興奮しています。これらの通知は、リソース正常性、Azure リソース グラフ、およびイベント グリッドに配信されます。

この新機能を使用すると、システムフリーズの影響と属性に関する詳細な分析情報にアクセスできます。この情報には、アクティビティが計画されたかどうか、アクティビティが正常に完了したかどうか、ユーザーが観察した影響の正確な期間、適用された更新プログラムの種類に関する詳細が含まれます。これにより、観察されたアプリケーションのフリーズを監視および調査しながら、フリーズ イベントの対象となるアラートを受け取ることもできます。

2024 年を見据えて、これらの通知が出力されるシナリオの範囲を拡大することに取り組んでいます。

フラッシュ ソリューションの概要

Flash イニシアチブは、お客様の多様な監視ニーズに対応するソリューションの開発に長年にわたって専念してきました。特定の要件に最も適した Flash 監視ソリューションを決定するには、以下を参照してください。

Azure リソース グラフ - HealthResources

現在、一般に使用できます。これは、大規模な調査を行う場合に特に役立ちます。この機能は、Kusto クエリ言語 (KQL) の使用により、情報取得向けの非常にユーザーフレンドリなエクスペリエンスを提供します。また、リソース情報のセントラル ハブとして機能し、過去のデータを簡単に検索できます。

Azure Event Grid のシステム トピック - HealthResources

現在、パブリック プレビュー段階にあります。これは、エンドユーザーの中断を防ぐために、再デプロイや VM の再起動など、時間の影響を受けやすい重要な軽減アクションをトリガーする場合に役立ちます。お客様は、リソースの可用性に重大な変更が加わる数秒以内にアラートを受け取ることができます。

Azure Monitor - VM 可用性メトリック

現在、パブリック プレビュー段階にあります。傾向の追跡、プラットフォーム メトリック (CPU やディスクの使用状況など) の集計、正確なしきい値ベースのアラートの構成に適しています。お客様は、このすぐに使える VM 可用性メトリックAzure Monitor で利用できます。

Azure リソースの正常性

現在一般公開されています。これは、ポータルを使用して、個々のリソースの即座でかつわかりやすい正常性チェックを提供します。お客様は、ポータルのリソース正常性ブレードにすばやくアクセスできるほか、正常性チェックの 30 日間の履歴レコードも確認できるため、迅速でかつ簡単なトラブルシューティングのための優れたツールになっています。

包括的な VM 可用性の監視の促進

定期メンテナンス、ライブ マイグレーション、サービス復旧、VM 性能低下のシナリオなど、VM の可用性を監視するための包括的なアプローチでは、スケジュールされたイベント (SE) と Flash 正常性イベントの両方を利用することをお勧めします。

スケジュールされたイベントは早期警告を提供するように設計されており、メインのアクティビティの前に最大 15 分前に通知します。このリード タイムにより、今後のダウンタイムに関して十分な情報に基づいて意思決定を行って、ダウンタイムを回避または備えることができます。今後のメインの準備状況に応じて、これらのイベントを確認するか、この 15 分間にアクションを遅延させる柔軟性があります。

一方、Flash 正常性イベントは、VM の性能低下を含む、進行中の可用性中断と完了した可用性中断をリアルタイムで追跡することに重点を置いています。この機能を使用すると、ダウンタイムを効果的に監視および管理でき、自動化されたリスク軽減、調査、事後分析をサポートします。

監視の取り組みを開始するには、高品質の VM 正常性データを出力する Azure 製品のスイートを調べることができます。これらの製品には、リソース正常性、アクティビティ ログ、Azure リソース グラフ、Azure Monitor メトリック、Azure Event Grid システム のトピックが含まれます

Flash イニシアチブの詳細を確認する

今後の信頼性シリーズの更新を追跡することで、Flash イニシアチブに関するその他のお知らせをお待ちください。


Join the conversation