Azure の信頼性
ミッションクリティカルなシステムの設計と運用を自信を持って行うために必要なツールとトレーニングを入手しましょう。
信頼性は共有責任です
Azure クラウド プラットフォームの回復性のある基盤から開始することで、お客様のすべてのワークロードに対する組織の信頼性の目標を達成することができます。お客様のミッションクリティカルなアプリケーションを自信を持って設計および運用することができます。また、Azure は透明性を重視しているため、お客様はご自分のクラウドを信頼できます。そして、サービスの問題が発生しても常に情報を把握し、迅速に対応することができます。
既存のアプリケーションを Azure 上で最適化するためには、信頼性、セキュリティ、パフォーマンス効率、コスト最適化、オペレーショナル エクセレンスという 5 つの原則の柱からなる Azure Well-Architected フレームワークを利用して開始することをおすすめします。
Azure インフラストラクチャ上の信頼性の高い基盤から開始する
クラウド プラットフォームの信頼性を維持および向上させるために行われている Microsoft の投資について、Azure CTO 兼テクニカル フェローの Mark Russinovich がブログ シリーズ「Advancing Reliability」で、以下に挙げる 4 つの最新トピックを詳しくご紹介します。「インテリジェントなソフトウェアによるネットワークの信頼性」、「AIOps による安全な開発 - Gandalf の概要」、「大規模な分散システムにおける回復性の脅威モデリング」、「影響の少ない、または影響のまったくないメンテナンス」。
Microsoft のネットワークは、60 を超える Azure リージョン、200 の Azure データセンター、190 のエッジ サイト、175,000 マイルを超える世界中の地上および海底ファイバーを接続しており、戦略的なグローバル エッジの接続拠点でインターネットの他の部分に接続しています。Microsoft ネットワークの信頼性の詳細については、こちらの 2 部構成のブログ記事をご覧ください。
正常性メトリクスの継続的な監視は、デプロイ プロセスの基本です。これには、AIOps が重要な役割を果たします。このブログ記事では、AI と機械学習を使用して DevOps エンジニアを支援し、Azure のデプロイ プロセスを大規模に監視し、問題を早期に検出し、影響の範囲と重大度に基づいてロールアウトまたはロールバックを決定する方法について説明しています。
Azure サービス エンジニアリング チームが、"事後検証" をツールとして使用して、どのようにして問題の内容、問題の発生過程、サービス停止の顧客への影響の理解を深め、どのようにして分析情報を事後検証と回復性の脅威モデリング プロセスに取り入れるかについて説明します。
Azure がインフラストラクチャを保守するために使用している、お客様への影響やダウンタイムがほとんどない、またはまったくない、ホット パッチの適用、メモリ保持メンテナンス、ライブ移行など、影響のまったくない、または影響の少ない更新テクノロジについて詳しくご確認ください。
自分のニーズに合う適切な Azure 回復性機能を選択する
お使いのアプリで使用できる Azure の高可用性、ディザスター リカバリー、バックアップの機能をご覧ください。また、お客様にとって最適なコンピューティング、ストレージ、地理的 (ローカル、ゾーン、リージョン) の冗長性オプションを選択する方法についてもご確認ください。
組み込みの回復性を有効にする
オプションの Azure サービスと機能を活用すれば、お客様固有の信頼性の目標を達成することができます。
可用性ゾーン
独立した電源、冷却装置、ネットワークを備えた複数のデータセンター間で重要なワークロードを実行できます。
可用性セット
リソースを併置または分離することで、データセンター内の冗長性を達成できます。
Azure Traffic Manager
自動フェールオーバーを実装し、トラフィックを最適化し、オンプレミスとクラウドのシステムを組み合わせることができます。
Azure Site Recovery
オンプレミスと Azure のワークロードをプライマリ サイトからセカンダリ サイトにレプリケートできます。
Azure Backup
シンプルで安全、そしてコスト効率の高い回復および復元ソリューションでデータをバックアップできます。
Azure Storage
あらゆるシナリオに対応する冗長性オプションを使用して、データの複数のコピーを作成して保存することができます。
ブラック ボックス化しないようにクラウドを監視する
監視ツールを使用して長期的な信頼性を確保し、異常を特定、診断、追跡することで、信頼性とパフォーマンスを最適化することができます。
Azure Chaos Studio
混乱をコントロールすることによって、回復力を体系的に向上させます。
Azure Service Health
カスタマイズ可能なダッシュボードを使用して、リソースの問題を特定し、それを解決することができます。
Azure Monitor
Azure とオンプレミス環境からテレメトリ データを収集、分析し、それに基づいて行動を起こすことができます。
Azure Application Insights
アプリの使用状況についてのインテリジェントな分析情報を取得し、異常を診断できます。
Network Watcher
ネットワークのパフォーマンスと正常性を監視、診断し、分析情報を取得できます。
Azure Advisor
使用状況のテレメトリに基づく推奨事項を使用して、アプリとシステムを最適化し、信頼性を高めることができます。
ドキュメント、トレーニング、リソース
Azure アーキテクチャ センター
確立されたパターンとベスト プラクティスを使用して、信頼性の高いソリューションを構築できます。
Microsoft Learn
これらの無料の Microsoft Learn モジュールを使用して、アプリやシステムの信頼性を高めるための新しいスキルを身につけましょう。
サイト信頼性エンジニアリング (SRE)
SRE の使用方法をご確認ください。これは、組織がシステム、サービス、製品の適切なレベルの信頼性を達成するために役立つ規範です。