Azure

Azure 可靠性

获取所需的工具和培训，自信地设计和操作任务关键型系统。

可靠性是一项共同的责任

从 Azure 云平台的可复原基础开始，为所有工作负载实现组织的可靠性目标。由于 Azure 将信息透明放在首位（即始终让你了解情况并能够在服务发生问题期间迅速行动），因此你知道可以信任自己的云，从而放心地设计和操作任务关键型应用程序。
如果希望优化 Azure 上的现有应用程序，不妨从Azure 架构良好的框架着手，该框架是跨可靠性、安全性、性能效率、成本优化和卓越运营这五个核心支柱的一系列指导原则。

一张关系图，显示 Azure 平台可靠性再加上根据需要使用复原功能如何实现高度可靠、可复原的应用

从 Azure 基础结构的可靠基础开始

请阅读 Azure CTO 兼技术研究员 Mark Russinovich 的“提升可靠性”博客系列，了解有关 Microsoft 用于维护和提高云平台可靠性的不断投资，包括最近的四个主题：通过智能软件实现网络可靠性、使用 AIOps 进行安全开发 - 引入 Gandalf、针对大型分布式系统的弹性威胁建模，以及低影响和无影响维护。

通过智能软件实现网络可靠性使用 AIOps 进行安全部署 - 引入 Gandalf 针对大型分布式系统的弹性威胁建模低影响和无影响维护

Microsoft 网络连接了超过 60 个Azure 区域、200 个 Azure 数据中心、190 个边缘站点，以及超过 175,000 英里的全球陆地和海底光纤，这些光纤通过战略性全球边缘入网点连接到 Internet 的其余部分。在这篇由两部分组成的博客文章中了解有关 Microsoft 网络可靠性的详细信息。

持续监视运行状况指标是部署过程的基本组成部分，这也是 AIOps 发挥关键作用的地方。在这篇博客文章中，了解如何使用 AI 和机器学习来助力 DevOps 工程师，大规模监视 Azure 部署过程，及早发现问题，并根据影响范围和严重性制定推出或回滚决策。

了解 Azure 服务工程团队如何使用“事后分析”作为工具来更好地了解出现的问题、问题的成因以及中断对客户产生的影响，并深入了解事后分析和弹性威胁建模流程。

了解 Azure 用于维护其基础结构的低影响和无影响更新技术（包括热修补、内存保留维护和实时迁移），这些技术对客户影响很小或没有影响，也不会导致出现故障时间。

根据需求选择正确的 Azure 复原功能

了解可用于应用的 Azure 高可用性、灾难恢复和备份功能。此外，了解如何选择适合你的计算、存储和地理（本地、区块和区域）冗余选项。

一张 PDF 信息图，显示不同的 Azure 服务如何提供不同的复原能力

启用内置复原能力

利用可选的 Azure 服务和功能来实现具体可靠性目标。

可用性区域

借助独立的电源、冷却系统和网络，跨数据中心运行关键工作负载。

可用性集

通过并置或分离资源，实现数据中心内的冗余。

Azure 流量管理器

实现自动故障转移、优化流量并结合本地系统与云系统。

Azure Site Recovery

将本地和 Azure 工作负载从主站点复制到辅助位置。

Azure 备份

使用简单、安全且经济高效的恢复和还原解决方案备份数据。

Azure 存储

在任何情况下，使用冗余选项创建和存储数据的多个副本。

监视云，使其不成为黑盒

通过监视工具识别、诊断和跟踪异常，确保长期可靠性，并优化可靠性和性能。

Azure Chaos Studio

通过受控的混沌系统地提高复原能力。

Azure 服务运行状况

确定资源问题并使用可自定义的仪表板解决这些问题。

Azure Monitor

从 Azure 和本地环境中收集遥测数据，并加以分析和处理。

Azure Application Insights

获得对应用使用情况的智能见解并诊断异常。

网络观察程序

监视、诊断并深入了解网络性能和运行状况。

Azure 顾问

通过基于使用情况遥测数据的建议优化应用和系统的可靠性。

各种规模的组织都信任的可靠性

借助 ClearBank 实现基础结构复原能力、客户信任和竞争价值

"确保端到端可靠性和复原能力需要团队共同努力。我们从 Azure 获得工具，并设置系统和流程来将它们整合在一起。"

Tom Harris，ClearBank 的首席技术官

迈阿密大学使用 Microsoft Azure 提高可靠性

"每当我们思考解决方案时，我们都想，‘如何在云端而不是本地实现它呢？’ 这不仅仅让我们复原能力更强，而更加灵活、更加敏捷。"

Mari Lovo，迈阿密大学云基础结构服务 IT 主管

Marie Curie 提供更稳定、更可靠的服务

"在过去两年半的时间里，我们有一次宕机，这是由云基础结构故障导致的。它几乎立刻让我们稳定下来，有喘息的空间，让我们能够专注于向组织提供真正的价值。"

Ivan Delany，Marie Curie 的 IT 主管

Juvare 推动实现事件平台的可靠性和完整性

"我们将解决方案的架构设计为跨不同的可靠性区域和地区分布工作负载，从而既维护了客户对地理数据驻留的需求，也确保了当我们的基础结构的特定部分出现故障时，影响范围更窄。"

Bryan Kaplan，Juvare 的首席信息官

GEP 可提高其物流平台的可靠性

"我们使用 AKS 或 Azure Kubernetes 服务内置的节点池...假设你的主节点池关闭了，在群集中你能够自动地故障转移到第二个可用性区域。"

Nithin Prasad，GEP 的首席工程师

文档、培训和资源

Azure 体系结构中心

使用已建立的模式和最佳做法构建可靠的解决方案：

Azure 架构良好的框架 Azure 架构良好的评审 Azure 应用程序体系结构指南云设计模式

Microsoft Learn

获得新的技能，帮助你通过以下免费的 Microsoft Learn 模块使应用和系统更加可靠：

利用 Microsoft Azure 架构良好的框架构建出色的解决方案 Azure 的架构迁移、业务连续性和灾难恢复监视和备份 Azure 资源

站点可靠性工程 (SRE)

了解如何使用 SRE，这是一门帮助组织在系统、服务和产品中实现适当可靠性级别的学科：

SRE 文档视频：站点可靠性工程简介学习模块：站点可靠性工程简介

了解关于可靠性架构的详细信息（可靠性是 Azure 架构良好的框架中卓越架构的五大要素之一）

了解详细信息