跳过导航

Azure 可靠性

获取所需的工具和培训,自信地设计和操作任务关键型系统

可靠性是一种共担责任

从 Azure 云平台的可复原基础开始,为所有工作负载实现组织的可靠性目标。放心设计和操作任务关键型应用程序,根据如下:你知道可以信任自己的云,因为 Azure 优先考虑透明性,即始终让你了解情况并能够在服务发生问题期间迅速采取行动。

如果希望优化 Azure 上的现有应用程序,不妨从Azure 架构良好的框架着手,这是一系列跨五个核心支柱的指导原则:可靠性、安全性、性能效率、成本优化和卓越运营。

从 Azure 基础结构的可靠基础开始

请阅读 Azure CTO 兼技术研究员 Mark Russinovich 的提升可靠性博客系列,了解有关 Microsoft 用于维护和提高云平台可靠性的不断投资,包括最近的四个主题:通过智能软件实现网络可靠性、使用 AIOps 进行安全开发 - 引入 Gandalf、针对大型分布式系统的弹性威胁建模以及低影响和无影响维护。

Microsoft 网络连接了 60 个以上的 Azure 区域、220 个 Azure 数据中心、170 个边缘站点,以及超过 165,000 英里的全球陆地和海底光纤,这些光纤通过战略性全球边缘入网点连接到 Internet 的其余部分。在这篇含两部分的博客文章中了解有关 Microsoft 网络可靠性的详细信息。

持续监视运行状况指标是部署过程的基本组成部分,这也是 AIOps 发挥关键作用的地方。在这篇博文中,了解如何使用 AI 和机器学习来助力 DevOps 工程师,大规模监视 Azure 部署过程,及早发现问题,并根据影响范围和严重性制定推出或回滚决策。

了解 Azure 服务工程团队如何使用“事后分析”作为工具来更好地了解出现的问题、问题的成因以及中断对客户产生的影响,并深入了解事后分析和弹性威胁建模流程

了解 Azure 用于维护其基础结构的低影响和无影响更新技术(包括热修补、内存保留维护和实时迁移),这些技术对客户影响很小或没有影响,也不会导致出现故障时间

根据需求选择正确的 Azure 复原功能

了解可用于应用的 Azure 高可用性、灾难恢复和备份功能。此外,了解如何选择适合你的计算、存储和地理(本地、区块和区域)冗余选项。

显示不同 Azure 服务如何提供不同复原功能的信息图 PDF

启用内置复原能力

利用可选的 Azure 服务和功能来实现具体可靠性目标。

可用性区域

借助独立的电源、冷却系统和网络,跨数据中心运行关键工作负载。

可用性集

通过并置或分离资源,实现数据中心内的冗余。

Azure Traffic Manager

实现自动故障转移、优化流量并结合本地系统与云系统。

Azure 站点恢复

将本地和 Azure 工作负载从主站点复制到辅助位置。

Azure 备份

使用简单、安全且经济高效的恢复和还原解决方案备份数据。

Azure 存储

在任何情况下,使用冗余选项创建和存储数据的多个副本。

监视云,使其不成为黑盒

通过监视工具识别、诊断和跟踪异常,确保长期可靠性,并优化可靠性和性能。

Azure Chaos Studio

通过受控的混沌系统地提高复原能力。

Azure 服务运行状况

确定资源问题并使用可自定义的仪表板解决这些问题。

Azure Monitor

从 Azure 和本地环境中收集遥测数据,并加以分析和处理。

Azure Application Insights

获得对应用使用情况的智能见解并诊断异常。

网络观察程序

监视、诊断并深入了解网络性能和运行状况。

Azure 顾问

通过基于使用情况遥测数据的建议优化应用和系统的可靠性。

各种规模的组织都信任的可靠性

借助 ClearBank 实现基础结构复原能力、客户信任和竞争价值

"Ensuring end-to-end reliability and resiliency is a team effort. We get the tools from Azure, and we set up the systems and processes to put it all together."

Tom Harris,ClearBank 的首席技术官
ClearBank

Kodak Alaris 通过提升 ERP 复原能力提高了工作效率

"The one thing I don't want is my CIO coming to me because there's a problem with our ERP. The truth is, it never happens anymore—it's a real testament to our ERP's reliability in Azure."

– Joseph Calabrese,Kodak Alaris IT 运营经理
Kodak Alaris

迈阿密大学使用 Microsoft Azure 提高了可靠性

"Whenever we think of a solution, we think, 'How can we do this in the cloud versus on-premises?' It not only makes us more resilient, but more flexible and nimble as well."

Mari Lovo,迈阿密大学云基础结构服务 IT 总监
迈阿密大学

Marie Curie 提供更稳定、更可靠的服务

"In the last two and a half years, we've had one outage which has been due to cloud infrastructure failing. It just almost instantly gave us stability, space to breathe, enabled us to focus on bringing real value to the organization."

Ivan Delany,Marie Curie 的 IT 主管
Marie Curie

Juvare 推动实现事件平台的可靠性和完整性

"We architected our solution to spread workloads across different availability zones and regions, to maintain both client requirements for geographic data residency but also to ensure that if one particular part of our infrastructure was having a problem, it reduced the blast radius."

Bryan Kaplan,Juvare 的首席信息官
Juvare

GEP 可提高其物流平台的可靠性

"We use AKS or Azure Kubernetes Service inbuilt node pools...say your primary node pool is down, within the cluster you're automatically able to failover to the second availability zone."

Nithin Prasad,GEP 的首席工程师
gep

文档、培训和资源

Azure 体系结构中心

使用已建立的模式和最佳做法构建可靠的解决方案:

Microsoft Learn

获得新的技能,帮助你通过以下免费的 Microsoft Learn 模块使应用和系统更加可靠:

站点可靠性工程 (SRE)

了解如何使用 SRE,这是一门帮助组织在系统、服务和产品中实现适当可靠性级别的学科:

了解关于可靠性架构的详细信息(可靠性是 Azure 架构良好的框架中卓越架构的五大要素之一)

了解详细信息
可以给你提供什么帮助?