Azure 可靠性
获取所需的工具和培训,自信地设计和操作任务关键型系统。
可靠性是一项共同的责任
从 Azure 云平台的可复原基础开始,为所有工作负载实现组织的可靠性目标。由于 Azure 将信息透明放在首位(即始终让你了解情况并能够在服务发生问题期间迅速行动),因此你知道可以信任自己的云,从而放心地设计和操作任务关键型应用程序。
如果希望优化 Azure 上的现有应用程序,不妨从Azure 架构良好的框架着手,该框架是跨可靠性、安全性、性能效率、成本优化和卓越运营这五个核心支柱的一系列指导原则。
从 Azure 基础结构的可靠基础开始
请阅读 Azure CTO 兼技术研究员 Mark Russinovich 的“提升可靠性”博客系列,了解有关 Microsoft 用于维护和提高云平台可靠性的不断投资,包括最近的四个主题:通过智能软件实现网络可靠性、使用 AIOps 进行安全开发 - 引入 Gandalf、针对大型分布式系统的弹性威胁建模,以及低影响和无影响维护。
Microsoft 网络连接了超过 60 个Azure 区域、200 个 Azure 数据中心、190 个边缘站点,以及超过 175,000 英里的全球陆地和海底光纤,这些光纤通过战略性全球边缘入网点连接到 Internet 的其余部分。在这篇由两部分组成的博客文章中了解有关 Microsoft 网络可靠性的详细信息。
持续监视运行状况指标是部署过程的基本组成部分,这也是 AIOps 发挥关键作用的地方。在这篇博客文章中,了解如何使用 AI 和机器学习来助力 DevOps 工程师,大规模监视 Azure 部署过程,及早发现问题,并根据影响范围和严重性制定推出或回滚决策。
了解 Azure 服务工程团队如何使用“事后分析”作为工具来更好地了解出现的问题、问题的成因以及中断对客户产生的影响,并深入了解事后分析和弹性威胁建模流程。
了解 Azure 用于维护其基础结构的低影响和无影响更新技术(包括热修补、内存保留维护和实时迁移),这些技术对客户影响很小或没有影响,也不会导致出现故障时间。
启用内置复原能力
利用可选的 Azure 服务和功能来实现具体可靠性目标。
可用性区域
借助独立的电源、冷却系统和网络,跨数据中心运行关键工作负载。
可用性集
通过并置或分离资源,实现数据中心内的冗余。
Azure 流量管理器
实现自动故障转移、优化流量并结合本地系统与云系统。
Azure Site Recovery
将本地和 Azure 工作负载从主站点复制到辅助位置。
Azure 备份
使用简单、安全且经济高效的恢复和还原解决方案备份数据。
Azure 存储
在任何情况下,使用冗余选项创建和存储数据的多个副本。
监视云,使其不成为黑盒
通过监视工具识别、诊断和跟踪异常,确保长期可靠性,并优化可靠性和性能。
Azure Chaos Studio
通过受控的混沌系统地提高复原能力。
Azure 服务运行状况
确定资源问题并使用可自定义的仪表板解决这些问题。
Azure Monitor
从 Azure 和本地环境中收集遥测数据,并加以分析和处理。
Azure Application Insights
获得对应用使用情况的智能见解并诊断异常。
网络观察程序
监视、诊断并深入了解网络性能和运行状况。
Azure 顾问
通过基于使用情况遥测数据的建议优化应用和系统的可靠性。
文档、培训和资源
Microsoft Learn
获得新的技能,帮助你通过以下免费的 Microsoft Learn 模块使应用和系统更加可靠: