Navigation überspringen

Zuverlässigkeit dank Azure

Tools und Lernmaterialien für die sichere Aufsetzung und den sicheren Betrieb unternehmenskritischer Systeme

Zuverlässigkeit als gemeinsame Verantwortung

Nutzen Sie die Azure-Cloudplattform als resiliente Grundlage, um die Zuverlässigkeitsziele Ihrer Organisation für alle Ihre Workloads zu erreichen. Entwerfen und betreiben Sie unternehmenskritische Anwendungen in dem sicheren Wissen, dass Sie Ihrer Cloud vertrauen können. Bei Azure steht Transparenz im Vordergrund, sodass Sie stets informiert bleiben und schnell auf Dienstprobleme reagieren können.

Wenn Sie eine vorhandene Anwendung in Azure optimieren möchten, befassen Sie sich zunächst mit dem Azure Well-Architected Framework, den Leitprinzipien für die fünf wichtigsten Säulen: Zuverlässigkeit, Sicherheit, Leistungseffizienz, Kostenoptimierung und optimaler Betrieb.

Eine zuverlässige Grundlage für Azure-Infrastrukturen

Informieren Sie sich über laufende Microsoft-Investitionen zur Aufrechterhaltung und Verbesserung der Zuverlässigkeit der Cloudplattform in der Blogreihe zur Verbesserung der Zuverlässigkeit des Azure CTO und Technical Fellow Mark Russinovich, einschließlich dieser vier aktuellen Themen: Netzwerkzuverlässigkeit durch intelligente Software, sichere Entwicklung mit AIOps (Einführung von Gandalf), Modellierung von Resilienzbedrohungen für große verteilte Systeme und Wartung mit geringfügigen oder keinen Auswirkungen.

Das Microsoft-Netzwerk verbindet mehr als 60 Azure-Regionen, 220 Azure-Rechenzentren, 170 Edgestandorte und über 265.000 Kilometer Glasfaserleitung (im Boden und Meer), durch die über ausgewählte Edge Points of Presence auf der ganzen Welt eine Verbindung mit dem restlichen Internet hergestellt wird. In diesem zweiteiligen Blogbeitrag erfahren Sie mehr über die Zuverlässigkeit des Microsoft-Netzwerks.

Die kontinuierliche Überwachung von Integritätsmetriken ist ein grundlegender Bestandteil des Bereitstellungsprozesses, und hier spielt AIOps eine wichtige Rolle. In diesem Blogbeitrag erfahren Sie, wie KI und maschinelles Lernen verwendet werden, um DevOps-Engineers zu unterstützen, den Azure-Bereitstellungsprozess umfassend zu überwachen, Probleme frühzeitig zu erkennen und basierend auf dem Auswirkungs- und Schweregrad Entscheidungen zum Rollout oder Rollback zu treffen.

Hier erfahren Sie, wie Azure Service Engineering-Teams Postmortems verwenden, um besser zu verstehen, was schiefgelaufen ist, wie es zu einem Fehler kam und welche Auswirkungen Ausfälle auf Kunden haben. Außerdem erhalten Sie Einblicke in die Prozesse zur Modellierung von Postmortems und Resilienzbedrohungen.

Lesen Sie mehr über die Updatetechnologien mit minimaler oder ohne Auswirkung, z. B. Hotpatches, arbeitsspeichererhaltende Wartung und Livemigration, die Azure zur Wartung Ihrer Infrastruktur einsetzt, ohne Kunden zu beeinträchtigen oder Ausfälle zu verursachen.

Wählen Sie die geeigneten Azure-Resilienzfeatures

Hier erfahren Sie, welche Azure-Features für Hochverfügbarkeit, Notfallwiederherstellung und Sicherung Sie für Ihre Apps verwenden können. Außerdem lernen Sie die für Sie geeigneten Redundanzoptionen für Rechenleistung, Speicher und geografische Faktoren (lokal, zonal und regional) kennen.

Integrierte Resilienz nutzen

Nutzen Sie optionale Azure-Dienste und -Features, um Ihre speziellen Zuverlässigkeitsziele zu erreichen.

Verfügbarkeitszonen

Rechenzentrenübergreifende Ausführung kritischer Workloads mit unabhängiger Leistung, Kühlung und Netzwerkverbindung

Verfügbarkeitsgruppen

Redundanz innerhalb eines Rechenzentrums durch die Zusammenstellung oder Trennung von Ressourcen

Azure Traffic Manager

Automatisches Failover, optimierter Datenverkehr und Kombination von lokalen und cloudbasierten Systemen

Azure Site Recovery

Replikation von lokalen Workloads und Azure-Workloads von einem primären an einen sekundären Standort

Azure Backup

Datensicherung mit einfacher, sicherer und kosteneffizienter Wiederherstellung

Azure Storage

Mehrere Datenkopien durch Redundanzoptionen für jedes Szenario

Cloud überwachen und Blackboxverhalten vermeiden

Sorgen Sie durch Überwachungstools für die Ermittlung, Diagnose und Nachverfolgung von Anomalien für langfristige Zuverlässigkeit, und optimieren Sie diese und die Leistung.

Azure Chaos Studio

Nutzen Sie ein kontrolliertes Chaos, um die Resilienz systematisch zu verbessern.

Azure Service Health

Ermittlung und Behebung von Ressourcenproblemen mithilfe eines anpassbaren Dashboards

Azure Monitor

Telemetriedaten aus Azure-Umgebungen und lokalen Umgebungen für die Analyse und Entscheidungsfindung

Azure Application Insights

Anomaliediagnose und intelligente Einblicke in die App-Nutzung

Network Watcher

Einblicke in Netzwerkleistung und -integrität durch Überwachung und Diagnose

Azure Advisor

Optimierte Zuverlässigkeit für Apps und Systeme durch auf Nutzungstelemetriedaten basierende Empfehlungen

Organisationen jeder Größe vertrauen auf Azure

ClearBank bietet Infrastrukturresilienz, Kundenvertrauen und Wettbewerbsvorteile

"Ensuring end-to-end reliability and resiliency is a team effort. We get the tools from Azure, and we set up the systems and processes to put it all together."

Tom Harris, Chief Technology Officer, ClearBank
ClearBank

Kodak Alaris steigert die Produktivität durch Verbesserung der ERP-Resilienz enorm

"The one thing I don't want is my CIO coming to me because there's a problem with our ERP. The truth is, it never happens anymore—it's a real testament to our ERP's reliability in Azure."

– Joseph Calabrese, IT Operations Manager, Kodak Alaris
Kodak Alaris

Serbiens größter Flughafen setzt auf automatisierte Wiederherstellung

"We wanted a business continuity plan for recovery for the business systems we need to run the airport, but without the expense of commissioning and maintaining secondary infrastructure. We also wanted to ensure recovery is fast and automated in the event of any failure."

– Marko Marković, Leiter der IT-Abteilung bei AD Aerodrom Nikola Tesla Beograd
AD Aerodrom Nikola Tesla Beograd

Marie Curie bietet stabilere, zuverlässigere Dienste

"In the last two and a half years, we've had one outage which has been due to cloud infrastructure failing. It just almost instantly gave us stability, space to breathe, enabled us to focus on bringing real value to the organization."

Ivan Delany, IT Director, Marie Curie
Marie Curie

Juvare erhöht die Zuverlässigkeit und Integrität der eigenen Incidentplattform

"We architected our solution to spread workloads across different availability zones and regions, to maintain both client requirements for geographic data residency but also to ensure that if one particular part of our infrastructure was having a problem, it reduced the blast radius."

Bryan Kaplan, Chief Information Officer, Juvare
Juvare

GEP hat die Zuverlässigkeit seiner Logistikplattform verbessert

"We use AKS or Azure Kubernetes Service inbuilt node pools...say your primary node pool is down, within the cluster you're automatically able to failover to the second availability zone."

Nithin Prasad, Principal Engineer, GEP
gep

Dokumentation, Schulungen und Ressourcen

Azure Architecture Center

Setzen Sie bei der Entwicklung zuverlässiger Lösungen auf bewährte Muster und Methoden:

Microsoft Learn

Mithilfe dieser kostenlosen Microsoft Learn-Module können Sie sich die nötigen Kenntnisse aneignen, um Ihre Apps und Systeme zuverlässiger zu gestalten:

Site Reliability Engineering (SRE)

Machen Sie sich mit dem Einsatz von SRE vertraut, einer Disziplin, mit der Organisationen die benötigte Zuverlässigkeit für Systeme, Dienste und Produkte erzielen:

Lesen Sie mehr darüber, wie Sie Ihre Architektur auf Zuverlässigkeit ausrichten – eine der fünf Säulen für eine herausragende Architektur im Azure Well-Architected Framework.