Zuverlässigkeit dank Azure
Tools und Lernmaterialien für die sichere Aufsetzung und den sicheren Betrieb unternehmenskritischer Systeme
Zuverlässigkeit als gemeinsame Verantwortung
Nutzen Sie die Azure-Cloudplattform als resiliente Grundlage, um die Zuverlässigkeitsziele Ihrer Organisation für alle Ihre Workloads zu erreichen. Entwerfen und betreiben Sie unternehmenskritische Anwendungen in dem sicheren Wissen, dass Sie Ihrer Cloud vertrauen können. Bei Azure steht Transparenz im Vordergrund, sodass Sie stets informiert bleiben und schnell auf Dienstprobleme reagieren können.
Wenn Sie eine vorhandene Anwendung in Azure optimieren möchten, befassen Sie sich zunächst mit dem Azure Well-Architected Framework, den Leitprinzipien für die fünf wichtigsten Säulen: Zuverlässigkeit, Sicherheit, Leistungseffizienz, Kostenoptimierung und optimaler Betrieb.

Eine zuverlässige Grundlage für Azure-Infrastrukturen
Informieren Sie sich über laufende Microsoft-Investitionen zur Aufrechterhaltung und Verbesserung der Zuverlässigkeit der Cloudplattform in der Blogreihe zur Verbesserung der Zuverlässigkeit des Azure CTO und Technical Fellow Mark Russinovich, einschließlich dieser vier aktuellen Themen: Netzwerkzuverlässigkeit durch intelligente Software, sichere Entwicklung mit AIOps (Einführung von Gandalf), Modellierung von Resilienzbedrohungen für große verteilte Systeme und Wartung mit geringfügigen oder keinen Auswirkungen.
Das Microsoft-Netzwerk verbindet mehr als 60 Azure-Regionen, 200 Azure-Rechenzentren, 190 Edgestandorte und weltweit über 280 000 Kilometer Glasfaserleitung (im Boden und Meer), die an strategischen globalen Edge-Präsenzpunkten mit dem Rest des Internets verbunden sind. In diesem zweiteiligen Blogbeitrag erfahren Sie mehr über die Zuverlässigkeit des Microsoft-Netzwerks.

Die kontinuierliche Überwachung von Integritätsmetriken ist ein grundlegender Bestandteil des Bereitstellungsprozesses, und hier spielt AIOps eine wichtige Rolle. In diesem Blogbeitrag erfahren Sie, wie KI und maschinelles Lernen verwendet werden, um DevOps-Engineers zu unterstützen, den Azure-Bereitstellungsprozess umfassend zu überwachen, Probleme frühzeitig zu erkennen und basierend auf dem Auswirkungs- und Schweregrad Entscheidungen zum Rollout oder Rollback zu treffen.

Hier erfahren Sie, wie Azure Service Engineering-Teams Postmortems verwenden, um besser zu verstehen, was schiefgelaufen ist, wie es zu einem Fehler kam und welche Auswirkungen Ausfälle auf Kunden haben. Außerdem erhalten Sie Einblicke in die Prozesse zur Modellierung von Postmortems und Resilienzbedrohungen.

Lesen Sie mehr über die Updatetechnologien mit minimaler oder ohne Auswirkung, z. B. Hotpatches, arbeitsspeichererhaltende Wartung und Livemigration, die Azure zur Wartung Ihrer Infrastruktur einsetzt, ohne Kunden zu beeinträchtigen oder Ausfälle zu verursachen.

Wählen Sie die geeigneten Azure-Resilienzfeatures
Hier erfahren Sie, welche Azure-Features für Hochverfügbarkeit, Notfallwiederherstellung und Sicherung Sie für Ihre Apps verwenden können. Außerdem lernen Sie die für Sie geeigneten Redundanzoptionen für Rechenleistung, Speicher und geografische Faktoren (lokal, zonal und regional) kennen.

Integrierte Resilienz nutzen
Nutzen Sie optionale Azure-Dienste und -Features, um Ihre speziellen Zuverlässigkeitsziele zu erreichen.
Verfügbarkeitszonen
Rechenzentrenübergreifende Ausführung kritischer Workloads mit unabhängiger Leistung, Kühlung und Netzwerkverbindung
Verfügbarkeitsgruppen
Redundanz innerhalb eines Rechenzentrums durch die Zusammenstellung oder Trennung von Ressourcen
Azure Traffic Manager
Automatisches Failover, optimierter Datenverkehr und Kombination von lokalen und cloudbasierten Systemen
Azure Site Recovery
Replikation von lokalen Workloads und Azure-Workloads von einem primären an einen sekundären Standort
Azure Backup
Datensicherung mit einfacher, sicherer und kosteneffizienter Wiederherstellung
Azure Storage
Mehrere Datenkopien durch Redundanzoptionen für jedes Szenario
Cloud überwachen und Blackboxverhalten vermeiden
Sorgen Sie durch Überwachungstools für die Ermittlung, Diagnose und Nachverfolgung von Anomalien für langfristige Zuverlässigkeit, und optimieren Sie diese und die Leistung.
Azure Chaos Studio
Nutzen Sie ein kontrolliertes Chaos, um die Resilienz systematisch zu verbessern.
Azure Service Health
Ermittlung und Behebung von Ressourcenproblemen mithilfe eines anpassbaren Dashboards
Azure Monitor
Telemetriedaten aus Azure-Umgebungen und lokalen Umgebungen für die Analyse und Entscheidungsfindung
Azure Application Insights
Anomaliediagnose und intelligente Einblicke in die App-Nutzung
Network Watcher
Einblicke in Netzwerkleistung und -integrität durch Überwachung und Diagnose
Azure Advisor
Optimierte Zuverlässigkeit für Apps und Systeme durch auf Nutzungstelemetriedaten basierende Empfehlungen
Organisationen jeder Größe vertrauen auf Azure
ClearBank bietet Infrastrukturresilienz, Kundenvertrauen und Wettbewerbsvorteile
Tom Harris, Chief Technology Officer, ClearBank"Ensuring end-to-end reliability and resiliency is a team effort. We get the tools from Azure, and we set up the systems and processes to put it all together."

Kodak Alaris steigert die Produktivität durch Verbesserung der ERP-Resilienz enorm
– Joseph Calabrese, IT Operations Manager, Kodak Alaris"The one thing I don't want is my CIO coming to me because there's a problem with our ERP. The truth is, it never happens anymore—it's a real testament to our ERP's reliability in Azure."

Die University of Miami erhöht die Zuverlässigkeit mit Microsoft Azure
Mari Lovo, Director, IT, Cloud Infrastructure Services, University of Miami"Whenever we think of a solution, we think, 'How can we do this in the cloud versus on-premises?' It not only makes us more resilient, but more flexible and nimble as well."

Marie Curie bietet stabilere, zuverlässigere Dienste
Ivan Delany, IT Director, Marie Curie"In the last two and a half years, we've had one outage which has been due to cloud infrastructure failing. It just almost instantly gave us stability, space to breathe, enabled us to focus on bringing real value to the organization."

Juvare erhöht die Zuverlässigkeit und Integrität der eigenen Incidentplattform
Bryan Kaplan, Chief Information Officer, Juvare"We architected our solution to spread workloads across different availability zones and regions, to maintain both client requirements for geographic data residency but also to ensure that if one particular part of our infrastructure was having a problem, it reduced the blast radius."

GEP hat die Zuverlässigkeit seiner Logistikplattform verbessert
Nithin Prasad, Principal Engineer, GEP"We use AKS or Azure Kubernetes Service inbuilt node pools...say your primary node pool is down, within the cluster you're automatically able to failover to the second availability zone."
