Navigation überspringen

Weiterentwickelte Verfügbarkeitsüberwachung für Azure-VMs mit Project Flash

Veröffentlicht am 14 Februar, 2022

Chief Technology Officer and Technical Fellow, Microsoft Azure

Unsere Blogreihe „Advancing Reliability“ geht ins vierte Kalenderjahr, und wir haben uns weiterhin dem Ziel verschrieben, dass Organisationen ihre Workloads zuverlässig in Azure ausführen können. Wir investieren kontinuierlich in die Weiterentwicklung der Azure-Plattform, um dieses Ziel jeden Tag zu erfüllen. Dass Sie die Verfügbarkeit Ihrer VMs stabil und umfassend überwachen können, ist entscheidend, um sicherzustellen, dass Ihre Anwendungen verfügbar und resilient sind. Für den heutigen Beitrag dieser Reihe habe ich mit Pujitha Desiraju, Program Manager in unserem Azure Core Platform Fundamentals Engineering-Team, über die neuesten Verbesserungen an Einblicken in die Überwachung der VM-Verfügbarkeit sowie über geplante Investitionen in die beste Überwachungsleistung gesprochen.“ – Mark Russinovich, CTO, Azure


 

Dieser Beitrag wurde von Gaurav Jagtiani, Principal Software Engineering Manager, mitverfasst.

Flash – so wird das Projekt intern genannt – stellt die geballten Bemühungen der Azure Engineering-Teams dar, das Ökosystem für die Verfügbarkeitsüberwachung von Azure-VMs zu einer zentralisierten, ganzheitlichen und intuitiven Lösung weiterzuentwickeln, auf die sich Kunden bei ihren individuellen Anforderungen an Systemeinblicke verlassen können. Wir freuen uns, heute den Abschluss der ersten beiden Projektmeilensteine anzukündigen: die Vorschau von VM-Verfügbarkeitsdaten in Azure Resource Graph und die private Vorschau einer VM-Verfügbarkeitsmetrik in Azure Monitor.

Was ist Project Flash?

Der Name „Project Flash“ leitet sich von unserem selbstgesteckten Ziel ab, stabile und schnelle Lösungen zur möglichst umfassenden Verfügbarkeitsüberwachung von VMs zu entwickeln – eine zentrale Voraussetzung für eine effiziente Anwendungsleistung. Das möchten wir Ihnen bieten:

  • Nutzung von genauen und handlungsrelevanten Daten zu Unterbrechungen der VM-Verfügbarkeit (z. B. VM-Neustarts, Einfrieren von Anwendungen aufgrund von Netzwerktreiberupdates und 30 Sekunden lange Hostbetriebssystemupdates) sowie präzise Fehlerdetails (z. B. plattform- oder benutzerseitig, Neustart oder Einfrieren, geplant oder ungeplant).
  • Analysen und Warnungen zu Trends in der VM-Verfügbarkeit für schnelles Debuggen und Berichterstattung im Monatsvergleich
  • Regelmäßiges Überwachen von Daten im großen Stil und Erstellen von benutzerdefinierten Dashboards, um über die aktuellen Verfügbarkeitszustände aller Ressourcen auf dem Laufenden zu bleiben
  • Automatisierte Grundursachenanalysen, die ausführliche Details zu den betroffenen VMs, der Ausfallursache und -dauer, den sich daraus ergebenden Fehlerbehebungen usw. aufzeigen, um gezielte Untersuchungen und Post-mortem-Analysen zu ermöglichen
  • Sofortige Benachrichtigungen zu kritischen Änderungen an der VM-Verfügbarkeit, um Korrekturmaßnahmen schnell auszulösen und Auswirkungen auf Endbenutzer*innen zu vermeiden
  • Dynamisches Anpassen und Automatisieren von Plattformwiederherstellungsrichtlinien auf Basis von sich stetig ändernden Workload- und Failoveranforderungen

Aufgrund dieser Ziele haben wir unsere Umsetzungsstrategie in zwei Phasen unterteilt: In der ersten Phase sollen zeitnah kritische, aktuelle Anforderungen erfüllt werden. Die zweite Phase ist langfristig ausgerichtet, um die beste Überwachung der VM-Verfügbarkeit zu bieten. Dieser Zwei-Phasen-Ansatz hilft uns, Lücken kontinuierlich zu schließen, die Dienstqualität zu verbessern und bei jedem Schritt aus Ihrem Feedback zu lernen.

Ankündigung neuer Überwachungsoptionen

In der ersten Phase bieten wir verschiedene Optionen, um komfortablen Zugriff auf VM-Verfügbarkeitsdaten zu ermöglichen und verschiedene Anforderungen an Systemeinblicke zu erfüllen. Mit ähnlich strengen Qualitätsstandards möchten wir Datenkonsistenz für alle vorhandenen Features und Lösungen wie Resource Health oder Aktivitätsprotokolle gewährleisten, um unabhängig von Ihrer gewählten Lösung konsistente Einblicke zu bieten.

Einführung von großangelegten Analysen der VM-Verfügbarkeit

Heute kündigen wir den Abschluss des ersten Meilensteins von Project Flash an: die Vorschauversion der VM-Verfügbarkeitszustände in Azure Resource Graph für die programmgesteuerte Nutzung im großen Stil.

Azure Resource Graph ist ein Azure-Dienst, der aufgrund seiner effizienten Fähigkeit, mehrere Abonnements gleichzeitig und latenzarm abzufragen, weitläufig implementiert wurde. Derzeit werden VM-Verfügbarkeitszustände („Verfügbar“, „Nicht verfügbar“ und „Unbekannt“) an die Tabelle „Health Resources“ (Integritätsressourcen) in Azure Resource Graph ausgegeben, sodass Sie komplexe Abfragen in der Kusto-Abfragesprache (Kusto Query Language, KQL) ausführen können, um große Datasets gleichzeitig zu durchsuchen. Diese Funktionalität ist sehr nützlich, um erfolgte Änderungen an der VM-Verfügbarkeit nachzuverfolgen, benutzerdefinierte Dashboards zu erstellen und zahlreiche Ressourceneigenschaften in verschiedenen Tabellen ausführlich zu untersuchen.

Azure Resource Graph-Explorer mit Abfrage und Ergebnissen, um das Abrufen von Daten aus der Tabelle „Integritätsressourcen“ zu veranschaulichen

Abbildung 1: Azure Resource Graph-Explorer mit Abfrage und Ergebnissen, um das Abrufen von Daten aus der Tabelle „Integritätsressourcen“ zu veranschaulichen

Wir planen, der Tabelle „Integritätsressourcen“ in Azure Resource Graph im Laufe dieses Jahres Fehlerdetails sowie Szenarios für beeinträchtige VMs hinzuzufügen. Diese Details stellen sicher, dass Sie über Ursache und Auswirkungen von Fehlern richtig informiert sind. So können Sie entweder ein Failover ausführen, einen direkten Neustart durchführen oder die angemessenen Maßnahmen ergreifen, um Auswirkungen auf Endbenutzer*innen zu verhindern.

Navigieren Sie im Azure-Portal zum Azure Resource Graph-Explorer, um sich mit den KQL-Abfragen vertraut zu machen, die für die Tabelle „Integritätsressourcen“ veröffentlicht wurden.

Einführung der VM-Verfügbarkeitsmetrik in Azure Monitor

Heute kündigen wir außerdem die private Vorschau einer vorkonfigurierten VM-Verfügbarkeitsmetrik in Azure Monitor an, die eine zusammengestellte Metrikwarnungs- und Überwachungsumgebung bietet.

Metriken in Azure Monitor eignen sich ideal für die Überwachung und Analyse von Zeitreihendarstellungen der VM-Verfügbarkeit. So können Sie schnell und einfach debuggen, bereichsspezifische Warnungen zu Trends erhalten, Frühindikatoren einer beeinträchtigten Verfügbarkeit abfangen, die Metrik mit anderen Plattformmetriken korrelieren und mehr.

Mit der Metrik können Sie den Puls Ihrer VMs nachverfolgen. Während des erwarteten Verhaltens zeigt die Metrik den Wert 1 an. Bei Unterbrechungen der VM-Verfügbarkeit wird die Metrik für die Dauer des Ausfalls auf 0 gesenkt. Bei einem Ausfall der Azure-Infrastruktur werden NULL-Werte ausgegeben, die im Portal als gepunktete Linie dargestellt werden.

Screenshot der VM-Verfügbarkeitsmetrik, wie sie im Azure-Portal im Metrik-Explorer angezeigt wird, mit gelegentlichen Einbrüchen, die Unterbrechungen der VM-Verfügbarkeit wiedergeben

Abbildung 2: Screenshot der VM-Verfügbarkeitsmetrik, so wie sie Azure-Portal im Metrik-Explorer angezeigt wird. Gelegentliche Einbrüche geben Unterbrechungen der VM-Verfügbarkeit wieder.

Wir haben die private Vorschau der Metrik als erste Phase unseres Rolloutplans veröffentlicht und sammeln derzeit Kundenfeedback, um unser Angebot weiter zu optimieren. Wir planen, im nächsten Jahr Fehlerdetails wie Metrikdimensionen und Plattformprotokolle hinzuzufügen, damit Sie präzise Warnungen zu beeinträchtigenden Fehlerszenarios erstellen können.

Bald verfügbar

Die beiden zuvor vorgestellten Überwachungsoptionen sind nur der Anfang von Project Flash! Wir bauen weiterhin auf unseren vorhandenen Lösungen auf, indem wir die Datenqualität und Fehlerzuordnung verbessern. Parallel dazu entwerfen wir zwei neue Überwachungsangebote für Ihre Latenz- und Entschärfungsanforderungen und investieren gleichzeitig stark in die zugrunde liegende Plattform, um unsere Fehlererkennung resilienter und umfassender zu gestalten.

Azure Event Grid für sofortige Benachrichtigungen

Um unternehmenskritische Anwendungen erfolgreich auszuführen, müssen Sie genauestens über alle Ereignisse Bescheid wissen, die sich auf die VM-Verfügbarkeit auswirken. Nur so können Korrekturmaßnahmen sofort ausgelöst und Auswirkungen auf die Endbenutzer*innen verhindert werden. Um Sie bei Ihrem Tagesgeschäft zu unterstützen, planen wir einen Benachrichtigungsmechanismus, der auf der latenzarmen Technologie von Azure Event Grid basiert. Dadurch können Sie einfach ein Event Grid-Systemthema abonnieren und bereichsspezifische Ereignisse über Ereignishandler sofort an nachgelagerte Tools weiterleiten.

Automatisierung und Anpassung von Plattformwiederherstellungsrichtlinien

Neben den zahlreichen laufenden Investitionen in die Verbesserung der VM-Verfügbarkeitsüberwachung möchten wir Sie mit Project Flash noch weiter unterstützen, indem wir Ihnen Stellschrauben für die Anpassung von Wiederherstellungsrichtlinien bieten, die von der Plattform als Reaktion auf Unterbrechungen der VM-Verfügbarkeit ausgelöst werden.

Eine solche Stellschraube ist die Möglichkeit, die Dienstheilung für Einzelinstanz-VMs zu deaktivieren, die als Reaktion auf bestimmte unerwartete Verfügbarkeitsunterbrechungen ausgelöst wird. Diese Stellschraube wird über das Portal oder zum Zeitpunkt der VM-Bereitstellung zur Verfügung gestellt und kann dynamisch aktualisiert werden. Beachten Sie, dass die Nutzung dieses Features die üblichen Verfügbarkeits-SLAs für Azure-VMs außer Kraft setzt.

In Zukunft werden wir die Einführung weiterer Stellschrauben untersuchen, mit denen Sie auch andere geltende Wiederherstellungsrichtlinien (z. B. Livemigration oder Tardigrade) deaktivieren können. Auf diese Weise stellen wir sicher, dass Sie problemlos Anpassungen an Ihre sich ständig ändernden Entschärfungsanforderungen vornehmen können.

Fortlaufende Investitionen in die Plattformqualität

Die erste Phase ist zwar auf die Erfüllung Ihrer aktuellen Anforderungen an Systemeinblicke ausgerichtet, unser langfristiges Ziel bleibt jedoch weiterhin, Ihnen eine erstklassige Lösung für Einblicke in alle Aspekte der VM-Verfügbarkeit zu bieten. Wir freuen uns sehr auf all die Datenanreicherungen und technischen Fortschritte, die in diese Lösung einfließen werden. Dies ist ein erster Einblick in unsere Roadmap für geplante Investitionen:

  1. Fehlererkennung und -zuordnung: Wir entwickeln unsere zugrunde liegende Infrastruktur kontinuierlich weiter, um Fehler präzise und umgehend zu erkennen und zuzuordnen. So können unbekannte oder fehlende Integritätsstatusberichte verringert, handlungsrelevante Fehlerdetails ausgegeben und Anpassungen der Plattformwiederherstellung verarbeitet werden. Dies bleibt zyklusübergreifend unser wichtigster Investitionsbereich.
  2. Automatisierung der Grundursachenanalyse (Root Cause Analysis, RCA): Wir planen, einfache Nachverfolgungsmechanismen für jeden eindeutigen VM-Ausfall zusammen mit einer automatischen Konstruktion und Ausgabe detaillierter RCA-Ausfallsanweisungen zu implementieren, um den Aufwand der manuellen Nachverfolgung für Sie zu reduzieren.
  3. AIOps-Integration: Wir möchten uns die enormen Fortschritte bei Microsoft im Bereich AIOps zunutze machen, um intelligente Erkenntnisse sowie Anomalieerkennung und -diagnose für die vielen verschiedenen Datenpunkte zur VM-Verfügbarkeit zu ermöglichen.
  4. Zentralisierte und kohäsive Benutzeroberfläche: Wir sind uns bewusst, dass unser kurzfristiger Ansatz dazu führt, dass unsere Überwachungs-, Warnungs- und Wiederherstellungstools über verschiedene Dienste verstreut sind, was zu großer Verwirrung bei Benutzer*innen führen kann. Dieses Problem soll in der letzten Phase gelöst werden. Unser oberstes Ziel besteht darin, Endbenutzer*innen Zugriff auf unterschiedliche und erforderliche Darstellungen der VM-Verfügbarkeit zu bieten, die in Azure Monitor konsolidiert und gemäß gängigen Verwendungsmustern kategorisiert sind, um so für Auffindbarkeit, Benutzerfreundlichkeit und ein intuitives Onboarding zu sorgen.

Weitere Informationen

Diese Liste ist sicherlich nicht abschließend, da im Rahmen unserer langfristigen Strategie viele verschiedene Verbesserungen geplant sind. Mit Project Flash möchten wir die Überwachung der VM-Verfügbarkeit so intuitiv, umfassend und nahtlos wie möglich gestalten, damit Sie immer auf Änderungen der Integrität Ihrer Workloads vorbereitet und darüber informiert sind und letztendlich Ihre eigenen SLAs und Geschäftszusagen einhalten können.

Wir werden auch in Zukunft Neuigkeiten zu Project Flash über Blogs wie diesen ankündigen, um Sie immer auf dem neuesten Stand zu halten. Halten Sie sich auf dem Laufenden.