Subscribe

Flash, comme le projet est connu en interne, tire son nom de notre engagement inébranlable à créer un mécanisme robuste, fiable et rapide permettant aux clients de surveiller l'état des machines virtuelles (VM).

Notre objectif principal est de garantir que les clients peuvent accéder de manière fiable à une télémétrie précise et exploitable, recevoir rapidement des alertes sur les changements et surveiller périodiquement les données à grande échelle. Nous accordons également une grande importance au développement d'une expérience centralisée et cohérente que les clients peuvent facilement utiliser pour répondre à leurs exigences uniques en matière d'observabilité.

Sécuriser l’intégrité des machines virtuelles avec Azure

Pour commencer à suivre votre parcours d’observabilité, vous pouvez explorer la suite de produits Azure vers lesquels nous émettons des données d’intégrité de machine virtuelle de haute qualité. Ces produits incluent l’intégrité des ressources, les journaux d’activité, azure resource graph, les métriques Azure Monitor et Azure Event Grid.

Nous sommes ravis de révéler les développements passionnants que notre équipe a conçu au cours de la dernière année ! Voici un aperçu de ce que nous avons travaillé sur :

  • Surveillance améliorée de la disponibilité des machines virtuelles : nous avons introduit une nouvelle fonctionnalité qui surveille la dégradation de la disponibilité des machines virtuelles. Il vous avertit de manière proactive de l’impact potentiel sur la disponibilité ou les performances.
  • Préversion publique de HealthResources Event Grid : nous lancez une préversion publique de la rubrique système HealthResources Event Grid. Cette fonctionnalité offre des notifications à faible latence sur les modifications de disponibilité des machines virtuelles, ce qui vous permet d’effectuer des actions d’atténuation rapides si nécessaire.
  • Visibilité améliorée sur les blocages d’application : nous envoyons maintenant des notifications lorsque l’application se bloque lors de la sélection des mises à jour de l’agent de stockage et du réseau. Cette visibilité améliorée vous permet de gérer les interruptions avec une plus grande clarté.

Notre engagement à la qualité demeure indéfectible. Nous avons pour objectif de maintenir la cohérence des données de 100 % et de respecter des normes de qualité rigoureuses dans toutes les expériences Flash.

« L’année dernière, nous avons fourni une mise à jour sur Project Flash dans la série de blog Progression de la fiabilité, mettant l’accent sur notre dévouement pour permettre aux clients Azure de diagnostiquer les interruptions de disponibilité des machines virtuelles de manière pratique et rapide. Aujourd’hui, nous sommes ravis de partager les dernières avancées en matière d’amélioration de la surveillance de la disponibilité des machines virtuelles pour que les clients s’appuient sur confiance pour une opération transparente de leurs charges de travail sur Azure. J’ai demandé au directeur principal du programme technique, Pujitha Desiraju, de l’équipe De base de la plateforme Azure Core de partager les derniers investissements réalisés dans le cadre de Project Flash.— Mark Russinovich, CTO, Azure.

Présentation de l’état de disponibilité des machines virtuelles détérioré pour une surveillance améliorée de la disponibilité des machines virtuelles

En raison de nos efforts continus visant à améliorer la détection de l’intégrité des machines virtuelles, nous sommes ravis de révéler une amélioration significative de la qualité avec l’introduction de l’état de disponibilité des machines virtuelles détérioré. Cette nouvelle fonctionnalité exploite les modèles de détection d’anomalies basés sur l’apprentissage automatique pour prédire les dégradations des machines virtuelles en raison de problèmes matériels affectant le serveur hôte sous-jacent, comme l’unité de traitement centrale (UC), le disque ou les problèmes de mémoire. Nous avons intégré cette fonctionnalité en toute transparence dans azure resource graph, event grid, resource health et les journaux d’activité, en complément des annotations d’intégrité des machines virtuelles déjà en cours d’exécution.

Avec l’ajout de cette fonctionnalité, la surveillance de l’intégrité de votre machine virtuelle et la compréhension de la raison pour laquelle elle est détériorée est devenue plus facile que jamais. Les vues fournies dans toutes les expériences Flash améliorent la facilité de découverte de la dégradation de la machine virtuelle en raison d’un événement planifié ou non planifié.  Les vues identifient également efficacement le composant spécifique responsable, offrent des étapes d’atténuation exploitables et fournissent une date de redéploiement précise pour éviter toute interruption opérationnelle.

En 2024, nous prévoyons d’étendre notre attention pour englober la mise en réseau accélérée inopérable et de nouveaux scénarios de prédictions de défaillance matérielle. En outre, nous prévoyons d’incorporer l’état détérioré en tant que dimension dans la métrique de disponibilité de machine virtuelle dans Azure Monitor, ce qui améliore la précision de l’attribution des temps d’arrêt.

Préversion publique des notifications Event Grid à faible latence sur les modifications de disponibilité des machines virtuelles

Pour garantir une opération transparente des applications critiques pour l’entreprise, il est essentiel d’avoir une connaissance en temps réel de tout événement susceptible d’avoir un impact négatif sur la disponibilité des machines virtuelles. Cette connaissance vous permet de prendre rapidement des mesures correctives pour protéger les utilisateurs finaux contre toute interruption. Pour vous aider dans vos opérations quotidiennes, nous sommes ravis d’annoncer la préversion publique de la rubrique système De grille d’événements HealthResources avec des annotations d’intégrité des machines virtuelles nouvellement ajoutées !

Cette rubrique système fournit des données détaillées sur l’intégrité des machines virtuelles, ce qui vous donne des insights immédiats sur les changements d’état de disponibilité des machines virtuelles ainsi que le contexte nécessaire. Vous pouvez recevoir des événements sur des machines virtuelles à instance unique et des machines virtuelles de groupe de machines virtuelles identiques pour l’abonnement Azure sur lequel cette rubrique a été créée. Les données sont publiées dans cette rubrique par Azure Resource Notifications (ARN), notre service de pointe serveur de publication-abonné, équipé de fonctionnalités de contrôle d’accès en fonction du rôle (RBAC) robustes et de fonctionnalités de filtrage avancées. Cela vous permet de vous abonner sans effort à une rubrique système Event Grid et de diriger en toute transparence les événements pertinents à l’aide des fonctionnalités de filtrage avancées fournies par Event Grid, aux outils en aval en temps réel. Cela vous permet de répondre et d’atténuer instantanément les problèmes.

Mise en route

Étape 1 :

Les utilisateurs commencent par créer une rubrique système dans l’abonnement Azure auquel ils souhaitent recevoir des notifications.

Étape 2 :

Les utilisateurs continuent ensuite à créer un abonnement aux événements dans la rubrique système à l’étape 1. Au cours de cette étape, ils spécifient le point de terminaison (par exemple, Event Hubs) vers lequel les événements seront routés.  Les utilisateurs ont également la possibilité de configurer des filtres d’événements pour limiter l’étendue des événements remis. 

Lorsque vous commencez à vous abonner à des événements à partir de la rubrique système HealthResources, tenez compte des meilleures pratiques suivantes :

  1. Choisissez une destination ou un gestionnaire d’événements approprié en fonction de l’échelle et de la taille prévues des événements.
  2. Pour les scénarios fan-in dans lesquels les notifications provenant de plusieurs rubriques système doivent être consolidées, les hubs d’événements sont fortement recommandés comme destination. Cela est particulièrement utile pour les scénarios de traitement en temps réel pour maintenir la fraîcheur des données et pour le traitement périodique pour l’analytique, avec des périodes de rétention configurables.

En prévision de 2024, nous avons des plans de transition de la préversion en une fonctionnalité de disponibilité générale à part entière.

Visibilité améliorée des gels d’application

Il est essentiel d’avoir une visibilité sur les événements susceptibles de nécessiter un redémarrage du système ou ceux susceptibles de provoquer un blocage du système, en particulier lors de l’exécution de charges de travail sensibles. Nous sommes ravis d’introduire des annotations d’intégrité des machines virtuelles sur l’impact gelé, dans des scénarios spécifiques de mises à jour planifiées de l’agent de stockage et du réseau. Ces notifications sont remises à l’intégrité des ressources, au graphe de ressources Azure et à Event Grid.

Avec cette nouvelle fonctionnalité, vous aurez accès à des informations détaillées sur l’impact et l’attribution des gels système. Ces informations incluent si l’activité a été planifiée ou non planifiée, si elle a été correctement terminée, la durée précise de l’impact observé par vous et les détails sur le type de mise à jour appliquée. Cela vous permet de surveiller et d’examiner les blocages d’applications observés tout en recevant des alertes ciblées pour tous les événements de gel.

En attendant 2024, nous nous engageons à développer la gamme de scénarios pour lesquels ces notifications sont émises.

Résumé de la solution Flash

L’initiative Flash a été dédiée au développement de solutions au fil des années qui répondent aux divers besoins de surveillance de nos clients. Pour vous aider à déterminer la ou les solutions de supervision Flash les plus appropriées pour vos besoins spécifiques, reportez-vous ci-dessous :

Graphique de ressources Azure : HealthResources

Actuellement en disponibilité générale. Il est particulièrement utile de mener des enquêtes à grande échelle. Il offre une expérience très conviviale pour la récupération d’informations avec son utilisation du langage de requête kusto (KQL). Il peut également servir de centre d'information sur les ressources et permet de retrouver facilement des données historiques.

Rubrique système Azure Event Grid : HealthResources

Actuellement disponible en préversion publique. Il est utile de déclencher des actions d’atténuation temporelles et critiques, telles que le redéploiement et le redémarrage de la machine virtuelle, pour empêcher les interruptions de l’utilisateur final. Les clients peuvent recevoir des alertes en quelques secondes après les modifications critiques de la disponibilité des ressources.

Azure Monitor : métrique de disponibilité des machines virtuelles

Actuellement disponible en préversion publique. Il convient parfaitement au suivi des tendances, à l’agrégation des métriques de plateforme (telles que l’utilisation du processeur et du disque) et à la configuration d’alertes précises basées sur des seuils. Les clients peuvent utiliser cette métrique de disponibilité des machines virtuelles prête à l’emploi dans Azure Monitor.

Azure Resource Health

Actuellement disponible en disponibilité générale. Il offre des contrôles de santé immédiats et conviviaux pour les ressources individuelles par l’intermédiaire du portail. Les clients peuvent accéder rapidement au panneau Intégrité des ressources sur le portail et passer en revue un enregistrement historique de 30 jours des vérifications d’intégrité, ce qui en fait un excellent outil pour la résolution des problèmes rapides et simples.

Faciliter la surveillance globale de la disponibilité des machines virtuelles

Pour une approche globale de la surveillance de la disponibilité des VM, y compris des scénarios de maintenance de routine, de migration en direct, de réparation des services et de dégradation des VM, nous vous recommandons d'utiliser à la fois les événements planifiés (SE) et les événements d'intégrité Flash.

Les événements planifiés sont conçus pour offrir un avertissement précoce, donnant jusqu’à 15 minutes d’avance avant les activités de maintenance. Ce délai vous permet de prendre des décisions éclairées concernant les temps d'arrêt à venir, vous permettant ainsi de les éviter ou de vous y préparer. Vous avez la possibilité de reconnaître ces événements ou de retarder les actions pendant cette période de 15 minutes, en fonction de votre préparation à la maintenance à venir.

D’un autre côté, les événements Flash Health se concentrent sur le suivi en temps réel des perturbations de disponibilité en cours et terminées, y compris la dégradation des machines virtuelles. Cette fonctionnalité vous permet de surveiller et de gérer efficacement les temps d'arrêt, en prenant en charge l'atténuation automatisée, les enquêtes et l'analyse post-mortem.

Pour commencer à suivre votre parcours d’observabilité, vous pouvez explorer la suite de produits Azure vers lesquels nous émettons des données d’intégrité de machine virtuelle de haute qualité. Ces produits incluent l’intégrité des ressources, les journaux d’activité, azure resource graph, les métriques Azure Monitor et la rubrique système Azure Event Grid.

En savoir plus sur l’initiative Flash

S’il vous plaît rester à l’écoute pour plus d’annonces sur l’initiative Flash, en suivant les mises à jour de la série de fiabilité avancée !

  • Explore

     

    Let us know what you think of Azure and what you would like to see in the future.

     

    Provide feedback

  • Build your cloud computing and Azure skills with free courses by Microsoft Learn.

     

    Explore Azure learning


Join the conversation

Leave a Reply

Your email address will not be published. Required fields are marked *