Flash, como se conoce al proyecto internamente, deriva su nombre de nuestro firme compromiso con la creación de un mecanismo sólido, confiable y rápido para que los clientes supervisen el estado de las máquinas virtuales (VM).
Nuestro objetivo principal es garantizar que los clientes puedan acceder a datos de telemetría accionables y precisos de forma confiable, recibir alertas sobre los cambios rápidamente y supervisar periódicamente los datos a gran escala. También hacemos hincapié en desarrollar una experiencia centralizada y coherente que los clientes puedan usar convenientemente para satisfacer sus requisitos de observabilidad únicos.
Protección del estado de la máquina virtual con Azure
Para empezar a trabajar en el recorrido de observabilidad, puede explorar el conjunto de productos de Azure a los que emitimos datos de mantenimiento de máquinas virtuales de alta calidad. Estos productos incluyen el estado de los recursos, los registros de actividad, el grafo de recursos de Azure, las métricas de Azure Monitor y Azure Event Grid.
Estamos encantados de revelar los emocionantes desarrollos que nuestro equipo ha estado elaborando durante el último año! A continuación se muestra un vistazo a lo que hemos estado trabajando:
- Supervisión mejorada de la disponibilidad de las máquinas virtuales: hemos introducido una nueva característica que mantiene un ojo atento para la degradación de la disponibilidad de las máquinas virtuales. Advierte proactivamente del posible impacto en la disponibilidad o el rendimiento.
- Versión preliminar pública de HealthResources event grid: estamos iniciando una versión preliminar pública del tema del sistema de Event Grid HealthResources. Esta característica ofrece notificaciones de baja latencia en los cambios de disponibilidad de la máquina virtual, lo que le permite realizar acciones de mitigación rápidas cuando sea necesario.
- Visibilidad mejorada de las inmovilizaciones de aplicaciones: ahora se envían notificaciones cuando se producen inmovilizaciones de aplicaciones durante las actualizaciones de red y agente de almacenamiento. Esta visibilidad mejorada le ayuda a administrar las interrupciones con mayor claridad.
Nuestro compromiso con la calidad sigue siendo inquebrantable. Tenemos como objetivo mantener la coherencia de los datos del 100 % y mantener rigurosos estándares de calidad en todas las experiencias flash.
"El año pasado, proporcionamos una actualización de Project Flash en la serie de blog De avance de confiabilidad, haciendo hincapié en nuestra dedicación para permitir a los clientes de Azure diagnosticar interrupciones en la disponibilidad de máquinas virtuales (VM) de forma cómoda y rápida. En la actualidad, estamos encantados de compartir los últimos avances en la mejora de la supervisión de la disponibilidad de las máquinas virtuales para que los clientes confíen con confianza en el funcionamiento sin problemas de sus cargas de trabajo en Azure. He pedido al director de programas técnicos sénior, Pujitha Desiraju, del equipo de aspectos básicos de la plataforma principal de Azure para compartir las inversiones más recientes realizadas como parte de Project Flash".—Mark Russinovich, CTO, Azure.
Introducción al estado de disponibilidad de máquina virtual degradado para mejorar la supervisión de la disponibilidad de las máquinas virtuales
Como resultado de nuestros esfuerzos continuos para mejorar la detección de estado de la máquina virtual, nos complace revelar una mejora significativa en la calidad con la introducción del estado de disponibilidad de máquina virtual degradado. Esta nueva característica aprovecha los modelos de detección de anomalías basadas en aprendizaje automático para predecir las degradaciones de la máquina virtual debido a problemas de hardware que afectan al servidor host subyacente, como la unidad de procesamiento central (CPU), el disco o los problemas de memoria. Hemos integrado sin problemas esta característica en Azure Resource Graph, Event Grid, registros de estado de recursos y actividad, complementando las anotaciones de estado de la máquina virtual que ya fluyen.
Con la adición de esta característica, supervisar el estado de la máquina virtual y comprender por qué se degrada se ha vuelto más fácil que nunca. Las vistas proporcionadas en todas las experiencias flash mejoran la facilidad de detección de si la degradación de la máquina virtual es el resultado de un evento planeado o no planeado. Las vistas también identifican eficazmente el componente específico responsable, ofrecen pasos de mitigación accionables y proporcionan una fecha precisa de reimplementación para evitar interrupciones operativas.
A la espera de 2024, tenemos previsto ampliar nuestro enfoque para abarcar redes aceleradas inoperables y nuevos escenarios de predicciones de errores de hardware. Además, tenemos previsto incorporar el estado degradado como una dimensión dentro de la métrica de disponibilidad de la máquina virtual en Azure Monitor, lo que mejora la precisión de la atribución de tiempo de inactividad.
Versión preliminar pública de las notificaciones de Event Grid de baja latencia en los cambios de disponibilidad de máquinas virtuales
Para garantizar el funcionamiento sin problemas de las aplicaciones críticas para la empresa, es fundamental tener conocimiento en tiempo real de cualquier evento que pueda afectar negativamente a la disponibilidad de las máquinas virtuales. Esta conciencia le permite realizar rápidamente acciones correctivas para proteger a los usuarios finales de cualquier interrupción. Para ayudarle en sus operaciones diarias, estamos encantados de anunciar la versión preliminar pública del tema healthResources event grid system con anotaciones de estado de máquina virtual recién agregadas.
En este tema del sistema se proporcionan datos detallados de máquina virtual datos de mantenimiento, lo que proporciona información inmediata sobre los cambios en los estados de disponibilidad de la máquina virtual junto con el contexto necesario. Puede recibir eventos en máquinas virtuales de instancia única y máquinas virtuales del conjunto de escalado de máquinas virtuales para la suscripción de Azure en la que se ha creado este tema. Los datos se publican en este tema mediante Azure Resource Notifications (ARN), nuestro servicio de publicador-suscriptor de última generación, equipado con sólidas funcionalidades de filtrado basado en rol (RBAC) y filtrado avanzado. Esto le permite suscribirse sin esfuerzo a un tema del sistema de Event Grid y dirigir sin problemas los eventos pertinentes mediante las funcionalidades de filtrado avanzadas proporcionadas por Event Grid, a las herramientas de bajada en tiempo real. Esto le permite responder y mitigar los problemas al instante.
Introducción
Paso 1:
Los usuarios comienzan creando un tema del sistema dentro de la suscripción de Azure para la que quieren recibir notificaciones.
Paso 2:
A continuación, los usuarios continúan con la creación de una suscripción de eventos en el tema del sistema en el paso 1. Durante este paso, especificarán el punto de conexión (por ejemplo, Event Hubs) al que se enrutarán los eventos. Los usuarios también tienen la opción de configurar filtros de eventos para restringir el ámbito de los eventos entregados.
A medida que empiece a suscribirse a eventos del tema del sistema HealthResources, tenga en cuenta los procedimientos recomendados siguientes:
- Elija un destino o controlador de eventos adecuado en función de la escala y el tamaño previstos de los eventos.
- En escenarios de fan-in en los que es necesario consolidar las notificaciones de varios temas del sistema, se recomienda encarecidamente event hubs como destino. Esto es especialmente útil para escenarios de procesamiento en tiempo real para mantener la actualización de datos y para el procesamiento periódico para el análisis, con períodos de retención configurables.
Con miras a 2024, tenemos planes para realizar la transición de la versión preliminar a una característica de disponibilidad general totalmente completa.
Visibilidad mejorada de las inmovilizaciones de aplicaciones
Es fundamental tener visibilidad sobre los eventos que podrían requerir un reinicio del sistema o aquellos que podrían provocar inmovilizaciones del sistema, especialmente cuando se ejecutan cargas de trabajo confidenciales. Estamos encantados de introducir anotaciones de estado de máquina virtual en el impacto inmovilizado, en escenarios específicos de actualizaciones planeadas del agente de almacenamiento y de red. Estas notificaciones se entregan a Resource Health, Azure Resource Graph y Event Grid.
Con esta nueva característica, tendrá acceso a información detallada sobre el impacto y la atribución de inmovilizaciones del sistema. Esta información incluye si la actividad estaba planeada o no planeada, si se completó correctamente, la duración precisa del impacto según lo observado por usted y los detalles sobre el tipo de actualización aplicado. Esto le permite supervisar e investigar las inmovilizaciones de aplicaciones observadas al mismo tiempo que recibe alertas dirigidas para cualquier evento de inmovilización.
Con miras a 2024, estamos comprometidos a ampliar la gama de escenarios para los que se emiten estas notificaciones.
Resumen de la solución Flash
La iniciativa Flash se ha dedicado a desarrollar soluciones a lo largo de los años que satisfacen las diversas necesidades de supervisión de nuestros clientes. Para ayudarle a determinar las soluciones de supervisión flash más adecuadas para sus requisitos específicos, consulte a continuación:
Azure Resource Graph: HealthResources
Actualmente, generalmente está disponible. Resulta especialmente útil para realizar investigaciones a gran escala. Ofrece una experiencia muy fácil de usar para recuperación de información con su uso de lenguaje de consulta kusto (KQL). También puede servir como punto central para la información sobre recursos y permite recuperar fácilmente los datos históricos.
Tema del sistema de Azure Event Grid: HealthResources
Actualmente en versión preliminar pública. Resulta útil para desencadenar acciones de mitigación críticas y sensibles al tiempo, como la reimplementación y el reinicio de la máquina virtual, para evitar interrupciones del usuario final. Los clientes pueden recibir alertas en cuestión de segundos de cambios críticos en la disponibilidad de los recursos.
Azure Monitor: métrica de disponibilidad de máquinas virtuales
Actualmente en versión preliminar pública. Es adecuado para el seguimiento de tendencias, la agregación de métricas de plataforma (como el uso de CPU y disco) y la configuración de alertas precisas basadas en umbrales. Los clientes pueden usar esta métrica de disponibilidad de máquina virtual integrada en Azure Monitor.
Azure Resource Health
Actualmente disponible con carácter general. Ofrece comprobaciones de estado inmediatas y fáciles de usar para los recursos individuales a través del portal. Los clientes pueden acceder rápidamente a la hoja de estado de los recursos en el portal y revisar también un registro histórico de 30 días de las comprobaciones de estado, lo que lo convierte en una herramienta excelente para una solución de problemas rápida y sencilla.
Facilitar la supervisión holística de la disponibilidad de máquinas virtuales
Para un enfoque holístico de la supervisión de la disponibilidad de las máquinas virtuales, incluidos escenarios de mantenimiento rutinario, migración en vivo, recuperación del servicio y degradación de la máquina virtual, se recomienda usar eventos programados (SE) y eventos de estado de Flash.
Los eventos programados están diseñados para ofrecer una advertencia temprana, dando un aviso de hasta 15 minutos antes de las actividades de mantenimiento. Este plazo le permite tomar decisiones fundamentadas sobre el próximo tiempo de inactividad, lo que le permite evitarlo o prepararse para él. Tiene la flexibilidad de reconocer estos eventos o retrasar las acciones durante este período de 15 minutos, en función de su preparación para el próximo mantenimiento.
Por otro lado, los eventos de estado de Flash se centran en el seguimiento en tiempo real de las interrupciones de disponibilidad continuas y completadas, incluida la degradación de la máquina virtual. Esta característica le permite supervisar y administrar de forma eficaz el tiempo de inactividad, la compatibilidad con la mitigación automatizada, las investigaciones y el análisis posterior al hecho.
Para empezar a trabajar en el recorrido de observabilidad, puede explorar el conjunto de productos de Azure a los que emitimos datos de mantenimiento de máquinas virtuales de alta calidad. Estos productos incluyen el estado de los recursos, los registros de actividad, el grafo de recursos de Azure, las métricas de Azure Monitor y el tema del sistema de Azure Event Grid.
Más información sobre la iniciativa Flash
Por favor, manténgase atento para obtener más anuncios sobre la iniciativa Flash, mediante el seguimiento de las actualizaciones de la serie de confiabilidad avanzada.