Si los desafíos de acceso a datos le han impedido ejecutar trabajos de informática de alto rendimiento (HPC) en Azure, ¡tenemos buenas para usted! El servicio Microsoft Azure HPC Cache, ahora disponible, le permite ejecutar las cargas de trabajo más exigentes en Azure sin el tiempo y el costo que implica la reescritura de aplicaciones y mientras almacena los datos donde desea, ya sea en Azure o en su almacenamiento local. Al minimizar la latencia entre el proceso y el almacenamiento, el servicio HPC Cache ofrece fácilmente el acceso a datos de alta velocidad requerido para ejecutar las aplicaciones HPC en Azure.
Uso de Azure para ampliar la capacidad analítica sin preocuparse del acceso a los datos
La mayoría de los equipos de HPC reconocen el potencial de la explosión de la nube para expandir la capacidad analítica. Si bien muchas organizaciones aprovecharían las ventajas de capacidad y escala de ejecutar trabajos informáticos en la nube, los usuarios se han visto limitados por el tamaño de sus conjuntos de datos y la complejidad de proporcionar acceso a esos conjuntos de datos, generalmente almacenados en recursos de almacenamiento conectado a la red (NAS) de larga duración. Estos entornos NAS a menudo contienen petabytes de datos recopilados durante un largo período de tiempo y representan una importante inversión en infraestructura.
Aquí es donde el servicio HPC Cache puede ayudar. Piense en el servicio como una memoria caché perimetral que proporciona acceso de baja latencia a los datos de archivo POSIX procedentes de una o más ubicaciones, incluidos los NAS locales y los datos archivados en Azure Blob Storage. HPC Cache facilita el uso de Azure para aumentar el rendimiento analítico, incluso a medida que se expanden el tamaño y el alcance de sus datos accionables.
Mantenerse al día con el tamaño y el ámbito en expansión de los datos accionables
La tasa de adquisición de nuevos datos en ciertos sectores, como las ciencias biológicas, continúa aumentando el tamaño y el ámbito de los datos accionables. Los datos accionables, en este caso, podrían ser conjuntos de datos que requieren análisis e interpretación posteriores a la recopilación que, a su vez, dan lugar a una la actividad ascendente. Un genoma secuenciado, por ejemplo, puede acercarse a cientos de gigabytes. A medida que la tasa de actividad de secuenciación aumenta y se vuelve más paralela, la cantidad de datos que hay que almacenar e interpretar también crece, y su infraestructura tiene que mantenerse al día. Su eficacia para recopilar, procesar e interpretar datos accionables (su capacidad analítica) afecta directamente a la capacidad de su organización para satisfacer las necesidades de los clientes y aprovechar las nuevas oportunidades empresariales.
Algunas organizaciones abordan los requisitos de rendimiento analítico en expansión mediante la implementación continua de un entorno HPC local más robusto con redes de alta velocidad y almacenamiento eficaz. Pero para muchas empresas, la expansión de los entornos locales presenta desafíos cada vez más desalentadores y costosos. Por ejemplo, ¿cómo puede pronosticar con precisión y abordar de manera más económica los nuevos requisitos de capacidad? ¿Cuál es la mejor manera de hacer malabarismos con los ciclos de vida de los equipos con ráfagas de demanda? ¿Cómo puede asegurarse de que el almacenamiento se mantenga al día (en términos de latencia y rendimiento) con las demandas de proceso? ¿Y cómo puede administrarlo todo con un presupuesto y recursos de personal limitados?
Los servicios de Azure pueden ayudarlo a expandir de manera más fácil y rentable su rendimiento analítico más allá de la capacidad de la infraestructura HPC existente. Puede usar herramientas como Azure CycleCloud y Azure Batch para organizar y programar trabajos informáticos en máquinas virtuales (VM) de Azure. Administre de manera más efectiva el costo y la escala mediante el uso de máquinas virtuales de baja prioridad, así como con conjuntos de escalado de máquinas virtuales de Azure. Use las máquinas virtuales de las series H y N más recientes de Azure para cumplir los requisitos de rendimiento para sus cargas de trabajo más complejas.
¿Cómo empieza entonces? Es muy sencillo. Conecte su red a Azure a través de ExpressRoute, determine qué máquinas virtuales usará y coordine los procesos mediante CycleCloud o Batch; y aquí está, su entorno HPC flexible está listo para funcionar. Todo lo que necesita hacer es alimentarlo con datos. Es cierto, esta es la parte complicada. Aquí es donde necesita el servicio HPC Cache.
Uso de HPC Cache para garantizar un acceso rápido y coherente a los datos
La mayoría de las organizaciones reconocen las ventajas del uso de la nube: un entorno HPC flexible puede ofrecerle más capacidad analítica sin forzar nuevas inversiones de capital. Y Azure ofrece ventajas adicionales, lo que le permite aprovechar sus programadores actuales y otros conjuntos de herramientas para garantizar la coherencia de la implementación con el entorno local.
Pero aquí está el truco cuando se trata de datos. Sus bibliotecas, aplicaciones y ubicación de datos pueden requerir la misma coherencia. En algunas circunstancias, una canalización analítica local puede depender de rutas POSIX que deben ser las mismas, ya sea que se ejecuten en Azure o localmente. Los datos pueden estar vinculados entre directorios, y es posible que dichos vínculos deban implementarse de la misma manera en la nube. Los datos en sí pueden residir en varias ubicaciones y se deben agregar. Por encima de todo, la latencia de acceso debe ser coherente con lo que se puede lograr en el entorno de HPC local.
Para comprender cómo funciona HPC Cache para abordar estos requisitos, considérelo como una memoria caché perimetral que proporciona acceso de baja latencia a los datos del archivo POSIX procedentes de una o más ubicaciones. Por ejemplo, un entorno local puede contener un gran clúster de HPC conectado a una solución NAS comercial. HPC Cache permite el acceso desde esa solución NAS a Azure Virtual Machines, contenedores o rutinas de aprendizaje automático que funcionan a través de un vínculo WAN. El servicio logra esto almacenando en caché las solicitudes de los clientes (incluso desde las máquinas virtuales) y garantizando que la memoria caché atiende los accesos posteriores a esos datos en lugar de tener que volver a acceder al entorno NAS local. Esto le permite ejecutar sus trabajos de HPC con un nivel de rendimiento similar al que podría tener en su propio centro de datos. HPC Cache también le permite crear un espacio de nombres que consta de datos ubicados en varias exportaciones a través de diferentes fuentes, mostrando al mismo tiempo una estructura de directorio única a las máquinas cliente.
HPC Cache proporciona una memoria caché respaldada por blobs (que también llamamos Blob-as-POSIX) en Azure, lo que facilita la migración de canalizaciones basadas en archivos sin que sea necesario volver a escribir las aplicaciones. Por ejemplo, un equipo de investigación genética puede cargar datos de genoma de referencia en el entorno de blobs para optimizar aún más el rendimiento de los flujos de trabajo de análisis secundario. Esto ayuda a mitigar cualquier problema de latencia cuando inicia nuevos trabajos que dependen de un conjunto estático de bibliotecas o herramientas de referencia.
Arquitectura de Azure HPC Cache
Ventajas de HPC Cache
Rendimiento de almacenamiento en caché para cumplir los requisitos de las cargas de trabajo
HPC Cache ofrece tres SKU: rendimiento de hasta 2 gigabytes por segundo (GB/s), hasta 4 GB/s y hasta 8 GB/s. Cada una de estas SKU puede atender solicitudes de decenas a miles de máquinas virtuales, contenedores, etc. Además, usted elige el tamaño de los discos de caché para controlar los costos al tiempo que garantiza que dispone de la capacidad adecuada para el almacenamiento en caché.
Ráfagas de datos desde el centro de datos
HPC Cache captura datos de su NAS, donde sea que esté. Ejecute su carga de trabajo de HPC hoy y descubra sus políticas de almacenamiento de datos a largo plazo.
Conectividad de alta disponibilidad
HPC Cache proporciona conectividad de alta disponibilidad (HA) a los clientes, un requisito clave para ejecutar trabajos de proceso a escalas más grandes.
Espacio de nombres agregado
La funcionalidad de espacio de nombres agregado de HPC Cache le permite crear un espacio de nombres a partir de varios orígenes de datos. Esta abstracción de orígenes hace posible ejecutar varios entornos de HPC Cache con una vista de datos coherente.
Almacenamiento de menor costo, compatibilidad total de POSIX con Blob-as-POSIX
HPC Cache admite almacenamiento basado en blobs, totalmente compatible con POSIX. HPC Cache, mediante el uso del formato Blob-as-POSIX, mantiene la compatibilidad total con POSIX, incluidos los vínculos físicos. Si necesita este nivel de cumplimiento, podrá obtener POSIX completo a precios de blob.
Comenzar aquí
El servicio Azure HPC Cache está disponible hoy y se puede acceder a él ahora. Para obtener los mejores resultados, póngase en contacto con su equipo de Microsoft o los asociados relacionados, que lo ayudarán a crear una arquitectura global que satisfaga de manera óptima sus objetivos empresariales y los resultados deseados específicos.
Nuestros expertos asistirán a SC19 en Denver, Colorado, la conferencia sobre computación de alto rendimiento, ¡listos y ansiosos por ayudarlo a acelerar sus cargas de trabajo basadas en archivos en Azure!