高效能運算的新款 HBv2 Azure 虛擬機器簡介

在 八月 8, 2019 上貼文

Principal Program Manager, Azure HPC

宣布第二代高效能運算 (HPC) 的 HB 系列 Azure 虛擬機器。HBv2 虛擬機器的設計宗旨,在於為各式各樣實際的 HPC 工作負載,提供領先等級的效能、訊息傳遞介面 (MPI) 延展性,以及良好的成本效益。

HBv2 虛擬機器配備有 120 個 AMD EPYC™ 7002 系列 CPU 核心、480 GB 的 RAM、480 MB 的 L3 快取,但沒有同步多執行緒 (SMT)。HBv2 虛擬機器提供最高每秒 350 GB 的記憶體頻寬,其相較於 x86 的其他方法來說,多了 45-50%,同時相對於現今大多數 HPC 客戶資料中心來說,快上三倍。

大小 CPU 核心數 記憶體:GB 每個 CPU 核心的記憶體:GB 本機 SSD:GiB RDMA 網路 Azure 網路
Standard_HB120rs 120 480 GB 4GB 1.6 TB 200 Gbps 40 Gbps

‘r’ 表示支援 RDMA。‘s’ 表示支援進階 SSD 磁碟。

每部 HBv2 虛擬機器 (VM) 也配備有最高 4 teraFLOPS 的雙精確度效能,以及最高 8 teraFLOPS 的單精確度效能。其四倍於我們第一代的 HB 系列虛擬機器,同時大幅增進了需要最高速記憶體應用程式的效能,以及領先等級的運算密度。

以下為 HBv2 在幾個一般 HPC 應用程式及網域上的基本基準:

效能比較橫條圖

為達到大規模訊息傳遞介面 (MPI) 的最佳效能,HBv2 虛擬機器採用技術合作夥伴 Mellanox 每秒 200 Gb 的 HDR InfiniBand。HBv2 虛擬機器所運用的 InfiniBand 網狀架構,是非區塊分階層頻寬 (fat-tree) 的低直徑設定,能維持不變的超低延遲。客戶可以如同裸機環境下一般地使用標準 Mellanox/OFED 驅動程式。HBv2 虛擬機器正式支援 RDMA Verbs,因此能支援所有 InfiniBand 型的 MPI,例如 OpenMPIMVAPICH2Platform MPIIntel MPI。客戶也可善用 MPI 集合不再需要硬體的方式,實現額外的效能,以及讓市售的應用程式效率更佳。

客戶可以在最多 36,000 個核心的 HBv2 虛擬機器上,針對整個單一虛擬機器擴展集,執行一個 MPI 作業。對我們最大的四位客戶來說,HBv2 虛擬機器能為單一作業支援最高 80,000 個核心。

客戶也可使用 SRIOV 型加速網路 (Azure 中),將 HBv2 虛擬機器的乙太網路介面發揮到極致,產生最高每秒 40 Gb 的頻寬,同時維持不變的低延遲。

最後,新款 H 系列虛擬機器於本機配備有 NVMe SSD,能為所有範圍的檔案大小與 I/O 模式,提供超快速的暫存位置。新款 H 系列虛擬機器運用新式高載緩衝技術 (像是 BeeGFS BeeOND),可以為單一虛擬機器擴展集,實現超過每秒 900 GB 的尖峰注入 I/O 效能。新款 H 系列虛擬機器也支援 Azure 進階 SSD 磁碟。

客戶可透過各式各樣 Azure HPC 小組已最佳化且預先設定的資源,加速其 HBv2 的部署。我們預先建置的 CentOS HPC 映像,已調整為最佳效能,同時搭配了主要的 HPC 工具,像是各式 MPI 程式庫、編譯器以及其他。Azure HPC 專案可協助客戶能可靠且快速地從頭到尾部署 Azure HPC 環境,同時包含部署指令碼可設定網路、運算、排程器與儲存體的建置組塊。而且也內含持續擴增的教學課程清單,供客戶本身執行 HPC 應用程式之用。

對於熟悉 HPC 排程器且希望搭配 HBv2 虛擬機器一起使用的客戶來說,Azure CycleCloud 是能協調自動調整叢集的最簡單方法。Azure CycleCloud 支援像是 Slurm、PBSPro、LSF、GridEngine 及 HTCondor 等排程器,能實現客戶希望將 HBv2 虛擬機器與其現有內部部署叢集相配對的混合式部署需要。新款 H 系列虛擬機器也受 Azure Batch 的支援,可進行雲端原生的批次處理。所有 Azure 平台合作夥伴都將可享用 HBv2 虛擬機器。

客戶只要塡妥此表單,即可立即註冊使用 HBv2。HBv2 虛擬機器一開始會先提供美國中南部與歐洲西部 Azure 區使用,之後會迅速於其他區域推出。