解決方案

以客戶為(wèi)中(zhōng)心,提供定制化或一站式的全棧解決方案,賦能(néng)千行百業

寶德(dé)高性能(néng)集群解決方案
項目背景

高性能(néng)計算(High performance computing) 指通常使用(yòng)很(hěn)多(duō)處理(lǐ)器(作(zuò)為(wèi)單個機器的一部分(fēn))或者某一集群中(zhōng)組織的幾台計算機(作(zuò)為(wèi)單個計算資源操作(zuò))的計算系統和環境。高性能(néng)集群上運行的應用(yòng)程序一般使用(yòng)并行算法,把一個大的普通問題根據一定的規則分(fēn)為(wèi)許多(duō)小(xiǎo)的子問題,在集群内的不同節點上進行計算,而這些小(xiǎo)問題的處理(lǐ)結果,經過處理(lǐ)可(kě)合并為(wèi)原問題的最終結果。由于這些小(xiǎo)問題的計算一般是可(kě)以并行完成的,從而可(kě)以縮短問題的處理(lǐ)時間。高性能(néng)計算在一個國(guó)家的科(kē)研中(zhōng)居于基礎性地位,是科(kē)技(jì )創新(xīn)的動力源之一。以E級超級計算機為(wèi)代表的高性能(néng)計算具(jù)有(yǒu)廣闊的應用(yòng)前景,有(yǒu)望在氣候科(kē)學(xué)、可(kě)再生能(néng)源、基因組學(xué)、天體(tǐ)物(wù)理(lǐ)學(xué)以及人工(gōng)智能(néng)等領域“大顯身手”。

方案介紹

寶德(dé)公(gōng)司力推的高性能(néng)集群是專門為(wèi)滿足大規模分(fēn)析計算而設計的超級并行計算機集群系統,它遵循 Intel 開放的 HPC 生态體(tǐ)系架構來系統的部署所有(yǒu)的軟硬件:采用(yòng)Intel 基于酷睿架構的雙路 Xeon 和多(duō)路 Xeon 作(zuò)為(wèi)計算節點。寶德(dé)高性能(néng)計算集群采用(yòng)集群體(tǐ)系結構,通過标準開放的高速網絡實現互連,運行開放源代碼的 Linux 系統,對外提供單一系統接口,它針對大規模科(kē)學(xué)并行計算設計,兼顧事務(wù)處理(lǐ)和網絡信息服務(wù)。

該方案主要通過構建管理(lǐ)節點、計算節點、以及分(fēn)布式存儲資源池,構建計算力高達100Tflops以上的計算能(néng)力高性能(néng)計算集群,存儲采用(yòng)高性能(néng)低延遲得SSD分(fēn)布式存儲池,以及大容量得HDD分(fēn)布式存儲池。滿足對于高性能(néng)計算力以及高速存儲IO帶寬的需求。

方案解析

【硬件部分(fēn)】

計算節點:CPU計算節點

管理(lǐ)節點:雙路服務(wù)器

登陸節點:雙路服務(wù)器

存儲節點:分(fēn)布式并行存儲

網絡系統:包含以太網絡系統、 光纖存儲網絡、機櫃、PDU等

【軟件部分(fēn)】

操作(zuò)系統:CentOS 7

集群軟件:資源管理(lǐ)與調度軟件Powercloud

開發環境:Fortran/C/C++等

并行環境:OpenMP、OpenMPI、MVPAICH2等MPI并行環境

文(wén)件系統:分(fēn)布式并行文(wén)件系統

應用(yòng)軟件:客戶自帶應用(yòng)軟件

方案優勢
  • 高帶寬、低延遲

    計算網絡采用(yòng)高速的100G IB網絡,确保用(yòng)戶的計算任務(wù)在運行過程中(zhōng)不受網絡帶寬的限制,業務(wù)網絡使用(yòng)25G以太網路,延遲低速度快。兩層高速網絡保障集群中(zhōng)所有(yǒu)節點無阻塞、全線(xiàn)速的運行,可(kě)充分(fēn)滿足高速互聯的需求。

  • 高性能(néng)、高擴展

    計算節點由寶德(dé)四路服務(wù)器組成,每台四路服務(wù)器可(kě)支持4個英特爾可(kě)擴展系列處理(lǐ)器,以及最大96個内存插槽,多(duō)核心計算能(néng)力和大内存運行能(néng)力,為(wèi)要求苛刻的HPC和橫向擴展工(gōng)作(zuò)負載提供動力。

  • 存儲容量高、靈活性強

    存儲資源分(fēn)為(wèi)兩個分(fēn)布式資源池,其中(zhōng)SSD存儲池運行重要數據和熱數據,HDD存儲池保存冷數據和大容量數據,同時兼顧IO性能(néng)和容量。

  • 高可(kě)靠、易維護

    整套集群采用(yòng)多(duō)種可(kě)靠性設計方案大幅度提升系統的可(kě)靠性,确保系統無單點故障。同時為(wèi)用(yòng)戶提供簡單易用(yòng)的使用(yòng)和維護接口,降低系統的使用(yòng)維護門檻,提高整套系統的維護效率