應用(yòng)案例

經過20多(duō)年的發展,寶德(dé)持續而深刻地把握市場需求,積累了海量的客戶資源和豐富的服務(wù)經驗

寶德(dé) HPC 方案助力石油勘探軟件加速
案例背景

易源興華公(gōng)司是我國(guó)石油勘探領域内一支強有(yǒu)力的研發隊伍,其在地震偏移處理(lǐ)及解釋方面開發了一套獨有(yǒu)的高效軟件,代表了在這一領域的最高技(jì )術水平。公(gōng)司主要客戶涵蓋中(zhōng)國(guó)海洋石油、中(zhōng)國(guó)石油等石油勘探研究所。石油勘探系統包括三個環節:數據采集、地震偏移處理(lǐ)、成像解釋。其中(zhōng)的關鍵應用(yòng)為(wèi)地震偏移處理(lǐ)。寶德(dé)集群主要支持後兩者。地震偏移處理(lǐ)對計算機廠商(shāng)的要求最為(wèi)苛刻,要求計算機具(jù)備高 IO 帶寬,高計算能(néng)力。一直以來,SGI、SUN、IBM 等國(guó)際 IT 巨頭憑借多(duō)年來在該領域積累的經驗壟斷了這一市場,包括易源興華公(gōng)司在内的石油行業一直采用(yòng)國(guó)外産(chǎn)品。近年來,我國(guó)開始自主研發石油系統地震偏移處理(lǐ)軟件,力求打破了國(guó)際軟件廠商(shāng)的壟斷。在硬件方面,國(guó)産(chǎn)廠商(shāng)也不斷發力,縮小(xiǎo)了同國(guó)際廠商(shāng)之間的差距,開始登上石油勘探領域的舞台。在認真分(fēn)析客戶需求的基礎上,寶德(dé)打出了一套組合牌,成功赢得這個項目。

案例分(fēn)析

在了解 CGG、Omega 等地震偏移軟件方面的資料後發現石油行業高性能(néng)計算應用(yòng),要求硬件設備具(jù)備以下幾個特性:
節點的高可(kě)靠性,避免計算節點和管理(lǐ)節點頻繁死機。
I/O 的高并發及高帶寬訪問,由于節點數較多(duō),存儲系統不僅需要滿足高并發的讀寫訪問需求,而且還要提供高帶寬的讀寫相應能(néng)力具(jù)有(yǒu)便捷的集群管理(lǐ)方案,提供簡單易用(yòng)的集群管理(lǐ)工(gōng)具(jù)和接口。
多(duō)套針對不同應用(yòng)的網絡,數據網、計算網和管理(lǐ)網分(fēn)離,互相無幹擾。
針對上述應用(yòng)分(fēn)析的結果,我們設計了一套高性能(néng)計算集群整體(tǐ)解決方案。

解決方案

計算部分(fēn)包含 50 台 2U 機架式 CPU 計算節點,10 台 2U 機架式 GPU 計算節點及相應輔助節點。共擁有(yǒu) 20Tflops 的計算能(néng)力。其中(zhōng)每台 CPU 計算節點根據應用(yòng)特點,特别設計了由 7 塊高速 SAS 盤做 RAID0 組成的高性能(néng)本地數據盤。每台 GPU 計算節點,特别設計了由3 塊 GPU 加速的高性能(néng)異構計算環境。網絡部分(fēn)采用(yòng)網絡分(fēn)離結構,包括管理(lǐ)網和計算網。管理(lǐ)網絡設計使用(yòng)最普遍的千兆以太網作(zuò)為(wèi)整個集群的管理(lǐ)網。它保障了所有(yǒu)節點最基本的互通互聯需求,方便了管理(lǐ)員遠(yuǎn)程登陸。同時也肩負操作(zuò)硬件底層芯片實現遠(yuǎn)程開關機等功能(néng)的重任。計算網絡全部使用(yòng)萬兆低延遲無阻塞以太網作(zuò)為(wèi)數據傳輸通路,使數據無阻塞、高效快速的轉發。保障了集群所有(yǒu)節點之間的數據的高速可(kě)靠傳遞。通過以上網絡配置的組合。存儲部分(fēn)基于高性能(néng)計算集群的“統一數據池”的特點,針對目前石油勘探計算平台的現狀以及未來的發展趨勢。為(wèi)了有(yǒu)效相應前端數以百計的計算節點大規模高并發長(cháng)時間訪問的需求。後端存儲既要具(jù)有(yǒu)高帶寬的特性,又(yòu)要有(yǒu)高 IOPS 的特性。傳統的 SAN 文(wén)件系統和 NAS 文(wén)件系統是遠(yuǎn)遠(yuǎn)無法滿足實際需求的。寶德(dé)設計了一套分(fēn)布式的海量存儲系統。整套系統可(kě)提供 256TB的可(kě)使用(yòng)空間,以及 5GBps 的實際使用(yòng)帶寬,保證數據調用(yòng)的暢通無阻。存儲具(jù)有(yǒu)大容量文(wén)件共享、高效海量并發訪問、可(kě)定制的數據安(ān)全性保證、低總體(tǐ)擁有(yǒu)成本、方便的系統管理(lǐ)等諸多(duō)特點。軟件部分(fēn)我們采用(yòng)聯科(kē)的 Chess 軟件。Chess 集群軟件系統是對高性能(néng)計算行業,耗時多(duō)年開發出來的一套功能(néng)完善的大規模服務(wù)器集群管理(lǐ)軟件。它擁有(yǒu)強大的工(gōng)作(zuò)負載管理(lǐ)平台,簡化了 HPC 集群管理(lǐ)。它為(wèi)客戶提供了全方位的集群監控管理(lǐ)、作(zuò)業調度等功能(néng)。可(kě)以精(jīng)細展現當前集群運行狀态,動态顯示監控信息,記錄曆史錯誤信息,及時發現集群的異常狀況。在集群軟件系統的管理(lǐ)平台中(zhōng),整合了集群監控,作(zuò)業提交,節點監控,web 遠(yuǎn)程登陸等功能(néng)。

客戶收益

方案綜合考慮了大規模集群系統的瓶頸問題,消除了計算節點,網絡,存儲和軟件上的諸多(duō)瓶頸。
解決了管理(lǐ)節點和計算節點因内存占用(yòng)導緻的頻繁死機問題。
I/O 帶寬和 IOPS 能(néng)力顯著增加。有(yǒu)效解決了了存儲端拖慢整個集群情況。
在集群管理(lǐ)方面,提供了簡單易用(yòng)的集群管理(lǐ)工(gōng)具(jù)和接口。
計算網和管理(lǐ)網分(fēn)離,互相無幹擾。