應用(yòng)案例

經過20多(duō)年的發展,寶德(dé)持續而深刻地把握市場需求,積累了海量的客戶資源和豐富的服務(wù)經驗

某大學(xué)科(kē)研平台解決方案
案例背景

某大學(xué)某學(xué)院拟建設科(kē)研人工(gōng)智能(néng)共享共建平台,面向全院提供計算資源服務(wù),軟件基于K8S架構,可(kě)實現計算資源集中(zhōng)管理(lǐ)、靈活分(fēn)配,支持定制開發,支持多(duō)用(yòng)戶使用(yòng)等。此次建設需把學(xué)院前期購(gòu)置的一台GPU服務(wù)器,一台40T容量的服務(wù)器納管進來,形成平台系統,達到:

1) 統一平台管理(lǐ),由基礎設施層作(zuò)為(wèi)整個平台的支撐,通過雲平台對底層資源進行靈活的調度管理(lǐ),通過系統功能(néng)層為(wèi)用(yòng)戶端和管理(lǐ)端降低 AI 技(jì )術門檻,釋放AI 技(jì )術潛力;
2) 解決“信息孤島”,實現信息共享,提高信息安(ān)全水平,提升科(kē)研體(tǐ)驗,提高工(gōng)作(zuò)效率;
3) 通過新(xīn)平台建設降低成本、提升效率、節能(néng)減排,滿足學(xué)院科(kē)研資源充分(fēn)利用(yòng)的要求。

案例分(fēn)析

寶德(dé)HPC解決方案拓撲圖

解決方案

該方案平台使用(yòng)寶德(dé)PLStack實現,由管理(lǐ)系統和業務(wù)系統組成,将兩者從底層IT資源中(zhōng)分(fēn)離開來,以提高管理(lǐ)系統的可(kě)移植性和業務(wù)系統的後期擴展性。集群拓撲設計從浮點計算能(néng)力強、GPU卡管理(lǐ)便捷、擴展豐富三個原則出發,将計算資源和管理(lǐ)資源進行分(fēn)離,同時管理(lǐ)網絡與計算網絡分(fēn)開,避免管理(lǐ)對計算網絡資源的擠占,集群網絡分(fēn)為(wèi):計算網絡、管理(lǐ)網絡兩個平面:


計算網絡:單口100Gb IB彙聚鏈路,用(yòng)于連接所有(yǒu)GPU計算節點,同時提供塊設備、對象存儲等服務(wù);

管理(lǐ)網絡:雙口千兆彙聚鏈路,用(yòng)于管理(lǐ)人工(gōng)智能(néng)平台中(zhōng)的所有(yǒu)節點,為(wèi)管理(lǐ)員提供 Web 控制台;

客戶收益

高帶寬、低延遲

(1)計算網絡采用(yòng)了100Gb/s的高帶寬IB網絡,大大提高了各節點之間的通信能(néng)力,降低了延遲,并且通過IB交換機實現所有(yǒu)GPU計算節點的全互聯;


高擴展性

(2)能(néng)夠根據用(yòng)戶需求靈活對現有(yǒu)的計算資源和存儲空間進行擴展,彈性靈活;


高性價比

(3)新(xīn)平台建設将閑置資源進行統一納管并二次利用(yòng),為(wèi)客戶降低成本、提高資源利用(yòng)率,滿足學(xué)院科(kē)研資源充分(fēn)利用(yòng)的要求;