解決方案

以客戶為(wèi)中(zhōng)心,提供定制化或一站式的全棧解決方案,賦能(néng)千行百業

寶德(dé)人工(gōng)智能(néng)管理(lǐ)平台 PLStack
産(chǎn)品概述

寶德(dé)依托強大的研發能(néng)力以及豐富的行業經驗,針對機器/深度學(xué)習科(kē)研、實訓教學(xué)等場景提供一站式解決方案。基于新(xīn)的設計理(lǐ)念,打造出一款功能(néng)完善的PLStack人工(gōng)智能(néng)管理(lǐ)平台,平台能(néng)提供端到端的流程化管理(lǐ),涵蓋數據标注、算法開發、模型訓練、模型管理(lǐ)、模型服務(wù)等AI完整生命周期流程支持。

PLStack平台采用(yòng)容器輕量級虛拟化方式作(zuò)為(wèi)基礎,實現對多(duō)集群多(duō)節點的GPU、CPU、内存、存儲等基礎設施資源池化;基于Kubernetes定制化開發的編排調度工(gōng)具(jù),實現資源高效靈活調度;同時企業級設計理(lǐ)念使平台具(jù)備多(duō)租戶多(duō)層級用(yòng)戶管理(lǐ)、權限管理(lǐ)、資源管理(lǐ)、vGPU等豐富的平台能(néng)力,全方位滿足用(yòng)戶對AI開發平台高可(kě)用(yòng)、高可(kě)靠、高穩定要求。大大緩解深度學(xué)習算法訓練的瓶頸,從而釋放人工(gōng)智能(néng)的全新(xīn)能(néng)力,讓用(yòng)戶不再因為(wèi)GPU的昂貴望而卻步。

平台為(wèi)用(yòng)戶提供簡潔的WEB界面,豐富的功能(néng)以及多(duō)樣化工(gōng)具(jù)。如開發模塊提供一鍵式環境生成、在線(xiàn)交互式開發工(gōng)具(jù)Mlab;模型訓練提供參數調優、分(fēn)布式并行訓練等;模型服務(wù)提供在線(xiàn)模型部署推理(lǐ)、模型服務(wù)調用(yòng);平台同時集成數據标注工(gōng)具(jù)、鏡像倉庫等,實現一站式AI開發。

同時深度學(xué)習框架鏡像以插件的方式接入系統,集成了多(duō)種業界常用(yòng)框架,如 Tensorflow,PyTorch ,Caffe和 MXnet等,支持自定義擴展,極大提升整體(tǐ)系統的擴展性和可(kě)維護性。

産(chǎn)品架構

PLStack AI平台整體(tǐ)分(fēn)為(wèi)三層:基礎設施層、資源調度層、平台功能(néng)層,架構如下圖:

基礎設施層主要包括物(wù)理(lǐ)機、虛拟機、存儲設備、網絡設備、一體(tǐ)機等資源,為(wèi)業務(wù)提供基礎算力支撐。

資源調度層借助Docker引擎實現CPU、GPU、内存、存儲等資源的輕量級虛拟化,基于Kubernetes 定制化研發實現對任務(wù)和資源的靈活編排調度,具(jù)有(yǒu)多(duō)租戶隔離、任務(wù)資源邏輯隔離等特點,結合高可(kě)靠的存儲服務(wù)、分(fēn)布式并行訓練服務(wù)等功能(néng)組件,為(wèi)上層業務(wù)功能(néng)模塊提供堅實的基石。

平台功能(néng)層提供端到端 AI科(kē)研流程支撐,其中(zhōng)用(yòng)戶端包含了開發模塊、AI框架、訓練模塊、數據管理(lǐ)模塊、模型服務(wù)模塊、鏡像倉庫、工(gōng)單管理(lǐ)等;管理(lǐ)端包含計量計費、多(duō)租戶管理(lǐ)、告警監控設置、平台運營運維等。

PLStack平台由管理(lǐ)端和業務(wù)端兩個系統組成。管理(lǐ)端為(wèi)平台管理(lǐ)員視圖,包括資源總覽、業務(wù)管理(lǐ)、産(chǎn)品管理(lǐ)、運維管理(lǐ)、配置管理(lǐ)、财務(wù)管理(lǐ)、安(ān)全中(zhōng)心等7個模塊;業務(wù)視圖為(wèi)普通用(yòng)戶視圖,包括賬号中(zhōng)心、資源總覽、開發環境、模型訓練、存儲管理(lǐ)、模型服務(wù)、模型管理(lǐ)、鏡像倉庫等八個模塊。如下圖所示。

方案架構圖

寶德(dé)人工(gōng)智能(néng)集群方案通過分(fēn)析用(yòng)戶的研究方向和實際需求,利用(yòng)PLStack AI管理(lǐ)軟件平台再結合寶德(dé)最新(xīn)一代服務(wù)器,打造了一套計算能(néng)力強、資源利用(yòng)率高、管理(lǐ)便捷和具(jù)有(yǒu)超高安(ān)全性的AI集群平台。

産(chǎn)品功能(néng)特性

1、提供對容器+鏡像的管理(lǐ),支持網頁(yè)端容器全生命周期管理(lǐ),對異構資源進行高效管理(lǐ)、調度、監控。

2、多(duō)數據中(zhōng)心管理(lǐ),用(yòng)戶可(kě)以選擇使用(yòng)某一數據中(zhōng)心的資源;同時具(jù)備3層組織架構管理(lǐ),如管理(lǐ)員、組織管理(lǐ)員、成員等,通過設定對組織及用(yòng)戶進行資源配額;

3、平台集成多(duō)種深度學(xué)習各種框架(如TensorFlow,pytorch,caffe,keras等)用(yòng)戶模型開發、模型訓練等;支持自定義框架擴展;

4、平台具(jù)備多(duō)種計費模式;提供完整的計量計費功能(néng),管理(lǐ)可(kě)通過計費模塊對GPU、CPU、内存等資源進行費用(yòng)設定,根據用(yòng)戶使用(yòng)時長(cháng)進行計費;

5、支持多(duō)個物(wù)理(lǐ)區(qū)域的GPU卡資源統一納管,統一分(fēn)配;支持單機單卡,單機多(duō)卡,多(duō)機多(duō)卡以及單GPU卡多(duō)用(yòng)戶共享方式分(fēn)配資源;以任務(wù)方式分(fēn)配計算資源;任務(wù)完成計算資源回收;

6、支持管理(lǐ)集群中(zhōng)GPU服務(wù)器及GPU卡的運行狀況,資源使用(yòng)情況,包含GPU總數/使用(yòng)數,GPU核心平均利用(yòng)率,GPU顯存平均利用(yòng)率等

7、支持用(yòng)戶按需設置深度學(xué)習環境,包括深度學(xué)習框架,網絡模型,GPU及CPU資源;訓練完成銷毀運行環境,釋放計算資源;支持快速創建深度學(xué)習環境,應用(yòng)程序及硬件資源相互隔離,獨立運行;

8、内置上百種各種優化AI算法,可(kě)滿足多(duō)個業務(wù)場景需求,降低用(yòng)戶門檻,提升AI開發效率

9、提供web端高效協同AI算法模型開發工(gōng)具(jù),提供Jupyter lab和jupyter notebook的集成,支持AI相關數據集成到Jupyter中(zhōng);。

10、支持web及shell提交訓練任務(wù),支持用(yòng)戶可(kě)以實時查看自己任務(wù)的運行結果;

11、支持可(kě)視化作(zuò)業管理(lǐ)、版本管理(lǐ)、克隆任務(wù)(參數管理(lǐ))等功能(néng),基于參數管理(lǐ)可(kě)以快速創建任務(wù),提升模型訓練任務(wù)的叠代效率;

12、支持基于常用(yòng)的AI算法框架及準備好的算法可(kě)以進行多(duō)版本任務(wù)參數調優,優化并增強機器學(xué)習全生命周期管理(lǐ)流程;

13、集群可(kě)實現分(fēn)布式并行訓練功能(néng);支持動态申請分(fēn)布式訓練所需要的GPU數量和節點數量,且平台可(kě)以實時監控每個節點的運行情況;

14、具(jù)備本地鏡像倉庫,支持鏡像分(fēn)組管理(lǐ)及分(fēn)享,允許用(yòng)戶上傳自定義鏡像,支持将用(yòng)戶環境一鍵打包至鏡像倉庫,且支持将權限設置為(wèi)公(gōng)有(yǒu)或者私有(yǒu);

15、支持對多(duō)版本的模型統一管理(lǐ)功能(néng),可(kě)以集中(zhōng)管理(lǐ)所有(yǒu)在模型訓練中(zhōng)得到的模型,導入并管理(lǐ)在本地開發的模型,滿足模型需要不斷叠代和調試的管理(lǐ)需求;

16、提供scp訪問/Web訪問/擴容/重命名(míng)/修改密碼/共享存儲/删除等功能(néng);能(néng)支持個人用(yòng)戶上傳數據集之後可(kě)由多(duō)用(yòng)戶同時調用(yòng)

産(chǎn)品優勢
  • 開放融合

    異構硬件融合和算力優化,支持多(duō)種CPU和GPU卡,同時集成多(duō)種主流的深度學(xué)習框架和交互式IDE開發環境。

  • 極緻性能(néng)

    借助容器、K8S等雲計算技(jì )術打造的AI平台再結合超強算力的 GPU 集群,提供高并行、高吞吐、低時延的極緻性能(néng),在科(kē)學(xué)計算表現中(zhōng)性能(néng)比傳統架構提高 50 倍以上。

  • 彈性靈活

    彈性計算資源和算力優化管理(lǐ),vGPU技(jì )術、GPU共享、多(duō)機多(duō)卡分(fēn)布式并行訓練、多(duō)層級組織架構、組織及用(yòng)戶資源配額等。

  • 開箱即用(yòng)

    平台預置TensorFlow 、 PyTorch、Caffe 等多(duō)種深度學(xué)習開源框架,無需安(ān)裝(zhuāng)配置環境,一鍵快速提交訓練任務(wù)。同時數據模型分(fēn)析交互式開發工(gōng)具(jù) MLab,還支持一鍵添加代碼和數據集。

  • 節約成本

    高效的資源優化調度和管理(lǐ)顯著地降低資源使用(yòng)和運維成本,多(duō)種計費模式極大地降低前期投入。

  • 安(ān)全服務(wù)

    平台完善的環境隔離及網絡監控服務(wù),保障用(yòng)戶數據和服務(wù)安(ān)全無虞。