發佈日期 : 2020/08/12

300倍的效率!長庚大學導入麗臺GDMS GPU AI資源管理系統


GPU的AI加速運算能力在各大研究上扮演關鍵角色。麗臺科技突破傳統限制,領先業界發表GPU資源分配與管理系統 (GDMS),並首由長庚大學資工系導入使用。麗臺GDMS提供多人使用單一張GPU,以及一人使用多GPU兩種資源分配模式,適用於NVIDIA 全系列繪圖卡,支援不同規模的工作負載,達到資源運用最大化。其直覺式圖型操作介面,讓不懂Docker指令的管理人員,仍能輕鬆執行AI專案建置,將AI研發和教學環境佈署時間縮短300倍。

在AI研發上,目前大部份開發者採用的容器化開源軟體架構,皆是以單張GPU為單位。也就是單一GPU卡,只能分配給單一Container使用。麗臺GDMS則是以專案及Docker為基礎的GPU資源分配與管理系統,容許多個Container使用同一張GPU資源。長庚大學資工系陳仁暉系主任提到,在教學上,學生所執行的專案較小,如果GPU等資源無法有效分配,將十分可惜。GDMS可以在相同資源條件下,讓更多學生同時使用GPU運算資源,將能夠大大提升GPU使用率。此外,透過GDMS圖型介面,除了能讓使用者更方便操作外,老師也能在課堂間的休息時間,快速佈署不同Container給指定學生使用。一般來說,大約需要花 50 分鐘才能建立 100 個 Container,但現在只需要花十秒即可完成,同時達到快速備課及資源使用最大化目的,真的是教學一大利器。

麗臺科技林威延博士補充,此種單卡支援多人使用的模式也相當適合企業研發單位執行AI訓練,以降低總體持有成本。麗臺GDMS另一個功能則反過來。例如研究單位進行大型AI研發專案時,麗臺GDMS能集中多張GPU資源支持該專案進行,並確保其他人尋找可用GPU資源時不會影響到該專案的資源分配,彈性支援不同AI開發情境。

在實務上,隨著需求不斷改變,AI研發單位會不斷的擴充硬體,創建不同的群組與Docker。時間久了,很難記住這些Docker佈署在哪些伺服器上,進而造成管理混亂。在GDMS協助下,管理時間將大幅降低,研發團隊可更專注於AI專案開發。除此之外,麗臺同時推出RTX GPU AI 開發軟體(RTX AI Software Pack)以解決AI框架相依函式庫易相衝突的問題。麗臺GPU AI開發軟體整合了 12 種深度學習以及機器學習的開發套件。除了大家熟悉的 Caffe、TensorFlow、學術界常用的 PyTorch,還有RAPIDS等,各開發套件的相容性已調整在最佳狀態,在AI開發環境建置上,將可省去除錯時間。若在伺服器上安裝麗臺GPU AI 開發軟體,再通過 GDMS啟動Container,便可直接開啟多個對應的連接埠、整合儲存設備路徑,或安裝必要套件(例如:Jupyter notebook、Matplotlib),專案成員亦可自行上傳Docker Image。如此一來,透過GDMS的管理,除了GPU的資源分配之外,只需要對應多組連接埠,即可在有限的硬體實現多叢集架構的軟體教學 (例如:Hadoop),不需再購買其他虛擬化方案。

深具AI環境建置經驗的麗臺科技合作夥伴鴻鵠國際總經理蔡長明分享:客戶希望的是,拿到工作站就可以研發AI。麗臺伺服器系列及擁有NVIDIA NGC Ready認證的WinFast RTX AI工作站完全滿足客戶需求。它是針對資料處理、AI模型訓練而設計,結合最先進的NVIDIA Quadro GPU和資料科學相關框架與函式庫,讓客戶開機即可開發。再加上GDMS協助管理多台工作站、Container及Docker等項目,管理時間將大幅降低,研發團隊可更專注於專案開發。

圖:長庚大學資工系系主任陳仁暉(中),麗臺科技協理陳樹威(左一),長庚大學資工系助理教授李季青(左二),麗臺科技業務經理沈守宥(右二),麗臺科技技術經理劉家豪(右一)

圖:長庚大學資工系系主任陳仁暉(左),長庚大學資工系助理教授李季青(右),麗臺GDMS GPU資源管理系統及麗臺WinFast GS4830AT伺服器 (後)