NVIDIA 認證課程

透過 RAPIDS 加速資料科學基礎課程
Fundamentals of Accelerated Data Science

無論你是在需要提升客戶保留率的軟體公司、需要降低風險的金融服務公司,或是有興趣預測客戶購買行為的零售公司,貴組織都是要在不浪費任何重要資源的情況下,從大量資料中準備、管理和收集深入分析資訊。傳統的以 CPU 驅動資料科學工作流程可能比較麻煩,但有了 GPU 的能力,你的團隊可以快速瞭解資料,以利做出商業決策。

在此實作坊中,你將學習如何建立和執行端對端 GPU 加速的資料科學工作流程,讓你快速探索、迭代,並為工作提高生產力。使用 RAPIDS™ 加速資料科學函式庫,你將應用多種 GPU 加速的機器學習演算法,包括 XGBoost、cuGRAPH 的單一來源最短路徑,以及 cuML 的 KNN、DBSCAN 和羅吉斯迴歸,以大規模執行資料分析。

學習目標

參加本實作坊可學會:

  • 使用 cuDF 和 Apache Arrow 資料架構,實作 GPU 加速的資料準備和特徵擷取
  • 運用 XGBoost 和多種 cuML 演算法,應用各種 GPU 加速的機器學習工作
  • 使用 cuGraph 執行 GPU 加速的圖表分析,以在短暫的時間內完成大規模分析
  • 運用 cuGraph 常式快速完成大規模圖表分析

實作坊大綱

時程 程序項目
15 分鐘   概覽
  • 認識講師
  • 在 learn.nvidia.com/join 建立帳號
120 分鐘   GPU 加速資料操作
   擷取和準備數個資料集,其中包含大於記憶體的資料集,以在稍後的實作坊中供多個機器學習練習使用:
  • 使用 cuDF 和 Dask cuDF,將資料直接讀取至單一或多個 GPU。
  • 使用 cuDF 準備人口、道路網和診所資訊,供 GPU 機器學習工作使用。
60 分鐘 休息時間
120 分鐘   GPU 加速機器學習
   將數種基本的機器學習技術,應用於第一節準備的資料上:
  • 透過 cuML 使用監督式與非監督式 GPU 加速演算法。
  • 在多個 GPU 上使用 Dask 訓練 XGBoost 模型。
  • 透過 cuGraph 在 GPU 上建立並分析圖表資料。
15 分鐘 休息時間
120 分鐘   專案:透過資料分析拯救英國
   將新的 GPU 加速資料操作和分析技術應用於人口規模資料,以協助阻止模擬傳染病影響全英國人口:
  • 使用 RAPIDS 整合多個大型資料集,並執行真實世界的分析。
  • 依傳染病的模擬情況,提供每個模擬日的新資料,進行樞紐和迭代分析。
15 分鐘   測驗與問答

實作坊詳情

時間: 8 小時

必備基礎能力: Python 程式經驗,具有 Pandas 與 NumPy 經驗尤佳

技術: RAPIDS、cuDF、XGBoost、cuML、cuGraph、Dask、cuPy、pandas、NumPy、Bokeh

認證證書: 完成測驗後,參與者將會收到 NVIDIA DLI 認證證書,證明他們具有相關主題的能力,支援其專業職涯成長。