NVIDIA 認證課程

大型語言模型的知識增量學習
Adding New Knowledge of LLMs

大型語言模型(LLM)功能強大,但其知識多半屬於通用性質,往往不足以滿足企業應用所需的特定性、即時性或高度專業化資訊。這堂工作坊提供一套完整且實作導向的指南,介紹強化與客製化大型語言模型的關鍵技術。

本工作坊將帶領學員從原始資料一路走到微調完成、並完成最佳化的模型。課程一開始將學習如何蒐集與整理高品質資料集,並使用 NVIDIA NeMo Curator 產生合成資料。接著,將深入探討模型評估這個關鍵流程,透過各類基準測試(benchmarks)、以 LLM 作為評審(LLM-as-a-judge),以及 NeMo Evaluator,對模型效能進行嚴謹評估。在建立扎實的評估基礎後,學員將進一步學習多種強大的客製化技術,包括:透過「持續預訓練(Continued Pretraining)」注入新知識、利用「監督式微調(Supervised Fine-Tuning)」教導模型新技能,以及運用「直接偏好最佳化(Direct Preference Optimization, DPO)」使模型行為更符合人類偏好。

最後,課程將介紹如何讓客製化後的模型適合實際部署,說明量化(quantization)、剪枝(pruning)與知識蒸餾(knowledge distillation)等關鍵最佳化技術,並結合 TensorRT-LLM 與 NeMo 框架進行實作。工作坊將以一項實作評量作為總結,學員需將所學技能應用於使 LLM 符合特定對話風格,藉此鞏固為各種應用情境量身打造模型的能力。

學習目標

參加本實作坊可學會:

  • 使用 NVIDIA NeMo Curator 整理高品質資料集,並產生合成資料。
  • 透過基準測試(MMLU)、以 LLM 作為評審(LLM-as-a-judge)以及 NeMo Evaluator,對大型語言模型效能進行嚴謹評估。
  • 採用持續預訓練(Continued Pretraining, CPT),將新的領域專屬知識注入大型語言模型。
  • 透過監督式微調(Supervised Fine-Tuning, SFT),教導大型語言模型新技能,並使其對齊特定任務需求。
  • 運用直接偏好最佳化(Direct Preference Optimization, DPO),使模型在風格、語氣與安全性方面符合人類偏好。
  • 結合 TensorRT-LLM 與 NeMo,透過量化(Quantization)、剪枝(Pruning)與知識蒸餾(Knowledge Distillation)對大型語言模型進行壓縮與最佳化,以利高效率部署。
  • 應用端到端的模型客製化流程,解決實際世界中的問題。

實作坊大綱

概覽
  • 認識講師
  • 在 learn.nvidia.com 建立帳號
資料整理與合成資料產生
  • 學習使用 NVIDIA NeMo Curator 準備大規模且高品質的資料集。
  • 執行關鍵的資料整理作業:文字清理、資料過濾與個人可識別資訊(PII)移除。
  • 產生高品質的合成問答(Question-Answer)配對,打造穩健的監督式微調(SFT)資料集。
  • 理解資料品質在大型語言模型(LLM)開發生命週期中的重要性。
大型語言模型評估
  • 探索多種 LLM 評估方法,從直觀檢視(eyeballing)到系統化、量化的評估技術。
  • 依據產業標準基準測試(如 MMLU)評估模型表現。
  • 實作以 LLM 作為評審(LLM-as-a-judge),進行細緻且自動化的評估。
  • 使用 NeMo Evaluator 微服務,比較零樣本(zero-shot)與少樣本(few-shot/in-context learning)效能差異。
  • 透過 MLflow 追蹤並視覺化評估實驗結果。
休息時間 (60 分鐘)
客製化大型語言模型
  • 深入學習三種核心客製化技術:CPT、SFT 與 DPO。
  • 運用持續預訓練(Continued Pretraining, CPT),教導模型特定領域的新知識。
  • 應用監督式微調(Supervised Fine-Tuning, SFT),教導模型新技能,例如以不同語言解數學題。
  • 使用直接偏好最佳化(Direct Preference Optimization, DPO),使模型對話風格符合人類偏好(如正式/非正式、特定方言)。
  • 透過 NeMo 框架,獲得所有客製化任務的實作經驗。
為部署進行大型語言模型最佳化
  • 學習如何壓縮並加速 LLM,以提升推論效率。
  • 使用 TensorRT-LLM 套用訓練後量化(Post-Training Quantization, PTQ),著重於 FP8 格式,以降低模型大小與記憶體使用量。
  • 採用深度剪枝(Depth Pruning),透過移除整個模型層數來縮小模型規模。
  • 運用知識蒸餾(Knowledge Distillation),以較小的「學生模型」模仿較大的「教師模型」,彌補剪枝造成的效能損失。
  • 評估各種最佳化技術在效能與準確度之間的取捨。
評估與Q&A
  • 透過實際撰寫程式的評量,應用所學知識。
  • 使用直接偏好最佳化(DPO),將 Llama 3.1 8B 模型對齊至特定的對話風格(莎士比亞式英語)。
  • 展示建立偏好資料集、使用 NeMo-RL 執行對齊任務,以及評估最終模型的能力。
  • 成功完成評量後,取得能力證書。

實作坊詳情

時間: 8 小時

必備基礎能力:

  • 熟悉 Python 程式設計與 Jupyter Notebook 操作。
  • 對大型語言模型及其應用有基本認識。
  • 具備深度學習與神經網路的概念性理解。

技術: Python、NVIDIA NeMo、NVIDIA TensorRT-LLM、Docker、MLflow

認證證書: 完成測驗後,參與者將會收到 NVIDIA DLI 認證證書,證明他們具有相關主題的能力,支援其專業職涯成長。