NVIDIA 認證課程-大型語言模型的知識增量學習（fine tune) 暫譯

NVIDIA 認證課程

大型語言模型的知識增量學習（fine tune) 暫譯
Adding New Knowledge of LLMs

大型語言模型（LLM）功能強大，但其知識多半屬於通用性質，往往不足以滿足企業應用所需的特定性、即時性或高度專業化資訊。這堂工作坊提供一套完整且實作導向的指南，介紹強化與客製化大型語言模型的關鍵技術。

本工作坊將帶領學員從原始資料一路走到微調完成、並完成最佳化的模型。課程一開始將學習如何蒐集與整理高品質資料集，並使用 NVIDIA NeMo Curator 產生合成資料。接著，將深入探討模型評估這個關鍵流程，透過各類基準測試（benchmarks）、以 LLM 作為評審（LLM-as-a-judge），以及 NeMo Evaluator，對模型效能進行嚴謹評估。在建立扎實的評估基礎後，學員將進一步學習多種強大的客製化技術，包括：透過「持續預訓練（Continued Pretraining）」注入新知識、利用「監督式微調（Supervised Fine-Tuning）」教導模型新技能，以及運用「直接偏好最佳化（Direct Preference Optimization, DPO）」使模型行為更符合人類偏好。

最後，課程將介紹如何讓客製化後的模型適合實際部署，說明量化（quantization）、剪枝（pruning）與知識蒸餾（knowledge distillation）等關鍵最佳化技術，並結合 TensorRT-LLM 與 NeMo 框架進行實作。工作坊將以一項實作評量作為總結，學員需將所學技能應用於使 LLM 符合特定對話風格，藉此鞏固為各種應用情境量身打造模型的能力。

學習目標

參加本實作坊可學會：

使用 NVIDIA NeMo Curator 整理高品質資料集，並產生合成資料。
透過基準測試（MMLU）、以 LLM 作為評審（LLM-as-a-judge）以及 NeMo Evaluator，對大型語言模型效能進行嚴謹評估。
採用持續預訓練（Continued Pretraining, CPT），將新的領域專屬知識注入大型語言模型。
透過監督式微調（Supervised Fine-Tuning, SFT），教導大型語言模型新技能，並使其對齊特定任務需求。
運用直接偏好最佳化（Direct Preference Optimization, DPO），使模型在風格、語氣與安全性方面符合人類偏好。
結合 TensorRT-LLM 與 NeMo，透過量化（Quantization）、剪枝（Pruning）與知識蒸餾（Knowledge Distillation）對大型語言模型進行壓縮與最佳化，以利高效率部署。
應用端到端的模型客製化流程，解決實際世界中的問題。

實作坊大綱

概覽	認識講師在 learn.nvidia.com 建立帳號
資料整理與合成資料產生	學習使用 NVIDIA NeMo Curator 準備大規模且高品質的資料集。執行關鍵的資料整理作業：文字清理、資料過濾與個人可識別資訊（PII）移除。產生高品質的合成問答（Question-Answer）配對，打造穩健的監督式微調（SFT）資料集。理解資料品質在大型語言模型（LLM）開發生命週期中的重要性。
大型語言模型評估	探索多種 LLM 評估方法，從直觀檢視（eyeballing）到系統化、量化的評估技術。依據產業標準基準測試（如 MMLU）評估模型表現。實作以 LLM 作為評審（LLM-as-a-judge），進行細緻且自動化的評估。使用 NeMo Evaluator 微服務，比較零樣本（zero-shot）與少樣本（few-shot／in-context learning）效能差異。透過 MLflow 追蹤並視覺化評估實驗結果。
休息時間 (60 分鐘)
客製化大型語言模型	深入學習三種核心客製化技術：CPT、SFT 與 DPO。運用持續預訓練（Continued Pretraining, CPT），教導模型特定領域的新知識。應用監督式微調（Supervised Fine-Tuning, SFT），教導模型新技能，例如以不同語言解數學題。使用直接偏好最佳化（Direct Preference Optimization, DPO），使模型對話風格符合人類偏好（如正式／非正式、特定方言）。透過 NeMo 框架，獲得所有客製化任務的實作經驗。
為部署進行大型語言模型最佳化	學習如何壓縮並加速 LLM，以提升推論效率。使用 TensorRT-LLM 套用訓練後量化（Post-Training Quantization, PTQ），著重於 FP8 格式，以降低模型大小與記憶體使用量。採用深度剪枝（Depth Pruning），透過移除整個模型層數來縮小模型規模。運用知識蒸餾（Knowledge Distillation），以較小的「學生模型」模仿較大的「教師模型」，彌補剪枝造成的效能損失。評估各種最佳化技術在效能與準確度之間的取捨。
評估與Q&A	透過實際撰寫程式的評量，應用所學知識。使用直接偏好最佳化（DPO），將 Llama 3.1 8B 模型對齊至特定的對話風格（莎士比亞式英語）。展示建立偏好資料集、使用 NeMo-RL 執行對齊任務，以及評估最終模型的能力。成功完成評量後，取得能力證書。

實作坊詳情

時間： 8 小時

必備基礎能力：

熟悉 Python 程式設計與 Jupyter Notebook 操作。
對大型語言模型及其應用有基本認識。
具備深度學習與神經網路的概念性理解。

技術： Python、NVIDIA NeMo、NVIDIA TensorRT-LLM、Docker、MLflow

認證證書： 完成測驗後，參與者將會收到 NVIDIA DLI 認證證書，證明他們具有相關主題的能力，支援其專業職涯成長。