• 加入比較表

NVIDIA A100

NVIDIA A100 Tensor核心GPU為各種規模的人工智慧、資料分析和高效能運算(HPC)作業提供前所未有的加速能力,以解決全球最嚴苛的運算挑戰。

NVIDIA A100

全新世代


前所未有的加速力

6 大功能特點

NVIDIA AMPERE架構

HBM2 記憶體

第三代的Tensor核心

多執行個體GPU(MIG)

稀疏優化

新一代的NVLINK技術

加速現今最重要的工作

NVIDIA A100 Tensor核心GPU為各種規模的人工智慧、資料分析和高效能運算(HPC)作業提供前所未有的加速能力,以解決全球最嚴苛的運算挑戰。作為NVIDIA資料中心平台引擎,A100可有效率地擴充到數千個GPU,若採用NVIDIA多執行個體GPU(MIG)技術,則可將A100分割為七個GPU執行個體,加速各種規模的工作負載。第三代Tensor核心可加速多種工作負載的各種精度,加快獲得深入分析及產品上市的時間。

最強大的端對端人工智慧和HPC資料中心平台

完整的NVIDIA資料中心解決方案系列包含硬體、網路、應用軟體、函式庫的建置組塊,以及NGC™上的最佳化人工智慧模型和應用程式,而A100是當中的一份子。它是最強大的資料中心端對端人工智慧和HPC平台,可以讓研究人員提供實際結果,並將解決方案大規模部署到正式環境中。

稀疏優化 效能加倍

人工智慧網絡很龐大,擁有數百萬至數十億個參數。並非所有的參數都需要用於做準確的預測,可以將某些參數轉換為零以使模型「稀疏」而不會影響準確性。

A100中的Tensor Core可以為稀疏模型提供高達2倍的效能。雖然稀疏性功能更容易使AI推論受益,但它也可以提高模型訓練的效能。

多執行個體GPU 最佳化GPU使用率

一個A100 GPU可以劃分為多達七個GPU應用個體,它們在硬件層完全隔離,並擁有專屬的高頻寬記憶體,緩衝記憶體和運算核心。多執行個體 GPU(MIG)為開發人員提供了針對其所有應用程式的突破性加速功能,IT管理員可以為每個作業提供適當大小的GPU加速功能,從而優化利用率並擴展對每個用戶和應用程式的使用權限。

NVIDIA AMPERE架構

A100可加速各種大小的工作量, 無論是使用多執行個體 GPU(MIG)將A100 GPU劃分為較小的GPU應用個體,還是使用NVLink連接多個GPU來加速大規模工作負載,A100都可以輕鬆滿足不同規模的加速需求,從最小的工作到最大的多節點工作負載。 A100的多功能性意味著IT經理可以全天候地最大化其資料中心中每個GPU的利用率。

新一代的 NVLINK技術

與上一代產品相比,A100中的NVIDIA NVLink的吞吐量提高了2倍。 與NVIDIA NVSwitch™結合使用時,可以以高達600 GB /秒的速度互連多達16個A100 GPU,進而在單個服務器上實現最高的應用程式性能。 NVLink可通過HGX A100服務器主板在A100 SXM GPU中使用,而透過NVLink Bridge在PCIe GPU中則可連結最多2個GPU。

第三代的Tensor 核心

A100可提供312 teraFLOPS(TFLOPS)的深度學習性能。 與NVIDIA Volta™GPU相比,用於深度學習訓練有20倍Tensor FLOPS 的效能和用於深度學習推理有20倍Tensor TOPS的效能。

HBM2記憶體

具備40 GB的高頻寬記憶體(HBM2),A100提供了1.6TB /秒的改進原始頻寬,以及高達95%的動態隨機存取記憶體(DRAM)利用率。A100提供的記憶體頻寬是上一代產品的1.7倍。

深度學習訓練

隨著人工智慧模型處理更高一級的挑戰,例如精確的對話式人工智慧和深度推薦系統,其複雜度也急遽增長。訓練模型需要極強大的運算和擴充能力。

若使用精度為Tensor Float (TF32)的NVIDIA A100 第三代Tensor核心可在完全不變更程式碼的情況下,提供比上一代產品高20倍的效能,若使用自動混合精度還可進一步提高2倍。與第三代NVIDIA NVLink 、NVIDIA NVSwitch™、PCI Gen4、NVIDIA Mellanox InfiniBand和NVIDIA Magnum IO™應用軟體 SDK 搭配使用時,還可能擴充到數千個 A100 GPU。這表示像BERT這樣的大型人工智慧模型在1024個A100組成的叢集上只需37分鐘即可完成訓練,提供前所未有的效能和擴充能力。

NVIDIA 的訓練領先地位在人工智慧訓練的第一個業界基準測試MLPerf 0.6中展露無遺。

深度學習推論

A100帶來創新功能以最佳化推論工作負載。其可從FP32、FP16、INT8以及一路到INT4的全精度範圍進行加速,提供前所未有的多樣性。多執行個體 GPU(MIG)技術可讓多個網路在單一A100 GPU上同時運作,以最佳的方式使用運算資源。除了A100提升的其他推論效能以外,結構性稀疏的支援可提供高達2倍的效能。

NVIDIA早已提供領先業界的推論效能,從我們在第一個業界推論基準測試MLPerf Inference 0.5中一率領先他品牌的佳績即可窺知。A100 提供的10倍效能將進一步擴大NVIDI 的領先地位範圍。

高效能運算

為了找出更新的發現,科學家希望透過模擬以更加瞭解藥物開發的複雜分子、透過物理來尋找潛在的新能源,以及大氣資料以更準確預測天氣,並為極端天氣做好準備。

A100帶來的雙精度Tensor核心,是自從將GPU引入HPC雙精度運算技術以來最大的里程碑。原本研究人員透過NVIDIA V100 Tensor核心GPU執行雙精度模擬需耗時10個小時,透過A100將可縮短為4個小時。在執行單精度矩陣乘法作業時,HPC應用程式還可以利用A100 TF32精度的 Tensor核心提供高達10倍的輸送量。

資料分析

客戶需要能夠分析、視覺化,並將龐大資料集轉換成深入分析。但是,由於這些資料集分散在多個伺服器上,因而經常無法實行擴展解決方案。

使用A100的加速伺服器可提供所需的運算能力,包含每秒1.6 TB(TB/秒)的記憶體頻寬、第三代 NVLink和NVSwitch的擴充能力,來處理這些龐大的工作負載。NVIDIA資料中心平台結合Mellanox InfiniBand、Magnum IO SDK、GPU加速的Spark3.0和RAPIDS™ (GPU加速資料分析專用的應用軟體套件),NVIDIA資料中心平台能用前所未有的效能和效率加速這些龐大工作負載。

適用於企業

運用(MIG)的 A100 可將 GPU 加速的基礎架構使用率提高到前所未見的程度。MIG 可將 A100 GPU 安全地分割成多達七個獨立的執行個體,讓多名使用者存取 GPU 加速來執行他們的應用程式和開發專案。此外,NVIDIA 虛擬化運算伺服器 (vComputeServer) 還可讓資料中心管理員在 MIG 執行個體上獲得虛擬機管理器架構伺服器虛擬化的管理和營運優勢。MIG 讓基礎架構管理員能以更鉅細靡遺的方式佈建 GPU 資源,為開發人員提供適用的運算能力,並確保善用所有 GPU 資源。

 
NVIDIA A100
深度學習、HPC與資料分析旗艦首選

A100平台能為超過700種HPC應用項目及各種主要深度學習架構加速。
其使用範圍從桌上型電腦到伺服器,再至雲端服務,能提供大幅提升效能與節省成本的機會。

 

GPU 架構 Ampere
記憶體介面 5120-bit
記憶體頻寬 1.6TB/sec
GPU記憶體 40GB HBM2
雙精度效能 FP64 9.7 TFLOPS
FP64 Tensor 核心 19.5 TFLOPS
單精度效能 FP32 19.5 TFLOPS
FP32 Tensor 核心 156 TFLOPS | 312 TF*
半精度效能 FP16 Tensor 核心 312 TFLOPS | 624 TF*
整數效能 INT8 INT4
624 TOPS | 1248 TOPS* 1248 TOPS | 2496 TOPS*
錯誤更正碼 支援
互連介面 NVIDIA NVLunk 600 GB/s**
PCIe Gen4 64GB/s
多執行個體GPU(MIG) 最高七個5GB不同容量的執行個體
最大功耗 250W
系統介面 PCIe 4.0
散熱解決方案 被動散熱座
運算APIs CUDA®, DirectCompute, OpenCLTM, OpenACC®


  • 本網站所提到的產品規格及資訊,若有變動恕不另行通知,一切以購買產品彩盒上的標示為準。
  • 上述商品規格僅供參考,實際規格以實物為準,麗臺科技保留修改之權利。上市商品將視各區市場狀況而異,請與您的供應商確認實際出貨產品。
  • 本網頁所標示附贈的轉接器、電纜和軟體等資訊僅供參考,麗臺保有調整變動之權利,若有更動恕不另行通知。
  • 上述提及的所有品牌及產品名稱皆為各所屬公司的商標。