NVIDIA新一代A100 GPU解析:AI訓練速度提高20倍的機密是什麼?

在前段時間的GPU技術大會(GTC 2020)上,NVIDIA正式公佈瞭基於Ampere架構的新一代GPU——NVIDIA A100。這款產品作為通用型工作負載加速器,對準瞭現在最為熱點的AI范疇。依據NVIDIA給出的數據,其性能相比於前代產品提高瞭高達20倍,可用於AI訓練和推理以及科學模仿、對話式AI、引薦系統、基因組學、高性能數據分析、地震建模和金融預測等場景。

技術翻新,NVIDIA A100 GPU性能打破的關鍵

NVIDIA A100具有如此大幅度的提高,離不開Ampere架構的加持,該GPU基於7nm創造工藝,包括瞭超過540億個晶體管,具有6912個CUDA核心,成瞭當前全世界最大的7納米處理器。不止如此,新品還搭載瞭40GB HBM2內存,具有1.6TB/s的內存帶寬,FP32性能到達19.5萬億次/秒,並引入瞭具備TF32的第三代Tensor Core核心、結構化稠密 、多實例GPU( MIG)、第三代NVIDIA NVLink等眾多特征。

NVIDIA在此前的Volta架構中初次引入瞭Tensor Core(張量單元)這一計算單元,使適當時V100 GPU的浮點運算性能得到瞭大幅提高,可以更好地用於AI及深度學習運用。在最新的Ampere架構中,NVIDIA對Tensor Core進行瞭再次晉級,使其變得愈加靈敏、快速且易於運用,乃至稱得上是性能上的一次奔騰。

新架構引入瞭為AI開發的TF32,這是一種用於處理矩陣數學的新數值款式,而矩陣數學也被稱為張量運算,是AI和部分HPC運用主要運用的運算。簡單來說,TF32能加速AI訓練計算,結合結構稠密性,就可以使FP32精度下的AI性能顯著提升,可到達上代Volta架構的20倍左右。NVIDIA表示,乃至無需修正現有步伐的代碼就可以取得性能提高。此外,當前的Tensor Core核心同時支持瞭FP64精度的浮點運算能力,相比於前代產品,可為HPC( 高性能計算)運用提供更多的算力,相比以前提升瞭多達2.5倍。

至於上文提到的結構化稠密,其實也是此次新架構的走光之處,當前A100中的Tensor Core可為稠密模型運用提供高達2倍的性能提高。該功能的加入讓GPU可以愈加高效地處理高維數據,相當於提升瞭AI學習性能。結構化稠密是一種高維數據的有效分析辦法,具有特點簡潔、可表明性強、計算便利等上風,取得瞭許多研發人員的關註,並在多個實際場景中得到瞭運用。

Ampere架構除瞭細節和算力方面的改良,新品還充足考慮到瞭運用場景,提供瞭多實例GPU(MIG) ,通俗來說每一個A100能夠劃分成七個獨立的GPU,具有瞭更高的靈敏性。盡人皆知,在數據中心等范疇,CPU虛構化是十分多見的技術,可將內核同時調配給不同用戶獨立運用,而MIG也有殊途同歸之妙,如此一來不隻為不同規模的工作提供不同的計算力,以此完成最好應用率和投資回報率的最大化,並且能在硬件級別上完成隔絕,完成更高的安全性。

至於Ampere架構的第三代NVIDIA NVLink,可以使GPU之間的銜接速率增多至本來的兩倍,雙向帶寬提高至50GB/s,傳輸速率到達瞭600GB/s,是PCIe 4.0帶寬的10倍,並且每顆GPU能夠完成對外12路銜接。

A100助力,NVIDIA打造新一代AI系統

當前,基於Ampere GPU的NVIDIA DGX A100系統已經公佈,它是全世界首款算力到達5 petaFLOPS AI系統,內置8個由NVIDIA NVLink互聯的A100 GPU、兩塊64核AMD CPU和1TB系統內存,六個第二代NVSWITCH則提供瞭高達 4.8 TB/s雙向帶寬。收集方面,系統內置Mellanox ConnectX-6 VPI HDR InfiniBand和以太網適配器,其雙向帶寬峰值為 450Gb/s。

應用Mellanox HDR 200Gbps InfiniBand互連技術,NVIDIA將140臺DGX A100系統結合在一同,成功構建瞭DGX SuperPOD AI超級計算機, AI計算能力高達700 Petaflops,用於公司外部對話式AI、基因組學和主動駕駛等范疇的研究。值得一提的是,不但是AI、科研范疇的用處,現在DGX A100構成的超級計算機還被用來抗衡COVID-19,抗衡疫做出瞭奉獻。

不但是大規模的AI計算系統,NVIDIA乃至將Ampere架構帶到瞭現在熱門之一的邊緣計算,NVIDIA EGX A100 AI 處理引擎搭載全新GPU的同時,集成有Mellanox ConnectX-6 Dx SmartNIC,不隻帶來優秀的拓展性,並且更有精彩的安全性。Mellanox SmartNIC具備安全分流功能,能以高達 200 Gb/s 的線速進行解密,共同GPUDirect技術可將視頻幀直接傳輸到GPU顯存以進行AI處理。

相反相成,大量軟件為A100 GPU優化

固然,除瞭硬件層面的上風,實際運用時也離不開軟件的支持。當前,NVIDIA對GPU加速運用范疇的軟件開發平臺CUDA進行瞭更新,推出瞭CUDA 11,為Ampere架構進行瞭優化,並更新瞭包含瞭50多個新版本CUDA-X庫。新版本能夠完備支持基於Ampere架構的GPU硬件以落第三代Tensor Core的眾多特征,並加入瞭多實例GPU虛構化和GPU分區等功能。

與此同時,NVIDIA還公佈瞭HPC SDK、多模態對話式AI服務框架NVIDIA Jarvis、深度引薦運用框架 NVIDIA Merlin等軟件。其中,HPC SDK包括編譯器和庫的全套綜合套件,是當前僅有可用於編程加速計算系統的全套集成SDK,開發者可通過它來編程全部HPC平臺,從GPU基礎到CPU以及全體互聯,一樣該套件也對Ampere架構進行瞭響應優化。

寫在最後:正如NVIDIA所說的那樣,現在因為雲計算、AI等技術的出現,正在推進數據中心設計的結構性變化,純CPU服務器被搭載GPU加速計算的平臺所取代,將來隨著這些新技術的不時遍及,越來越多的行業、企業將會產生相似需求。NVIDIA早在3年以前就已經意識到瞭這一趨向,推出瞭Volta架構,並將專為深度學習的Tensor Core帶入到瞭GPU當中,大幅提高瞭AI訓練和推理性能,而到瞭當前Ampere架構的第三代Tensor Core,更是帶來瞭宏大的性能奔騰,可將AI訓練時間從數周收縮到幾小時,顯著加快瞭推理速度,無疑助力推進瞭全部AI行業的發展。

另外一方面,這次推出的Ampere架構、A100 GPU不但是提供瞭大幅度的性能增進,並且NVIDIA更是考慮到瞭方方面面,乃至統籌瞭數據中心的本錢問題。依據NVIDIA給出的數據,一個由5臺DGX A100系統構成的機架,可取代一個包含瞭AI訓練和推理基礎設備的數據中心,並且功耗僅是1/20,所占用的空間是1/25,本錢隻有1/10。因而,我們完全有來由相信,將來NVIDIA GPU以及AI技術必然會進入到各行各業,滲透到大傢平常生活的各個方面。

发表评论