在2012年的ImageNet挑戰(zhàn)賽(ILSVRC)上,深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet橫空出世,在圖像分類識別領(lǐng)域?qū)崿F(xiàn)了質(zhì)的飛躍,被認為是AI時代的標(biāo)志性事件,代表著深度學(xué)習(xí)時代的正式開端。
在此之前,深度學(xué)習(xí)“如何出圈”的一大挑戰(zhàn),就是深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練面臨算力不足的難題。而讓AlexNet實現(xiàn)算力突破的關(guān)鍵,就在于當(dāng)時研究者使用了英偉達的GPU。
GPU一戰(zhàn)成名,成為伴隨AI技術(shù)一同進化的基礎(chǔ)設(shè)施。英偉達也同時抓住了AI計算的新增長機遇。隨著AI算力要求的爆炸式增長,英偉達GPU產(chǎn)品系列也經(jīng)歷了多輪的升級。
現(xiàn)在,英偉達的GPU家族又迎來一次 “史上最大”的性能升級。而此次升級距離上一次發(fā)布“地表最強AI芯片”Tesla V100已經(jīng)過去三年。
三年蟄伏,一鳴驚人。
(NVIDIA A100 GPU)
英偉達首次推出第8代安培GPU架構(gòu),以及首款基于安培架構(gòu)的NVIDIA A100 GPU,采用7nm工藝,在和上一代Volta架構(gòu)V100 GPU幾乎相同面積的晶圓上放置了超過540億個晶體管,晶體管數(shù)量增長了2.5倍,但尺寸卻僅大了1.3%,而在AI訓(xùn)練和推理算力上,均較上一代Volta架構(gòu)提升20倍,HPC性能提升到上一代的2.5倍。
A100 GPU的獨特之處在于,作為一個端到端機器學(xué)習(xí)加速器,第一次在一個平臺上面統(tǒng)一了AI訓(xùn)練和推理,同時也將作為數(shù)據(jù)分析、科學(xué)計算和云圖形設(shè)計等通用工作負載的加速器。簡單來說A100 GPU就是為數(shù)據(jù)中心而生的。
在A100 GPU的基礎(chǔ)上,英偉達同時發(fā)布了全球最強AI和HPC服務(wù)器平臺——HGX A100,全球最先進的AI系統(tǒng)——DGX A100系統(tǒng),以及由140個DGX A100系統(tǒng)組成的DGX SuperPOD集群。此外,還有涉及智能網(wǎng)卡、邊緣AI服務(wù)器、自動駕駛平臺合作以及一系列軟件層面的平臺型產(chǎn)品的發(fā)布。
可以說,英偉達這次不是放出一顆“核彈”,而是一個“核彈集群”,還是飽和攻擊的那種。英偉達從云端到邊緣再到端側(cè),從硬件到軟件再到開源生態(tài),幾乎建立起一個堅不可摧的AI計算的壁壘,同時也將AI芯片的競爭帶上了一個小玩家難以企及的高度。
英偉達的AI服務(wù)器芯片業(yè)務(wù)正在發(fā)生哪些新變化?A100 GPU的發(fā)布,對于AI服務(wù)器芯片市場有哪些影響,以及對于云計算市場帶來哪些變化?這成為我們在“看熱鬧”之余,要重點探討的幾個問題。
AI服務(wù)器芯片:英偉達AI計算增長新極點
眾所周知,游戲、數(shù)據(jù)中心、專業(yè)視覺化以及自動駕駛等新興業(yè)務(wù)是英偉達的四大核心業(yè)務(wù)板塊。其中,游戲業(yè)務(wù)雖仍然是營收的支柱板塊,但是受到PC游戲市場趨于飽和并向移動端轉(zhuǎn)移的影響,獨顯業(yè)務(wù)的比重正在逐步縮小;專業(yè)視覺化業(yè)務(wù)一直為英偉達貢獻著穩(wěn)定營收,但受其他業(yè)務(wù)增長的影響,業(yè)務(wù)占比也在持續(xù)下滑;自動駕駛等新興業(yè)務(wù)板塊,目前只占整體應(yīng)收的很小部分,且增速有限,但可以看作是英偉達未來的長線市場。
(Nvidia: Sequential Revenue Change)
最明顯的則是英特爾在數(shù)據(jù)中心業(yè)務(wù)板塊的增長。近幾年中其營收大部分時間處于高速增長狀態(tài),且營收占比逐步靠近游戲業(yè)務(wù)。
根據(jù)英偉達最新的2020財年Q4財報數(shù)據(jù)顯示,”游戲“收入高達14.9億美元,約占總營收的47%;而增長強勁的數(shù)據(jù)中心板塊,AI服務(wù)器芯片的營收達到9.68億美元,同比增長了42.6%,,逼近10億美元大關(guān),遠遠超出市場預(yù)期的8.29億美元。
整體上,隨著全球數(shù)據(jù)中心,特別是超大型數(shù)據(jù)中心,對AI芯片需求的加速擴張,英偉達的AI服務(wù)器芯片也迎來了高速增長,正在躍升為英偉達最具有市場拓展?jié)摿Φ臉I(yè)務(wù)分支。
從業(yè)務(wù)增長的前景上看,英偉達推出A100 GPU服務(wù)器芯片以及AI系統(tǒng)集群,所要把守住的正是在當(dāng)前數(shù)據(jù)中心中AI服務(wù)器市場的霸主地位。
那么,英偉達正在如何構(gòu)建這一AI服務(wù)器芯片的產(chǎn)品體系呢?
一般來說,對于深度神經(jīng)網(wǎng)絡(luò)算法模型,其模型框架的訓(xùn)練需要涉及非常龐大的數(shù)據(jù)計算,但運算方法要求又相對簡單,所以需要在云端進行大量高并行、高效率和高數(shù)據(jù)傳輸?shù)倪\算。因此相較于擅長復(fù)雜邏輯運算、但核心數(shù)較少的CPU,擁有多個計算單元的GPU更適合于進行深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)。
這是英偉達的GPU在全球云端AI服務(wù)器芯片市場,尤其是訓(xùn)練端,贏得市場先機的根本原因。與此同時,英偉達針對一系列AI服務(wù)開發(fā)的完備的TESLA GPU產(chǎn)品線以及成功布局針對GPU的“CUDA”開發(fā)平臺,才是英偉達在AI服務(wù)器芯片市場一家獨大的主要原因。
從2016年推出第一個專為深度學(xué)習(xí)優(yōu)化的Pascal GPU,到2017年又推出性能相比Pascal提升5倍的新GPU架構(gòu)Volta,再到現(xiàn)在推出比Volta性能高20倍的Ampere(安培)架構(gòu),英偉達在數(shù)據(jù)中心的GPU產(chǎn)品一直成功實現(xiàn)高速且穩(wěn)定的性能提升。
此外,英偉達推出了神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT,可以為深度學(xué)習(xí)應(yīng)用提供低延遲、高吞吐率的部署推理加速,兼容目前幾乎所有主流的深度學(xué)習(xí)框架,使其能夠滿足超大數(shù)據(jù)中心從AI訓(xùn)練到部署推理的完整的AI構(gòu)建。
而在去年3月,英偉達宣布以68億美金收購了以色列網(wǎng)絡(luò)通信芯片公司Mellanox。通過對Mellanox的加速網(wǎng)絡(luò)平臺的整合,英偉達可以解決通過智能網(wǎng)絡(luò)結(jié)構(gòu)連接大量快速計算節(jié)點,以形成巨大的數(shù)據(jù)中心規(guī)模計算引擎的整體架構(gòu)。
就在發(fā)布A100 GPU的同時,英偉達也基于Mellanox技術(shù),推出全球第一款高度安全、高效的25G/50G以太智能網(wǎng)卡SmartNIC,將廣泛應(yīng)用于大型云計算數(shù)據(jù)中心,大幅優(yōu)化網(wǎng)絡(luò)及存儲的工作負載,實現(xiàn)AI計算的更高安全性和網(wǎng)絡(luò)連接效能。
當(dāng)然,收購Mellanox的意義不止于此,除了解決高性能的網(wǎng)絡(luò)連接和算力輸出問題,英偉達還將也擁有GPU、SoC、NPU面向不同細分領(lǐng)域的三大處理器,這意味著英偉達已基本具備了獨立打造 AI 數(shù)據(jù)中心的能力。
整體上,隨著云端數(shù)據(jù)中心正在從傳統(tǒng)的數(shù)據(jù)存儲向著進行深度學(xué)習(xí)、高性能計算(HPC)和大數(shù)據(jù)分析的方向演變,英偉達也將在其中扮演著更加重要的AI計算服務(wù)商的角色。
跨越英偉達的堅壁高墻,AI計算競賽加劇
當(dāng)然,云端AI服務(wù)器芯片市場還遠未到格局已定的地步,反而在2019年迎來最激烈的競爭態(tài)勢。
英偉達的GPU產(chǎn)品,因其高耗能和高價格一直制約著云計算數(shù)據(jù)中心的AI算力的成本。從服務(wù)器芯片市場的另一位大佬英特爾,到AMD、高通,云計算服務(wù)商亞馬遜、谷歌、阿里、華為以及眾多新興的AI芯片創(chuàng)業(yè)公司,都在積極投入云端AI服務(wù)器芯片的研發(fā),尋求替代GPU的解決方案??梢娞煜驴唷癎PU”久矣。
在2019年,相比英偉達的略顯沉寂,其他各家則紛紛推出了自己的AI服務(wù)器芯片產(chǎn)品。比如去年上半年,英特爾、亞馬遜、Facebook以及高通都陸續(xù)推出或宣布推出自己的專用AI服務(wù)器芯片,試圖在AI推理運算上實現(xiàn)對GPU和FPGA的替代。年中,我國的主要云端AI廠商也集體發(fā)力,寒武紀(jì)在6月宣布推出第二代云端AI芯片思云270;8月,華為正式發(fā)布算力最強的AI處理器Ascend910及全場景AI計算框架MindSpore;9月,阿里推出當(dāng)時號稱全球最強的AI推理芯片含光800,基本都在對標(biāo)英偉達的T4系列產(chǎn)品。
在所有AI芯片的競爭者中,作為第二名的英特爾顯然是最想挑戰(zhàn)英偉達的霸主位置,也是最有可能挑戰(zhàn)英偉達的代表。
作為通用服務(wù)器芯片的傳統(tǒng)巨頭,英特爾最有可能的策略就是把GPU和AI都融入到自己的CISC指令集和CPU生態(tài)中,也就是把CPU和GPU部署在一起,云服務(wù)商們只需購買一家的產(chǎn)品,就能更好地發(fā)揮AI計算的效能。
在All IN AI的英特爾那里,他們是如何來構(gòu)建這一AI計算策略的?
英特爾最先補足的就是AI硬件平臺版圖,而收購則是最快的方案。2015年,英特爾先是天價收購了FPGA的制造商Altera,一年后又收購了Nervana,為全新一代AI加速器芯片組奠定了基礎(chǔ)。
去年12月,英特爾再次花掉20億美元高價收購了成立僅3年的以色列數(shù)據(jù)中心AI芯片制造商Habana Labs。與英偉達收購Mellanox一樣異曲同工,通過收購Habana,英特爾也將補足數(shù)據(jù)中心場景下的通信和AI兩種能力。
受到這一收購的激勵,英特爾宣布停止去年8月才發(fā)布的用于AI訓(xùn)練的Nervana NNP-T,轉(zhuǎn)而專注于推進Habana Labs的Gaudi和Goya處理器產(chǎn)品,以對標(biāo)英偉達的tesla V100和推理芯片T4。此外,一款基于Xe架構(gòu)的GPU也將在今年中旬面世。
在軟件層面,為應(yīng)對異構(gòu)計算帶來的挑戰(zhàn),英偉達在去年11月發(fā)布了OneAPI公開發(fā)行版。不管是CPU、GPU、FPGA還是加速器,OneAPI都嘗試最大程度來簡化和統(tǒng)一這些跨SVMS架構(gòu)的創(chuàng)新,以釋放硬件性能。
盡管英特爾以“全力以赴”的姿態(tài)投入到AI計算當(dāng)中,通過四處出手收編了涵蓋GPU、FPGA 到ASIC的AI芯片產(chǎn)品陣列,并建立了廣泛適用的軟硬件生態(tài)。但是在挑戰(zhàn)英偉達的通用GPU產(chǎn)品上面,仍然還有一定距離。
首先,英特爾通過CPU適用于AI計算的策略一直未能得到主要云計算廠商的青睞,大多數(shù)廠商仍然樂于選擇CPU+GPU或FPGA的方案來部署其AI訓(xùn)練的硬件方案。而GPU仍然是英偉達的主場,V100和T4仍然是當(dāng)下數(shù)據(jù)中心主流的通用GPU和推理加速器。
其次,英特爾在AI芯片的布局才剛剛發(fā)力,受到Nervana AI芯片一再延遲的影響,Habana產(chǎn)品才剛剛開始進行整合,這將使得英特爾短期內(nèi)難以挑戰(zhàn)英偉達的AI服務(wù)器芯片的市場份額。
而現(xiàn)在英偉達最新的安培架構(gòu)的A100 GPU以及AI系統(tǒng)集群的發(fā)布,更是給英特爾以及市場其他競爭對手一場飽和攻擊。盡管說,長期來看云計算廠商和AI服務(wù)器芯片廠商開發(fā)的定制芯片會侵蝕一部分GPU的份額,而如今都要先跨越英偉達A100所搭起的AI計算的堅壁與高墻。
AI計算升級,帶來數(shù)據(jù)中心全新布局方案
我們先看數(shù)據(jù)中心本身的變化。受到AI相關(guān)應(yīng)用需求和場景的爆發(fā)式增長,中小型數(shù)據(jù)中心無法承受如此巨量的“AI計算之痛”,市場對超大型數(shù)據(jù)中心的需求越發(fā)強烈。
第一,以亞馬遜AWS、微軟Azure、阿里、谷歌為代表的公有云巨頭,正在占據(jù)超大型數(shù)據(jù)中心的主要市場份額。一方面,超大型數(shù)據(jù)中心將帶來更多的服務(wù)器及配套硬件的增長;另一方面,AI算法的復(fù)雜度增加和AI處理任務(wù)的持續(xù)增長,又需要服務(wù)器的配置以及結(jié)構(gòu)得到持續(xù)升級。
在一些視覺識別為主的AI企業(yè),建立一個超算中心就需要部署上萬塊GPU,對于那些TOP級云服務(wù)商的云計算數(shù)據(jù)中心,為支持深度學(xué)習(xí)訓(xùn)練任務(wù),所需要的GPU量級也將是海量級別。
第二,云服務(wù)廠商都在推出自研的芯片,來緩解因為價格昂貴和數(shù)據(jù)量巨大而帶來的GPU計算成本飆升的問題。這些廠商推出的大多是推理芯片,以節(jié)省GPU的通用算力。但這些推理芯片只在通用性上面的不足,造成其很難突破自研自用的局面。
那么,英偉達的A100 GPU芯片的發(fā)布,對云計算數(shù)據(jù)中心帶來哪些新的變化呢?或者說為AI服務(wù)器芯片的對手們設(shè)立了怎樣的門檻呢?
首先,作為采用全新的安培架構(gòu)的A100 GPU,支持每秒1.5TB的緩沖帶寬處理,支持TF32 運算和FP64雙精度運算,分別帶來高達20倍FP32的AI計算性能和HPC應(yīng)用2.5倍的性能提升。此外還包括MIG 新架構(gòu)、NVLink 3.0以及AI運算結(jié)構(gòu)的稀疏性等特性,這些使得 A100 加速卡不僅可用于AI訓(xùn)練和AI推理,還可以用于科學(xué)仿真、AI對話、基因組與高性能數(shù)據(jù)分析、地震建模及財務(wù)計算等多種通用計算能力。而這一解決方案有可能緩解很多云服務(wù)廠商在推理上面的計算壓力,也對其他廠商的推理芯片帶來一定的競爭壓力。
其次,英偉達發(fā)布的第三代的DGX A100的AI系統(tǒng)在提高吞吐量同時,大幅降低數(shù)據(jù)中心的成本。由于A100內(nèi)置了新的彈性計算技術(shù),可以分布式的方式進行靈活拆分,多實例 GPU 能力允許每個 A100 GPU 被分割成多達七個獨立的實例來推斷任務(wù),同時也可以將多個A100作為一個巨型 GPU 運行,以完成更大的訓(xùn)練任務(wù)。
(“The more you buy,the more money you save!”)
用黃仁勛舉的例子來說,一個典型的AI數(shù)據(jù)中心有50個DGX-1系統(tǒng)用于AI訓(xùn)練,600個CPU系統(tǒng)用于AI推理,需用25個機架,消耗630kW功率,成本逾1100萬美元;而完成同樣的工作,一個由5個DGX A100系統(tǒng)組成的機架,達到相同的性能要求,只用1個機架,消耗28kW功率,花費約100萬美元。
也就是說,DGX A100系統(tǒng)用一個機架,就能以1/10的成本、1/20的功率、1/25的空間取代一整個AI數(shù)據(jù)中心。
總體而言,英偉達用一套性能驚人又極具創(chuàng)新性的AI計算架構(gòu)與AI服務(wù)器芯片硬件,帶來了AI數(shù)據(jù)中心計算平臺的全新升級。英偉達的野心將不再只是提供性能升級的GPU硬件產(chǎn)品,而是要重新定義數(shù)據(jù)中心的AI計算的規(guī)則,將數(shù)據(jù)中心視作基本的計算單元。
實際來講,一個DGX A100 GPU系統(tǒng)的單價就要20萬美元,對于要為了AI訓(xùn)練而采購成千上萬塊企業(yè)級GPU的云計算廠商來說,可想而知成本將有多高?,F(xiàn)在,也只有全球主要的云計算廠商、IT巨頭以及政府、實驗室為DGX A100下了初始訂單。
對于其他競爭對手而言,英偉達這次在AI服務(wù)器芯片及AI數(shù)據(jù)中心計算平臺鑄就的堅壁高墻,似乎在短期內(nèi)難以逾越。同時,也會成為未來幾年,AI服務(wù)器芯片廠商努力去對標(biāo)的性能標(biāo)準(zhǔn)。當(dāng)然,對英偉達A100的挑戰(zhàn),也自然就此開始。至于是英特爾、AMD還是AWS、谷歌,我們拭目以待。。(轉(zhuǎn)載自腦極體,作者海怪)
(轉(zhuǎn)載)