最近,AMD正式發(fā)布了其Instinct MI200系列GPGPU加速卡,進(jìn)一步進(jìn)軍GPGPU市場。
與傳統(tǒng)的GPU不同,MI200系列主要針對的并不是游戲和渲染應(yīng)用,而是高性能計算(如人工智能,科學(xué)計算)應(yīng)用,即GPGPU(general-purpose GPU)。這樣的定位顯然與Nvidia主推的基于CUDA生態(tài)的GPGPU(如A100)相同,因此可能在GPGPU市場的競爭格局產(chǎn)生影響。當(dāng)然,MI200并非AMD的第一款GPGPU。在這之前,AMD也推出過MI50和MI100系列GPGPU,雖然在整個市場上聲勢并不大,但是也積累了不少設(shè)計和軟件方面的經(jīng)驗。這次推出的MI200系列的性能可謂不俗,在科學(xué)計算常用的64位浮點數(shù)(FP64)性能可達(dá)Nvidia最新款GPGPU A100的近5倍,而在人工智能常用的16位浮點數(shù)(FP16)方面也可達(dá)到A100的1.2倍,搭配的內(nèi)存方面內(nèi)存大小可達(dá)A100的1.6倍,內(nèi)存帶寬也是A100的1.6倍。與Nvidia全力投入人工智能常用的低精度FP16不同,MI200仍然兼顧了科學(xué)計算常用的FP64,這可能也是想在某種程度上與Nvidia實現(xiàn)差異化競爭。
在架構(gòu)方面,AMD在MI200中也使用了其引以為豪的chiplet高級封裝技術(shù),而這也使MI200成為首款使用chiplet技術(shù)的多晶片(multi-die)GPU。具體來說,MI200的基本chiplet單元稱為CDNA-2晶片,每個CDNA-2晶片擁有290億個晶體管,包含有112個計算單元(CU),并且搭載了4個HBM2E內(nèi)存接口,以及8個用于封裝內(nèi)互聯(lián)的Infinity Fabric Link。每個MI200 GPU則是把兩個這樣的CDNA-2 chiplet使用2.5D封裝技術(shù)封裝在一起。另外,一個容易被忽略的細(xì)節(jié)是,MI200擁有CPU和GPU之間支持內(nèi)存一致性(coherency)的互聯(lián),這使得MI200配合AMD的CPU有機(jī)會實現(xiàn)CPU和GPU共享內(nèi)存空間,這樣就能減少CPU到GPU內(nèi)存復(fù)制造成的額外開銷。
總體來說,AMD MI200的硬件性能可以與Nvidia A100相媲美,在一些高性能科學(xué)計算領(lǐng)域甚至比起A100更強(qiáng)。考慮到明年Nvidia可能會發(fā)布A100的下一代GPU并且預(yù)計有大幅性能提升,AMD的MI200暫時還不太可能直接取代Nvidia占據(jù)GPGPU性能最強(qiáng)的寶座,但是這樣的性能已經(jīng)足以使得AMD的GPGPU成為Nvidia GPU一個有力的替代性方案,尤其全球半導(dǎo)體持續(xù)缺貨的形勢也使得許多云端高性能計算的大客戶有考慮Nvidia替代型解決方案的動力。
AMD的GPGPU生態(tài)逐漸進(jìn)入主流
事實上,Nvidia能占領(lǐng)GPGPU和AI加速芯片領(lǐng)跑地位不僅僅是依靠其強(qiáng)大的芯片性能,圍繞芯片性能的CUDA軟件生態(tài)也是Nvidia的一個重要護(hù)城河。具體來說,如何能給開發(fā)者提供一個易用的軟件接口,能與上游主流生態(tài)框架(例如人工智能領(lǐng)域的PyTorch,TensorFlow等)相集成,并且能較為簡單地就能充分利用芯片的性能,是一個需要長期積累的過程,同時一旦成功則會形成一個很高的護(hù)城河。
在這方面,AMD的軟件生態(tài)相對于Nvidia的CUDA而言,處于后發(fā)地位,這也是阻礙AMD真正進(jìn)入GPGPU主流市場的重要瓶頸。然而,隨著AMD多年來在這方面的投入,AMD的相關(guān)生態(tài)也在逐漸成為主流可選項之一。
最初,在GPGPU加速人工智能剛剛進(jìn)入主流視野中時(2012-2015年),就在Nvidia已經(jīng)大局投入CUDA生態(tài)時,AMD卻沒有官方動作,想要在AMD的GPU上做高性能計算還需要借助第三方OpenCL,開發(fā)并不容易。AMD從2015年底開始真正由官方推出一套能支持人工智能等高性能計算的生態(tài)環(huán)境(ROCm),相比Nvidia的CUDA(2007年推出)落后了整整八年的時間。雖然在ROCm推出之初并沒有得到業(yè)界大規(guī)模應(yīng)用,但是好在AMD并沒有放棄這項投資。在經(jīng)過五年多的努力之后,今天ROCm相對于剛推出時的狀態(tài)而言,其成熟程度已經(jīng)接近了主流選項之一。舉例來說,目前ROCm已經(jīng)完成了和主流人工智能框架TensorFlow和PyTorch的整合,在PyTorch中甚至絕大多數(shù)接口都和CUDA版本完全一致,這就大大降低了開發(fā)難度。
公平地說,目前AMD的一套軟件開發(fā)生態(tài)已經(jīng)達(dá)到了“可用”的狀態(tài),但是相較于CUDA生態(tài)還有一些距離。首先,在訓(xùn)練方面,ROCm做單卡訓(xùn)練已經(jīng)不成問題,性能也不錯,但是分布式訓(xùn)練仍然需要一些額外的支持。另一方面,在推理方面,AMD仍然缺乏對應(yīng)Nvidia TensorRT這樣的高性能推理工具鏈,因此如果想要在AMD的GPU上做高性能人工智能推理還需要做大量的工作。這或許也是AMD在這次發(fā)布MI200的時候,仍然把重點放在了環(huán)境較為簡單的科學(xué)計算,而對人工智能只是兼顧。
由于目前AMD的ROCm已經(jīng)到達(dá)了可用的狀態(tài),我們預(yù)計下一步AMD會繼續(xù)和對于云端計算有大量需求的互聯(lián)網(wǎng)巨頭合作,一起進(jìn)一步共同開發(fā)ROCm生態(tài)環(huán)境。對于互聯(lián)網(wǎng)巨頭來說,他們有足夠的技術(shù)團(tuán)隊來支持和開發(fā)基于AMD平臺的人工智能訓(xùn)練和部署軟件,同時他們也有動力去做這件事情,因為擁有AMD和Nvidia兩個供貨商,比起只有Nvidia一個選項來說,無論是從芯片供應(yīng)穩(wěn)定性還是芯片售價來說,都會好很多。而AMD也可以借助這樣的合作共同開發(fā)來進(jìn)一步打磨軟件生態(tài)以及芯片架構(gòu),預(yù)計會在未來三到五年內(nèi)會真正成為Nvidia在GPGPU領(lǐng)域真正的競爭對手。
AMD的服務(wù)器市場勢頭強(qiáng)勁
這次AMD發(fā)布MI200進(jìn)一步增強(qiáng)了其在云端服務(wù)器市場的地位。這個月早些時候,AMD剛剛公布了和Facebook(現(xiàn)名Meta)的合作計劃,其CPU將正式進(jìn)入Facebook的云端服務(wù)器中心。而在這之前,AMD還公布了和谷歌的合作計劃,可見目前AMD的CPU在云端服務(wù)器市場正在逐漸蠶食Intel的份額。而在云端人工智能加速卡領(lǐng)域,MI200的發(fā)布也將成為一個重要的里程碑,雖然它不能直接取代Nvidia的GPU,但是我們認(rèn)為AMD距離成為主流GPGPU供貨商僅僅一步之遙。更重要的是,云端的CPU和GPU之間存在很強(qiáng)的協(xié)同效應(yīng),一旦AMD的CPU和GPGPU同時成為云端服務(wù)器中心的主流選項,那么兩者之間的協(xié)同效應(yīng)將使得AMD在這個市場擁有更強(qiáng)的話語權(quán)(這也是Nvidia一直在尋求收購ARM的主要原因,因為Nvidia也希望能在CPU領(lǐng)域擁有更強(qiáng)的自研能力)。同時,由于AMD同時在CPU和GPU方面有積累,其之前已經(jīng)投入多年的共享內(nèi)存空間技術(shù)也可望隨著AMD的CPU和GPU成為服務(wù)器領(lǐng)域的主流選項而獲得更多應(yīng)用,從而進(jìn)一步提升AMD的該市場的技術(shù)實力。我們認(rèn)為,未來AMD在服務(wù)器領(lǐng)域的與機(jī)會獲得更多的市場份額和話語權(quán),同時這個市場的競爭格局也將隨之發(fā)生改變。