COMPUTEX 2025展會(huì)上,Arm宣布今年出貨到頂尖超大規(guī)模云端服務(wù)供應(yīng)商的算力,近50%是基于Arm構(gòu)架。Arm也預(yù)估PC與平板市場(chǎng),Arm構(gòu)架將占整體出貨量40%。新構(gòu)架要獲市場(chǎng)認(rèn)可往往需要較長(zhǎng)時(shí)間,Arm取得這成績(jī)耗時(shí)明顯更短,是如何做到?
構(gòu)建AI系統(tǒng)的三個(gè)關(guān)鍵
“AI正以前所未有的速度改變一切”,Arm高級(jí)副總裁兼終端事業(yè)部總經(jīng)理Chris Bergey說(shuō),“接下來(lái)三年,我們很快就會(huì)迎接大轉(zhuǎn)變:當(dāng)這些設(shè)備自主模式運(yùn)行,表現(xiàn)能媲美人類。”
這就需要建構(gòu)完善AI系統(tǒng),Chris Bergey表示建構(gòu)AI系統(tǒng)有三個(gè)關(guān)鍵要素:
首先,從云端到邊緣打造一個(gè)無(wú)所不在的平臺(tái)將具有極大的價(jià)值。很多時(shí)候AI在端側(cè)運(yùn)行,但在某些情況下,又希望能夠?qū)⒐ぷ髫?fù)載轉(zhuǎn)移到云端。擁有一個(gè)高可移植的平臺(tái),對(duì)于推動(dòng)先進(jìn)技術(shù)及產(chǎn)品的實(shí)現(xiàn),以及為現(xiàn)有產(chǎn)品增加新功能,非常有價(jià)值。
其次,是電力和每瓦性能。數(shù)據(jù)中心的能耗從兆瓦級(jí)(MW)躍升至吉瓦(GW)級(jí),其中超過(guò)50%實(shí)際上來(lái)自于機(jī)架和半導(dǎo)體設(shè)備。由于AI需要大量的運(yùn)算能力,這意味著「每瓦性能」可能是最關(guān)鍵的衡量指標(biāo)。
還有,軟件同樣至關(guān)重要。AI發(fā)展的速度非常快,這讓AI軟件開(kāi)發(fā)非常具有挑戰(zhàn)性。如果沒(méi)有成熟的軟件及其生態(tài)系統(tǒng),要跟上所有行業(yè)標(biāo)準(zhǔn)和各種AI框架,將會(huì)是一項(xiàng)非常繁重且具有挑戰(zhàn)性的工作。
Arm已經(jīng)在軟件方面進(jìn)行了大量投資,去年COMPUTEX,Arm發(fā)布了Arm Kleidi軟件庫(kù),目標(biāo)是讓開(kāi)發(fā)者能在各種AI模型與工作負(fù)載上,包括音檔、圖象、文字或圖像,都能即時(shí)獲得最佳的性能表現(xiàn)。
Kleidi推出后的一年內(nèi),已整合至多個(gè)主流AI框架中,包括ExecuTorch、PyTorch、Angel、llama.cpp、MediaPipe、MNN以及ONNX Runtime。
截至目前,Kleidi已在搭載Arm構(gòu)架的裝置上安裝量累計(jì)超過(guò)80億次,且仍在持續(xù)成長(zhǎng)中。
Arm CPU更適合AI訓(xùn)練與推理
Arm之所以能乘上AI的東風(fēng),關(guān)鍵原因就是Arm構(gòu)架的產(chǎn)品能充分滿足建構(gòu)AI系統(tǒng)的三大要素。
在數(shù)據(jù)中心領(lǐng)域,Arm已經(jīng)深耕了十多年。全球最大的云端服務(wù)供應(yīng)商亞馬遜云端科技(AWS)就對(duì)Arm服務(wù)器CPU的發(fā)展至關(guān)重要。
AWS去年秋季分享,他們有相當(dāng)一部分自身的工作負(fù)載運(yùn)行在基于Arm構(gòu)架的AWS Graviton處理器上。
在AWS完成自身工作負(fù)載遷移至Arm平臺(tái)后,第三方工作負(fù)載也紛紛轉(zhuǎn)向Arm平臺(tái),這為頭部云端服務(wù)供應(yīng)商帶來(lái)了超過(guò)40%的能源效率提升。AWS也曾分享,其超過(guò)90%的重要客戶(不包括Amazon)也在使用Arm的構(gòu)架。
這意味著,過(guò)去兩年AWS新部署的CPU算力中,有超過(guò)50%是基于Arm技術(shù)的Graviton。
除了AWS,也積極采用Arm構(gòu)架,例如,NVIDIA Grace Blackwell和Vera Rubin以及許多云端服務(wù)供應(yīng)商的自研加速器。
“這些加速器無(wú)論是用于訓(xùn)練還是推理,通常都會(huì)與Arm處理器配合使用,因?yàn)樵谛⌒酒–hiplet)層級(jí),它們之間可以實(shí)現(xiàn)緊密耦合,從而帶來(lái)卓越的運(yùn)算密度、I/O密度和頻寬表現(xiàn)。”Chris Bergey指出,這儼然成為一種趨勢(shì)──NVIDIA及云端服務(wù)供應(yīng)商都在基于Arm構(gòu)架運(yùn)行AI。
“基于這樣的發(fā)展勢(shì)頭,我們預(yù)計(jì)Arm構(gòu)架將占據(jù)半數(shù)2025年出貨到頭部云端服務(wù)供應(yīng)商的算力,這將是一個(gè)巨大的成就。”Chris Bergey同時(shí)表示,云計(jì)算推動(dòng)了這一成長(zhǎng),如今AI運(yùn)算也成為強(qiáng)勁驅(qū)動(dòng)力。數(shù)據(jù)中心的未來(lái)將是Arm運(yùn)算與加速器的緊密耦合。
Chris Bergey也明確指出,Arm目前聚焦在邊緣側(cè)GPU,尚未有投入數(shù)據(jù)中心中GPU的計(jì)劃。
Arm構(gòu)架PC與平板市場(chǎng)成長(zhǎng)驚人
在云端訓(xùn)練和推理使用Arm的產(chǎn)品的同時(shí),英偉達(dá)也將數(shù)據(jù)中心層級(jí)的運(yùn)算能力帶到了桌面級(jí)產(chǎn)品。
今年推出的NVIDIA DGX Spark,搭載了10個(gè)Arm Cortex-X925核心和10個(gè)Cortex-A725核心,并配備了可實(shí)現(xiàn)高達(dá)1PetaFLOPs(即每秒10^15次浮點(diǎn)運(yùn)算)AI性能的GPU。
“Cortex-X925具備業(yè)界最高水準(zhǔn)的IPC性能。這一點(diǎn)至關(guān)重要,因?yàn)镮PC(每時(shí)脈周期指令數(shù))與頻率的乘積決定了整個(gè)平臺(tái)的性能。相較于單純依賴提高頻率來(lái)提升性能,提升IPC可以更高效地實(shí)現(xiàn)性能的增強(qiáng),同時(shí)顯著改善能耗表現(xiàn)。”Chris Bergey指出。
今年稍后Arm會(huì)推出新的Armv9旗艦CPU(代號(hào)Travis)。屆時(shí),在目前業(yè)界IPC性能最強(qiáng)的Arm處理器基礎(chǔ)上,再次實(shí)現(xiàn)兩位數(shù)的IPC性能提升。
CPU的性能對(duì)于端側(cè)AI的普及非常重要,開(kāi)發(fā)者在進(jìn)行AI開(kāi)發(fā)時(shí),會(huì)根據(jù)具體需求來(lái)決定是在CPU、GPU或NPU上運(yùn)作。大多數(shù)第三方應(yīng)用是在CPU上進(jìn)行AI開(kāi)發(fā),有70%會(huì)始終運(yùn)作在CPU上,當(dāng)然AI不斷演進(jìn),異質(zhì)運(yùn)算是未來(lái)發(fā)展的方向。
Arm長(zhǎng)久的合作伙伴聯(lián)發(fā)科技,也在近期推出的Kompanio Ultra SoC,更進(jìn)一步提升了Chromebook 市場(chǎng)的水平,讓新一代Chromebook Plus設(shè)備具備先進(jìn)AI與多媒體能力。
“我們對(duì)在PC和平板領(lǐng)域,這些過(guò)去由x86主導(dǎo)的市場(chǎng)所取得的進(jìn)展也感到滿意。Arm構(gòu)架在PC與平板市場(chǎng)的需求大幅成長(zhǎng),預(yù)估在2025年將占整體出貨量的40%以上。”Chris Bergey指出。
Arm的真正優(yōu)勢(shì)在于全球有超過(guò)2,200萬(wàn)名的軟件開(kāi)發(fā)者。幾乎所有重要的軟件開(kāi)發(fā)不僅能在Arm構(gòu)架上運(yùn)行,而且都針對(duì)Arm構(gòu)架進(jìn)行了最佳化。再加上Arm構(gòu)架本身的設(shè)計(jì)及商業(yè)模式,開(kāi)發(fā)者只需一次開(kāi)發(fā),就能在整個(gè)半導(dǎo)體生態(tài)系中眾多采用Arm CPU的SoC上運(yùn)作。
長(zhǎng)久以來(lái),Arm在手機(jī)、物聯(lián)網(wǎng)、汽車市場(chǎng)都具備絕對(duì)的領(lǐng)先優(yōu)勢(shì)。服務(wù)器、PC和平板并不是Arm的優(yōu)勢(shì)所在,然而隨著AI時(shí)代的到來(lái),Arm成為了推動(dòng)AI普及的重要運(yùn)算構(gòu)架,同時(shí),AI也正成為推動(dòng)Arm績(jī)效成長(zhǎng)的重要力量。