深入了解Armv9架構特性及優勢
2025-02-28
作者:Arm 物聯網事業部軟件產品管理總監 Christophe Fava-Rivi
來源:Arm
Arm Cortex-A320 CPU 的推出具有重要的里程碑意義。作為首個基于 Armv9 架構的超高能效 CPU,這一突破性的處理器為功耗有限的設備引入了此前僅在尖端移動計算解決方案中使用的先進功能,使其在人工智能 (AI) 處理、安全性和整體能效方面均實現了顯著提升。
鑒于已有其他 Arm 處理器在為多樣化的邊緣側和端點設備提供良好支持,為何還要將 Armv9 功能引入一款服務相同目標設備的處理器技術中呢?答案是順“時”而為。
當今的物聯網 (IoT) 環境對邊緣設備的需求更勝以往。智能攝像頭需要在本地運行復雜的計算機視覺算法;工業傳感器須處理復雜的機器學習 (ML) 模型以進行預測性維護;即使是簡單的端點設備,也越來越離不開增強的安全性和虛擬化功能。這些不斷變化的需求使得 Armv9 的先進功能不再只是錦上添花,而是新一代物聯網創新的必備條件。
Armv9 架構將 Cortex-A320 的革新功能帶到了邊緣側,通過可伸縮向量擴展 (SVE2) 等關鍵的 Armv9 特性,增強了 AI 和數字信號處理 (DSP) 性能;同時,它還利用了內存標記擴展 (MTE) 以及通過 Secure EL2 (S-EL2) 提供的先進虛擬化支持等全面的安全特性。這些功能與 Cortex-A320 高能效的微架構相結合,使其能夠維持嚴格的能耗預算,并同時為邊緣 AI 處理開創新的可能性。
讓我們一同來跟隨本文探索這些功能。
采用通用 Armv9 架構的優勢
Armv9 架構的一大突出特性是支持 SVE2。SVE2 有助于提升 DSP 任務性能,該特性使得處理復雜算法更加快速、高效。這對于 AI 和 ML 工作負載等需要高算力的應用特別有助益。借助 SVE2,智能攝像頭可以更高效地處理視頻流,語音接口能夠以更低的延遲進行自然語言處理,而工業傳感器則可在保持長時間電池續航的同時,運行復雜的分析算法。
請參閱:
· 利用 Armv9 CPU 和 SVE2 加速視頻解碼和圖像處理
· 架構學習 - SVE2 入門指南
Cortex-A320 先進的安全性
安全性在當今的數字時代至關重要。為滿足這一需求,Cortex-A320 采用了 MTE、指針驗證 (PAC) 和分支目標識別 (BTI) 等先進的安全特性,并協同發揮作用,以防御各種網絡安全威脅。
MTE 有助于檢測和減少 C/C++ 程序中常見的內存安全漏洞。通過對內存分配進行標記,并在訪問時檢查這些標記,MTE 可以識別并防范潛在的安全漏洞。PAC 通過確保函數指針和返回地址的完整性,為系統增加了一層額外的安全保護,以減少攻擊者利用軟件漏洞的機會。而 BTI 則是通過確保間接分支僅指向有效位置,來保護系統免受控制流攻擊。
請參閱:
· 通過 MTE 增強安全性
· 在面向 Linux 的 AArch64 上啟用 PAC 和 BTI(上)
· 在面向 Linux 的 AArch64 上啟用 PAC 和 BTI(中)
· 在面向 Linux 的 AArch64 上啟用 PAC 和 BTI(下)
· 架構學習 - 為復雜軟件保駕護航
S-EL2 虛擬化增強隔離性
虛擬化是現代計算中的一項關鍵技術,它能夠高效利用資源并改善不同工作負載之間的隔離性。Cortex-A320 支持 S-EL2 虛擬化,增強了在同一硬件上運行的虛擬機之間的隔離性。這在多用戶環境中尤為重要,因為在此類環境中,不同的用戶或應用共享相同的物理資源。
S-EL2 為虛擬機提供了一個安全的執行環境,可確保敏感數據和操作不受其他虛擬機以及底層虛擬機監控程序的影響。該級別的隔離對于維護云計算和邊緣計算場景中數據的完整性和機密性相當重要。
為了保護敏感數據和代碼免受未經授權的訪問,TrustZone 是 Arm 處理器內置的安全特性,它創建了一個獨立且受保護的環境,確保關鍵任務與潛在威脅隔離運行。另一個選擇是 Hafnium,這是一個針對 Arm 的 A 處理器的安全固件參考實現,為受信任的應用提供堅實根基,并增強了系統對網絡威脅的防護。
請參閱:
· 架構學習 - 面向 AArch64 的 TrustZone
· Hafnium 文檔
SVE2 提升 DSP 性能
SVE2 對于提升 Cortex-A320 的 DSP 能力至關重要。DSP 任務在音視頻處理、通訊及科學計算等眾多應用中必不可少。SVE2 通過引入一系列新指令和數據類型,優化了這些任務的處理性能,從而進一步擴展了 Armv9 架構的功能。
例如,SVE2 引入了用于矩陣乘法的新指令,這一操作是許多 ML 算法的基礎。這些指令使得處理大數據集變得更加快速和高效,從而提高了 ML 工作負載的性能。此外,SVE2 還支持如 BF16 等專為 ML 和 AI 應用優化的新數據類型。
請參閱:
· Arm 針對 A 處理器架構推出 SVE2 和 TME
利用龐大的 Armv9 軟件生態系統
Cortex-A320 的一大優勢在于,它與廣泛的 Armv9 軟件生態系統的兼容性。該生態系統涵蓋一系列專為新一代邊緣 AI 開發和優化的工具、庫和框架,如高度優化的編譯器(包括支持循環優化的 LLVM、加密和 SIMD)等。超過 2,000 萬名的 Arm 開發者均能借助這一生態系統,充分受益于最新的軟件技術進展,進而加速其應用的開發。
Armv9 軟件生態系統支持 Linux 和安卓等主流的操作系統,并能夠提供更出色的性能和安全特性,以及容器化和云開發方法。開發者可訪問 Arm 廣泛的工具和資源,高效地構建和部署應用。
請參閱:
· Arm 嵌入式工具鏈:新一代 Arm C/C++ 嵌入式編譯器
· 擴展 LLVM 優化
運行實時操作系統
Cortex-A320 兼容 Zephyr 等實時操作系統 (RTOS),使其在物聯網和嵌入式應用中的用途更為廣泛。Zephyr 是一款專為資源有限設備設計的可擴展 RTOS,支持多種硬件架構和通信協議,能夠實現高效且可靠的開發。
Kleidi 賦能邊緣 AI 性能
Arm KleidiAI 是一款輕量級的開源 AI 庫。得益于關鍵的 ML 框架和運行時集成,其優化并加速了Cortex-A320 上的 AI 工作負載,使開發者能夠利用 Armv9 架構的先進功能和靈活性。Kleidi 優化了跨不同工作負載的軟件級性能,以充分發揮 Arm CPU 上的 AI 加速。其高度優化的內核提升了 ExecuTorch、LiteRT(前身為 Tensorflow Lite)等主流 AI 框架性能,從而實現了更快速的邊緣 AI 執行,以及 CPU 和 NPU 間順暢的工作負載靈活性。
現在,Arm Kleidi 將擴展至物聯網領域,為新一代邊緣 AI 應用釋放 CPU 性能。Kleidi 在嵌入式和物聯網用例中實現了顯著的性能加速。例如,在 Llama.cpp 上運行微軟的 Tiny Stories 小語言模型時,Cortex-A320 的性能提升了近 70%。這一強大的組合簡化了 AI 開發,并加速了數十億設備的性能,使開發者能夠更輕松地在恰當的時間和位置上執行合適的 AI 工作負載。
請參閱:
· Kleidi - 軟件級 AI 加速
· Arm KleidiAI 助力 AI 框架性能提升
Cortex-A320 塑造物聯網的未來
Cortex-A320 CPU 的推出標志著計算技術的演進歷程中的一個重要里程碑。憑借其先進的特性和強大的架構,Cortex-A320 有望革新物聯網行業,并為未來的創新應用鋪平道路。廣泛采用的通用 Armv9 架構、增強的安全特性、S-EL2 虛擬化、借助 SVE2 提升的 DSP 性能、與龐大的 Armv9 軟件生態系統的兼容性、對 Zephyr 等 RTOS 的運行支持,以及 Arm Kleidi 的引入,使其成為開發者和企業的理想之選。
將 Armv9 功能引入超高能效設備為邊緣側的創新開辟了全新的可能性。開發者現在可以構思并打造以前在功耗有限環境中無法實現的應用,譬如在本地運行復雜 AI 的智能攝像頭、實時處理復雜 ML 模型的工業系統,以及在不犧牲電池續航情況下實現企業級安全性的物聯網設備。
無論你是在開發物聯網解決方案、AI 和 ML 應用,還是構建安全計算環境,Cortex-A320 都能為你提供 AI 時代所需的工具和能力,助你旗開得勝。點擊此處,了解更多有關 Cortex-A320 的信息,及其卓越性能、安全性和能效為物聯網領域帶來的變革性影響。