《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 業界動態 > 【解讀】HotChips上這款存算一體芯片為什么這么強?

【解讀】HotChips上這款存算一體芯片為什么這么強?

2019-09-11
關鍵詞: HotChips 芯片

640.webp.jpg

  UPMEM,一家成立于2015年的法國半導體設計公司,應邀于2019年8月19日在HotChips會議上展示其顛覆性的存內計算(PIM : Processing in Memory)解決方案。該解決方案能夠將大數據和AI應用程序運行速度提高20倍,將能耗降低10倍。

  作為半導體行業關于高性能微處理器的頂級會議之一,HotChips吸引了數千名微處理器架構師、技術專家和IT專業人士。而作為一家成立僅僅4年的公司,UPMEM的產品究竟有什么樣的魅力使它能夠登上高手云集的HotChips的舞臺。

  中科院計算所智能計算機研究中心帶你解讀

  其中的奧秘......

  馮·諾依曼架構之殤

  馮·諾伊曼架構是計算機的經典架構,同時也是目前計算機以及處理器芯片的主流架構。在馮·諾伊曼架構中,計算單元與內存是兩個完全分離的組成部分:計算單元根據指令從內存中讀取數據,在計算單元中完成計算或處理,并存回內存。

  然而,馮·諾伊曼架構在構建之初只是一個理論模型,在建立該模型時做了一個當時看來合理的假設,即處理器和內存的速度很接近。但是計算機處理器的性能隨著摩爾定律高速發展,其處理速度隨著晶體管特征尺寸的縮小而直接提升,因此在過去數十年中其性能提升可謂是天翻地覆,現在一顆手機中處理器的性能已經比30年前超級計算機中的處理器還要強。另一方面,計算機的主要內存使用的是DRAM方案,DRAM讀寫數據的速度隨著摩爾定律有一定提升,但是提升速度并不如處理器,另一方面DRAM與處理器之間的接口屬于混合信號電路,其帶寬提升速度主要是受到PCB板上走線的信號完整性所限制,因此從晶體管尺寸縮小所獲得的增益并不大。這也造成:在內存容量指數級提升以后,CPU 和內存之間的數據傳輸帶寬成為了瓶頸。目前DRAM的性能已經成為了計算機整體性能提升的一個重要瓶頸,即所謂阻礙性能提升的“內存墻”。

  存內計算:通往大數據之門

  解決“內存墻”問題的一種方案是存內計算(PIM),該種思想在近年來的學術屆和業界都受到了極大的關注。PIM最早發源于計算機微體系結構的研究,它通過在內存中集成部分計算資源,實現快速數據處理,主要用于解決訪存帶寬、訪存能耗等體系結構設計的瓶頸問題。從計算和存儲誰接近誰的角度來看,PIM剛好和Cache相反。這一技術在上世紀90年代隨著David Patterson教授研究的Intelligent RAM項目有了一個高潮,但由于當時工藝不成熟、缺乏殺手級應用等問題,后來陷入了沉寂。最近由于三維堆疊、HBM、RRAM等新型工藝器件的出現以及神經網絡加速、圖計算等關鍵應用的推動,PIM重新成了研究熱點。2018年的國際固態半導體會議(ISSCC,全球最頂尖的芯片設計會議,發表最領先的芯片設計成果,稱為“芯片界的奧林匹克”)有專門一個議程,其中的論文全部討論存內計算;到了2019年,也有5篇關于存內計算的論文,不過分散在不同的議程中。存內計算的主要改進就是把計算嵌入到內存里面去,這樣內存就不僅僅是一個存儲器,還是一個計算器。這樣一來,在存儲或讀取數據的時候就同時完成了運算,因此大大減少了計算過程中數據搬運所帶來的消耗。

  UPMEM所采用的是將計算單元嵌入DRAM存儲陣列中的方式來實現PIM。該方式具有較強通用性,在該種實現方式下,僅需要在DRAM中增加適當的計算邏輯,同時與DRAM接口協議相兼容,便可適配現有的內存系統。

  UPMEM:內存市場的攪局者?

640.webp (5).jpg

  UPMEM此次對外發布的產品,最大的特點應該就是其基于DDR4 R-DIMM 模型,取代了標準的DIMM。整個DDR4 R-DIMM條有著8GB容量,包含了16個 4Gb DRAM顆粒。每個顆粒中嵌入了8個存內處理器核(DPU)。由于DPU能直接訪問內存單元,每個DRAM-DPU的帶寬能夠達到1GB/s。據悉,最終用于服務器上的產品容量將達到128GB,總共2048個DPU,最終的整體帶寬將達到2TB/s。

640.webp (4).jpg

  上圖展示的是一個DRAM顆粒中的結構示意圖,UPMEM針對其進行了專門的架構設計。每個DRAM顆粒中有8個bank, 均連接到各自的DPU上。DRAM加上DPU則使得原來只具有存儲功能的DRAM CHIP變成了具備存儲和計算功能的PIM CHIP。

  根據UPMEM已發表的論文和專利可以發現,其PIM方案早在4年前就已經確立。而該公司也整整花了4年的時間才實現了其產品的落地。由于晶體管結構和工作模式的差異,邏輯工藝和存儲器工藝是兩種不同的芯片工藝,要想在存儲器內部引入邏輯部件,這對于UPMEM來說是一個不小的挑戰。在此次會議的演講上,UPMEM用“highly constrained”來形容工藝條件對其PIM設計方案的阻礙。

640.webp (3).jpg

  其次,從演講的內容來看,大致介紹了如下一些

  關鍵技術難題和部分解決方案。

  No.1

  在DRAM工藝上建立數字邏輯的流程,比如Logic cell library,SRAM IP和Logic Design & Validation flow,這些是處理器設計和實現的基礎。同時,為了兼容DRAM工藝,DPU只能使用比較“慢”的晶體管設計,但是卻需要達到“較快”的處理器速度。為達到這一設計需求,DPU采用了14級Interleaved pipeline來實現500MHz的頻率,該頻率相對于CPU的頻率差距較大,但與DRAM的頻率差不多。同時提供了24個硬件線程,保證了流水線的效率。

  No.2

  針對DRAM 工藝,在DPU中采用了優化后的32位指令集,具有多線程,標量,循序等特點,值得注意的是UPMEM并沒有使用ARM或RISC-V等指令集。這種設計方案存在一個問題,即DPU所使用的指令集如何與CPU所采用的指令集(X86/ARM/POWER 9)交互,這一部分內容UPMEM并沒有在PPT中提到。

  No.3

  從存內處理器架構來看,UPMEM在DPU中放棄了Cache的使用,而是采用64KB的SRAM buffer替代Data Cache,采用24KB的 SRAM buffer替代Instruction Cache。在通常的體系結構中,Cache的存在主要是出于兩方面的考慮: CPU與DRAM的頻率差異以及DRAM的訪存延遲。對于DPU而言,盡管其頻率與DRAM相近,但DRAM的訪問遠做不到1個cycle,仍然需要SRAM來緩存數據。UPMEM的解決方案是采用SRAM buffer結構來做緩存,其作用與Cache類似,兩者的區別在于前者是硬件管理,后者是軟件管理。同時采用SRAM buffer替代Cache也有出于提高多線程效率的考慮。

  No.4

  DPU龐大的數量決定了: 不必讓兩個進程共享一個DPU,也就不需要在存內運行操作系統(OS),所以沒有必要考慮兼容性問題,但需要實現對LLVM/CLANG的支持。同時UPMEM還聲稱由于DPU之間不存在共享問題,其產品安全性得到了大大提升。

  No.5

  當在內存中增加了這么多的計算單元后,如何進行任務劃分很顯然將會成為一個重要問題,哪些任務交給CPU處理,哪些任務交給DPU處理?在UPMEM的講演中也分析了這方面的內容,將對算力要求高的部分應用搬到DPU中進行處理,絕大部分的常規應用仍然交給CPU執行。另一方面CPU也要負責從DPU中收集計算結果。

  對于DRAM的刷新控制,UPMEM此次并沒有在此次HotChips上提到,但很顯然這是一個很關鍵的問題。我們知道DRAM每隔一段時間均需要刷新一次,在這一設定下很可能出現的情況是DRAM需要刷新時,存內處理單元正在使用存儲陣列區中的數據。從其已經公布的專利來看,為保證刷新的正常進行,需要在DRAM的每個bank中增加一個刷新計數功能部件,該部件能將DPU使用存儲陣列時所接收的從CPU傳來的刷新命令記錄下來,待DPU處理完畢數據,再由外部刷新控制電路繼續進行刷新。

  盡管面對如此多的難題,這家雄心勃勃的初創公司仍然有信心在2020年實現DRAM-PIM產品的量產。從UPMEM提供的技術白皮書中可以看到,該公司的技術戰略路線基本是分三步走,分別DRAM級,SSD級和物聯網可穿戴設備場景下的存內計算。在產品戰略布局上,目前主要是服務器市場,今后應用的重心也會涉及到邊緣計算和智能汽車電子領域。

640.webp (2).jpg

  從短期來看,UPMEM所采用的將計算單元嵌入到DRAM中的存內計算實現方式具有較高的通用性,更容易被市場接納。

  但如何從行業的攪局者成為一個內存市場細分領域的引領者,UPMEM可能還有很長的一段路要走。

  Our Achievement

  中科院計算所智能計算機研究中心一直致力于性能及能效領先的智能計算系統研究,是國內最早開展新型存內計算技術研究的機構之一。目前我中心已經在存內計算的一致性方法,預取策略,計算劃分方法,模擬器搭建等方面取得了卓有成效的成績。其中存內計算模擬平臺PIMsim是首個把應用、OS、CPU和PIM放在一起的全系統、實際執行模擬器,已經開源發布在:https://github.com/vineodd/PIMSim

  同時值得注意的是我中心發表在IEEE COMPUTER ARCHITECTURE LETTER上,關于該模擬器介紹的論文:PIMSim: A Flexible and Detailed Processing-in-Memory Simulator,目前排在該期刊popular articles中的第一位。

640.webp (1).jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:[email protected]。
主站蜘蛛池模板: 特级淫片欧美高清视频蜜桃 | 女人张开腿让男人桶视频 | 日韩欧美国产另类 | 真实国产普通话对白乱子子伦视频 | 国产成人亚洲精品2020 | 久久久久久a亚洲欧洲aⅴ | 久久久国产99久久国产久 | 免费高清不卡毛片在线看 | 久久国产乱子伦精品免费不卡 | avtt天堂网 手机资源 | 国产精品久久久久久搜索 | 男人女人做性全程视视频 | 草草免费观看视频在线 | 久久久久久久久一级毛片 | 中文字幕在线观看国产 | 国产欧美日本 | 一级爱爱片一级毛片-一毛 一级爱做片免费观看久久 一级白嫩美女毛片免费 | 高清黄色毛片 | 播播网手机在线播放 | 日韩一区二区视频在线观看 | 欧美一级片在线 | 国产成人精品一区二区视频 | 欧美三级超在线视频 | 极品丝袜高跟91白沙发在线 | 一区二区三区高清视频在线观看 | 久久精品视频2 | 在线欧美一区 | 久草视频手机在线观看 | 日韩一级片在线观看 | 窝窝午夜看片七次郎青草视频 | 韩国免费一级成人毛片 | pgone太大了兽王免费视频 | 亚洲国产精品久久久久久网站 | 69成人免费视频 | 中文字幕亚洲一区 | 热e国产 | 99re66热这里只有精品免费观看 | 午夜性爽视频男人的天堂在线 | 欧美成人性色生活片天天看 | 国产ssss在线观看极品 | 国产精品免费视频一区二区三区 |