欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

【謝源評體系結構頂會 MICRO 2016】神經網絡加速器仍是熱點,但圖計算加速器奪最佳論文(下載)

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

1 新智元原創

作者:謝源、王超等

   新智元啟動新一輪大招聘 :COO、執行總編、主編、高級編譯、主筆、運營總監、客戶經理、咨詢總監、行政助理等 9 大崗位全面開放。

   簡歷投遞:j obs@aiera.com.cn

   HR 微信 13552313024

   新智元為COO和執行總編提供最高超百萬的年薪激勵;為骨干員工提供最完整的培訓體系、 高于業界平均水平的工資和獎金。

   加盟新智元,與人工智能業界領袖攜手改變世界。

   【新智元導讀】 計算機體系結構頂級會議 MICRO 2016 日前召開, 正如 ISCA 2016,神經網絡的加速和優化工作仍然是一個熱點 。我們整理了 MICRO 2016 與神經網絡相關的 6 篇論文,并邀美國加州大學圣塔芭芭拉分校謝源教授課題組神經網絡架構研究團隊的博士王超,以及博士生李雙辰、劉瀏、朱茂華、谷?等進行點評。但與 ISCA 2016 不同,這次 針對圖計算的加速器脫穎而出成為最佳論文,其蘊涵的重要意義和發展趨勢,值得思考。 【進入新智元公眾號,在對話框輸入“1107”下載全部 7 篇(含 MICRO 2016 最佳)論文】

   MICRO(The 49th Annual IEEE/ACM International Symposium on Microarchitecture)是計算機體系結構領域的頂級會議,重點關注處理器體系結構的設計等內容。自 1968 年創辦以來,迄今已經舉辦了 49 屆,今年的 MICRO 于 10 月 15 日至 19 日在臺北召開。

   歷史上,MICRO 長期被美國頂尖研究機構所占領,例如開會地點, 僅有 10 次 在美國之外的城市召開,本次是 MICRO 第二次在亞洲召開(第一次是 1999 年在以色列),吸引了大批來自包括中國在內的東亞國家研究人員參與。本屆會議共收到了 283 篇投稿論文,最終錄用了 61 篇,接收率為 21.6%。

【謝源評體系結構頂會 MICRO 2016】神經網絡加速器仍是熱點,但圖計算加速器奪最佳論文(下載)

   圖1 MICRO會場座無虛席,且有大量亞洲面孔

   神經網絡加速器成 MICRO 2016 熱點

   從本次 MICRO 論文分析來看,目前體系結構研究的熱點體現在兩個方面:

  • 第一是對存儲結構的關注;

  • 第二是對神經網絡加速器的關注

   下圖是一個對 MICRO 2016 的 Program 的 Word Cloud,我們可以有個直觀的印象。其中, 神經網絡、存儲、加速器是重點 。 這也與我們在上次的 ISCA 2016 分析中得到的結論保持一致。

【謝源評體系結構頂會 MICRO 2016】神經網絡加速器仍是熱點,但圖計算加速器奪最佳論文(下載)

   圖2 MICRO Program的Word Cloud,關鍵字 Memory, Neural, Accelerator.

   接下來看一下 MICRO2016 投稿的數據統計:

   【謝源評體系結構頂會 MICRO 2016】神經網絡加速器仍是熱點,但圖計算加速器奪最佳論文(下載)

圖3 MICRO 投稿數據統計(按Topic劃分)

   圖3是對 MICRO 2016投稿論文的統計,可以看出,關于存儲方向的投稿數量超過了 105 篇(>35%)。其中,對于新型存儲相關的投稿有近 40 篇(約15%),可見對其的重視程度。

   【謝源評體系結構頂會 MICRO 2016】神經網絡加速器仍是熱點,但圖計算加速器奪最佳論文(下載)

圖4 ISCA 25 Years(Processor V.S. Memory)

   再看一下 對 ISCA-25 年發展趨勢回顧(圖4),大家對處理器結構的研究熱度自 2004 年之后就有明顯的降溫。與此同時,對存儲,特別是近年來對新型存儲結構(如 ReRAM、STT-RAM 等非易失性存儲器)以及存儲工藝(如 HBM 和 3DIC 等) 的關注與日俱增

   今年的 MICRO 會議中,就有采用 STT-RAM 來進行 GPU 存儲優化的論文(參見論文OSCAR)以及采用 3D 技術進行存儲功耗優化的論文(參見論文 Snatch)。

   從論文作者的地域分布來看,今年 MICRO 來自中國的作者數量有了較為大幅的增長。向MICRO 2016 投稿的中國作者人數超過 85 人,排在美國和韓國之后,位列第三。 而從最終錄用論文的作者統計來看,中國僅低于美國處于第二位,說明 來自中國的論文數量大幅上升的前提下,質量也保持在比較高的水平

   【謝源評體系結構頂會 MICRO 2016】神經網絡加速器仍是熱點,但圖計算加速器奪最佳論文(下載)

圖5 MICRO 投稿數據統計(按地域劃分)

   新智元整理了 ISCA 2016 神經網絡相關論文,并邀美國加州大學圣塔芭芭拉分校謝源教授課題組的神經網絡架構研究團隊的王超博士,以及博士生 李雙辰、劉瀏、朱茂華、谷?等 對相關論文進行點評。

   MICRO 2016 和神經網絡相關論文點評

   MICRO2016和神經網絡相關的論文列表:

  1. NEUTRAMS: Neural Network Transformation and Co-design under Neuromorphic Hardware Constraints , Yu Ji (Tsinghua University), YouHui Zhang (Tsinghua University), ShuangChen Li (University of California, Santa Barbara), Ping Chi (University of California, Santa Barbara), CiHang Jiang (Tsinghua University), Peng Qu (Tsinghua University), Yuan Xie (University of California, Santa Barbara), WenGuang Chen (Tsinghua University)

  2. Cambricon-X: An Accelerator for Sparse Neural Networks , Shijin Zhang (Chinese Academy of Sciences), Zidong Du (Chinese Academy of Sciences), Lei Zhang (Chinese Academy of Scienses), Huiying Lan (Chinese Academy of Sciences), Shaoli Liu (Chinese Academy of Sciences), Ling Li (Chinese Academy of Sciences), Qi Guo (Chinese Academy of Sciences), Tianshi Chen (Chinese Academy of Sciences), Yunji Chen (Chinese Academy of Sciences)

  3. From High-Level Deep Neural Models to FPGAs , Hardik Sharma (Georgia Institute of Technology), Jongse Park (Georgia Institute of Technology), Divya Mahajan (Georgia Institute of Technology), Emmanuel Amaro (Georgia Institute of Technology), Joon Kyung Kim (Georgia Institute of Technology), Chenkai Shao (Georgia Institute of Technology), Asit Mishra (Intel), Hadi Esmaeilzadeh (Georgia Institute of Technology)

  4. vDNN: Virtualized Deep Neural Networks for Scalable, Memory-Efficient Neural Network Design, Minsoo Rhu (NVIDIA), Natalia Gimelshein (NVIDIA), Jason Clemons (NVIDIA), Arslan Zulfiqar (NVIDIA), Stephen W. Keckler (NVIDIA)

  5. Stripes: Bit-Serial Deep Neural Network Computing , Patrick Judd (University of Toronto), Jorge Albericio (University of Toronto), Tayler Hetherington (University of British Columbia), Tor M. Aamodt (University of British Columbia), Andreas Moshovos (University of Toronto)

  6. Fused-Layer CNN Accelerators , Manoj Alwani (Stony Brook University), Han Chen (Stony Brook University), Michael Ferdman (Stony Brook University), Peter Milder (Stony Brook University)

   1

NEUTRAMS: Neural Network Transformation and Co-design under Neuromorphic Hardware Constraints

摘要

   《NEUTRAMS:神經網絡在考慮類腦計算芯片硬件限制下的變換和協同設計》論文由清華大學張悠慧教授課題組和加州大學圣巴巴拉分校謝源教授課題組合作完成。該論文以連接復雜的神經網絡算法和高效的類腦計算芯片為目標。類腦計算芯片,特別是基于 ReRAM 的芯片,可以融合數據存儲與計算,在較低的功耗下還能達到很高的計算性能。然而這類芯片及硬件設計,受到為成熟的 ReRAM 工藝影響,存在許多限制:比如計算與存儲精度受限,ReRAM 陣列規模受限(即計算點積向量程度受限)等問題。該論文講高層次描述的神經網絡加以轉換并重新訓練,使得目標神經網絡可以完好的映射到這些硬件設計上,并且將硬件限制帶來的影響降到最小。為了做到這一點,該論文采用神經網絡模型轉換和硬件映射這兩個步驟。在模型轉過程中,考慮到 ReRAM 陣列規模的限制,將原神經網絡稀疏化后劃分成規模適應于ReRAM陣列的子網絡。同時,對數據進行了量化來適應硬件精度受限的問題。最后,增加新的網絡層并重新訓練,來減小為硬件進行的網絡裁剪得來的識別率損失。硬件映射過程則采用了 Kernighan-Lin 策略。該工作分別針對以計算 SNN 的加速器結構的 Tianji 芯片和計算 CNN 的內存中計算架構(processing-in-memory)的 PRIME 硬件結構,進行了實驗和探索。

   【點評】 基于新型器件的神經網絡加速器,因為極高的能量效率,非常吸引研究者。但是由于工藝問題,這些新型硬件帶來的約束條件阻礙了其得以大規模應用。研究者們從硬件設計到體系結構設計,都提出了一些解決該問題的方法。這篇文章站的更高,從軟件的角度去攻克這一問題,從而也起到了更有效的效果。

   2

   Cambricon-X: An Accelerator for Sparse Neural Networks

摘要

   《Cambricon-X:一種針對稀疏神經網絡的加速器》的作者是中科院計算所陳云霽、陳天石研究員課題組。神經網絡剪枝技術可以在保證預測精度不變的情況下消除網絡中大部分突觸權值數據,減少冗余計算量。目前主流深度學習加速器(如 DianNao、DaDianNao)缺乏對處理剪枝后的稀疏網絡提供有效支持――需要用零填充剪去的權值,再用普通方式進行計算,故無法從剪枝中獲益。

   這篇論文設計了一種能有效處理稀疏網絡的深度學習加速器――Cambricon-X,該加速器在將神經元送入計算單元處理前對非零神經元逐個標記,慮除零值神經元,計算單元內部的權值 buffer 只存放非零神經元對應的權值數據,從而消除多余計算和權值存儲。在通用性方面,只需跳過神經元標記、慮除步驟即可按普通計算方法對非稀疏神經網絡進行處理,通用性較強。與此同時,配套的編程框架中提供了調用加速器的高級語言編程接口和用來描述加速器行為的底層指令,設計者可以在 Caffe 中無縫使用加速器,易用性較好。

   【點評】 Cambricon-X是首個稀疏神經網絡加速器,該項工作是對該團隊研究的系列工作DianNao、DaDianNao等的拓展和完善。當前使用剪枝技術消除深度學習中的冗余計算十分流行,針對DianNao等深度學習加速器在處理剪枝后稀疏網絡時體現出的乏力,Cambricon-X針對稀疏神經網絡的計算模式和訪存特性,設計專門的神經元Index引擎來選擇需要計算的神經元,進而在有限的帶寬要求下實現高性能和高能效的神經網絡加速。該加速器通過加入簡單邏輯模塊使過去常用深度學習加速器能夠與剪枝技術相融合,在有效處理稀疏網絡的同時不失處理一般網絡的通用性,并且兩種處理模式的性能和能耗均大幅優于 CPU、GPU、DianNao 等現有技術。

   3

   From High-Level Deep Neural Models to FPGAs

摘要

   《從高層次深度神經網絡模型到FPGAs》來自佐治亞理工Hadi Esmaeilzadeh教授的團隊。文章認為FPGA由于其可編程和低功耗等特性在加速深度神經網絡(DNN)中扮演重要角色,但在FPGA上實現高性能與低能耗并非易事,尤其在深度神經網絡超大內存使用和FPGA有限片上內存的情況下。本文提出并設計可以根據高層次神經網絡模型自動生成可綜合FPGA加速器的框架(framework)DnnWeaver。該框架使用DNN專用指令集使其可采用Berkeley Caffe等價的編程接口。同時開發針對FPGA的底層優化模板設計,并根據設計需求擴展成DNN加速器。

   【點評】 文章所提出框架可加快深度神經網絡在FPGA上的實現并更易嘗試不同的優化設計。從高層綜合(HLS)相比DnnWeaver利用底層優化模板的設計方法,可以得到更優的加速器設計。與此同時,DNN加速器的重點轉移到優化模板的設計上。FPGA廠商或第三方如能開發優化的底層實現庫和編譯器等技術,使用FPGA加速神級網絡將會有更大的突破。

   4

   vDNN: Virtualized Deep Neural Networks for Scalable, Memory-Efficient Neural Network Design

摘要

   這篇論文來自于英偉達NVIDIA,當下比較流行的深度學習框架諸如 Caffe、Torch、Theano 和 TensorFlow 均需要用戶非常注意地控制 GPU 板載顯存(VDRAM)的使用量。這個限制的存在使得用戶不得不轉投使用顯存需求少的神經網絡模型或者使用多塊GPU并行處理網絡訓練。為了能夠更充分地利用有限的 GPU 板載顯存進行深度神經網絡訓練,本文提出了一個針對神經網絡應用的運行時內存管理器(稱為“虛擬化DNN”/vDNN),使得深度神經網絡訓練時可以被同時映射到 CPU 內存和 GPU 板載顯存上,并最大限度地保證訓練速度。部署 vDNN 之后,AlexNet GPU內存平均使用率降低了 89%,OverFeat 降低了91%,GoogLeNet 降低了95%。同時,對于一些原本不能在單塊 GPU 上訓練的網絡(例如 VGG-16 在 batch size 為 256 時需要 28GB 的存儲空間)也可以在搭載 12GB 板載顯存的 Titan X GPU上完成訓練,照比無限大板載顯存的 GPU 模型僅損失 18% 的訓練速度。

   【點評】 本文的亮點在于對 DNN 訓練和預測(inference)在存儲空間的需求上做了非常深入的分析。DNN預測過程不需要保存各層神經元的輸出結果,但由于訓練時各層的結果需要在反向傳播中使用,必須保存直到該次迭代結束。作者提出的內存管理器可以將暫時不需要被使用的輸出結果轉移到CPU內存當中,待到需要時再將其復制到GPU板載顯存當中。由于反向傳播各層順序正好是正向傳播的倒轉,因此可以利用這一特性對數據傳輸進行優化。

   5

   Stripes: Bit-Serial Deep Neural Network Computing

摘要

   《Stripes:比特串行的深度神經網絡》由多倫多大學和英屬哥倫比亞大學的研究小組合作完成。由于深度神經網絡不同層級和不同架構對數值精度的需求存在差異,本文提出了名為Stripes(STR)的硬件加速器,其執行深度神經網絡應用的時間與其使用的數值精度的大小成正比。在不損失應用精度的情況下,STR 依賴于比特串行計算單元,并充分利了用深度神經網絡中的并行性來提高計算性能和降低能耗。除此以外,STR 還提供了一定的靈活度,使得應用可在運行時進行精度、性能和能耗三方面的協調。多個基于圖像分類的深度神經網絡應用顯示STR比DaDianNao在不損失精度的情況下有1.92x的性能提升和57%的能效提升,代價是 32% 的面積開銷。

   【點評】 本文的研究基于中科院計算所陳云霽和陳天石研究員的 DaDianNao工作,主要創新在于將神經功能單元(Neural Functional Units)中的 16 比特的并行神經元輸入,變為了16比特的串行輸入,進而在不損失或損失很小精度(~1%)的情況下,將16比特簡化為 p 比特(可逐層調整),獲得 16/p 的理論加速性能(實驗結果近似理論加速性能)。此外由于計算比特數的減少,以及串行帶來的對神經權重緩存訪問次數的減少,其能耗也有顯著降低。本文提出的架構可應用于計算能量受限的平臺,并且應用可以耐受一定的精度損失,從而用可以接受的精度損失換取能耗的降低和計算性能的提升。

   6

   Fused-Layer CNN Accelerators

摘要

   《層與層互融合的卷積神經網絡加速器》一文,來自紐約州立大學石溪分校(Stony Brook University)。該論文發現,在計算神經網絡時,由于是逐層計算,在計算每層的前后都要讀寫特征圖片(feature map)。這占據了近 50% 的片外存儲(off-chip memory)訪問。這個觀察明確了研究層間復用的動機:減少層間特征圖片的片外存儲訪問,從而提高性能,減小帶寬要求,并減小能耗。為了利用層間數據復用,該論文提出了利用金字塔多層滑動窗口(pyramid-shaped multi-layer sliding window)對輸入特征圖片進行處理,從而直接得到幾層之后的結果。該論文還提出了一個優化框架,探索如如果劃分融合層擠層內劃分,選擇重新計算活暫存等。經過FPGA上進行驗證后,該論文展示了可減小高達 95% 的片外存儲訪問的結果。

   【點評】 該論文隸屬于探究神經網絡計算中數據復用類的工作,在現有工作(如Eyeriss, ShiNianNao)已幾乎將單層內數據復用做到極致的情況下,另辟蹊徑,研究并利用了層與層之間的數據復用。

   MICRO 2016 Tutorial:深度神經網絡硬件架構

   除了神經網絡的專門 Session 之外,今年的 MICRO 有一個專門針對神經網絡硬件加速的Tutorial,名為 Tutorial on Hardware Architectures for Deep Neural Networks,由 MIT的Eyeriss 小組完成,在這里對該項目簡單稍做介紹,有興趣的讀者可以自行查閱他們發表在 ISCA 2016、ISSCC 2016 的相關論文,以及 新智元對 ISCA 2016上 Eyeriss 論文的點評 。

   【摘要】Eyeriss 是針對深度卷積神經網絡設計的低功耗硬件加速器。它能夠支持目前主流的卷積神經網絡模型,包括對 filter、weight 和 channels 的不同配置。Eyeriss的原型測試芯片集成了168個處理單元 processing elements (PE),單元之間通過可重構片上網絡來進行通信,并采用數據重用和壓縮技術來降低數據傳輸的代價,從而減少能耗。從編程模型來看,Eyeriss芯片可以支持Caffe編程框架,在AlexNet測試集下,Eyeriss 能夠實現對上千張圖片的實時分類,其幀率為35 fps,功耗為 278 mW,比對應 mobile GPUs的功耗要節約10 倍以上。

   【謝源評體系結構頂會 MICRO 2016】神經網絡加速器仍是熱點,但圖計算加速器奪最佳論文(下載)

   【謝源評體系結構頂會 MICRO 2016】神經網絡加速器仍是熱點,但圖計算加速器奪最佳論文(下載)

圖7 Eyeriss Architecture

   加速器的工作與 Best Paper 顯現的趨勢

   從以上的分析不難看出,神經網絡加速器和芯片設計仍舊是體系結構領域目前的研究熱點。 值得一提的是,除了神經網絡的 Session 之外,MICRO 2016 有兩個關注加速器(Accelerators)的 Session,共有 7 篇論文,說明 大家對特定領域(不限于神經網絡)的加速器設計保持著持續關注

   有意思的是,本年度獲得 MICRO 最佳論文并不是與神經網絡有關的論文,而是 “Graphicionado: A High-Performance and Energy-Efficient Accelerator for Graph Analytics”。該論文由普林斯頓大學、加州大學伯克利分校和 Intel 合作完成。論文針對目前的圖計算模型,設計了一個硬件加速和優化的框架,并采用了多種優化手段來降低訪存和數據傳輸的帶寬。針對圖計算的加速器能夠從眾多神經網絡加速器的工作中脫穎而出,并一舉獲得 MICRO 最佳論文,其背后蘊涵的重要意義和發展趨勢,值得大家思考。

   (本文圖片均由作者提供。)

   【進入新智元公眾號,在對話框輸入“1107”下載全部 7 篇論文(6 篇神經網絡相關 + Best Paper】

   新智元啟動新一輪大招聘 :COO、執行總編、主編、高級編譯、主筆、運營總監、客戶經理、咨詢總監、行政助理等 9 大崗位全面開放。

   簡歷投遞:j obs@aiera.com.cn

   HR 微信: 13552313024

   新智元為COO和執行總編提供最高超百萬的年薪激勵;為骨干員工提供最完整的培訓體系、 高于業界平均水平的工資和獎金。

   加盟新智元,與人工智能業界領袖攜手改變世界。

   點擊閱讀原文,觀看2016世界人工智能大會主論壇全程回顧視頻。

隨意打賞

卷積神經網絡
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 色老头一区二区三区 | 亚洲国产精品免费视频 | 免费福利在线视频 | 久久天天躁狠狠躁夜夜2020一 | 欧美日韩国产一区二区 | 99国产超薄丝袜足j在线播放 | 亚洲另类 专区 欧美 制服 | 色综合综合网 | 鸥美毛片| 伊人久久综合 | 精品免费视在线视频观看 | 国产精品u任我爽爆在线播放 | 免费在线一区二区三区 | 精品免费久久久久久成人影院 | 亚洲欧美国产精品专区久久 | 亚洲欧美一级久久精品 | 九九国产在线 | 四虎永久在线免费观看 | 羞羞视频在线观看 | 亚洲精品mm1313久久 | 99视频有精品视频免费观看 | 久久国产美女 | a拍拍男女免费看全片 | 欧美日韩亚毛片免费观看 | 性生生活网站免费 | 欧美精品一区二区三区在线播放 | 国产精品短视频 | 中国国产成人精品久久 | 色花堂国产精品第二页 | 黄色毛片网站 | 国产精品99久久久久久宅男 | 欧美国产日韩精品 | 中文字幕综合 | 免费观看性欧美一级 | 九九免费精品视频在这里 | 欧日韩不卡在线视频 | 日韩在线一区二区三区 | 欧美顶级毛片在线播放 | a级毛片高清免费视频 | 狠狠色噜噜狠狠色综合久 | 久久久网 |