基於FPGA的通用CNN加速設計
發布時間:2017-10-31 責任編輯:lina
隨著互聯網用戶的快速增長,數據體量的急劇膨脹,數據中心對計算的需求也在迅猛上漲。同時,人工智能、高性能數據分析和金融分析等計算密集型領域的興起,對計算能力的需求已遠遠超出了傳統CPU處理器的能力所及。
異構計算被認為是現階段解決此計算溝壑的關鍵技術,目前 “CPU+GPU”以及“CPU+FPGA” 是最受業界關注的異構計算平台。它們具有比傳統CPU並bing行xing計ji算suan更geng高gao效xiao率lv和he更geng低di延yan遲chi的de計ji算suan性xing能neng優you勢shi。麵mian對dui如ru此ci巨ju大da的de市shi場chang,科ke技ji行xing業ye大da量liang企qi業ye投tou入ru了le大da量liang的de資zi金jin和he人ren力li,異yi構gou編bian程cheng的de開kai發fa標biao準zhun也ye在zai逐zhu漸jian成cheng熟shu,而er主zhu流liu的de雲yun服fu務wu商shang更geng是shi在zai積ji極ji布bu局ju。
WHY?通用CNN FPGA加速
業界可以看到諸如微軟等巨頭公司已經部署大批量的FPGA來做AI inference加速,FPGA相較於其他器件的優勢是什麼呢?
Flexibility:可編程性天然適配正在快速演進的ML算法
DNN、CNN、LSTM、MLP、reinforcement learning以及決策樹等等
任意精度動態支持
模型壓縮、稀疏網絡、更快更好的網絡
Performance:構建實時性AI服務能力
相較於GPU/CPU數量級提升的低延時預測能力
相較於GPU/CPU數量級提升的單瓦特性能能力
Scale
板卡間高速互聯IO
Intel CPU-FPGA構架
與此同時,FPGA的短板也非常的明顯,FPGA使用HDL硬件描述語言來進行開發,開發周期長,入門門檻高。以單獨的經典模型如Alexnet以及Googlenet為例,針對一個模型進行定製的加速開發,往往需要數月的時間。業務方以及FPGA加速團隊需要兼顧算法迭代以及適配FPGA硬件加速,十分痛苦。
一方麵需要FPGA提供相較於CPU/GPU有足夠競爭力的低延時高性能服務,一方麵需要FPGA的開發周期跟上深度學習算法的迭代周期,基於這兩點我們設計開發了一款通用的CNN加速器。兼顧主流模型算子的通用設計,以編譯器產生指令的方式來驅動模型加速,可以短時間內支持模型切換;tongshi,duiyuxinxingdeshenduxuexisuanfa,zaicitongyongjichubanbenshangjinxingxiangguansuanzidekuaisukaifadiedai,moxingjiasukaifashijiancongzhiqiandeshuyuejiangdidaoxianzaideyidaoliangzhouzhinei。
HOW?通用CNN FPGA架構
基於FPGA的通用CNN加速器整體框架如下,通過Caffe/Tensorflow/Mxnet等框架訓練出來的CNN模型,通過編譯器的一係列優化生成模型對應的指令;同時,圖片數據和模型權重數據按照優化規則進行預處理以及壓縮後通過PCIe下發到FPGA加速器中。FPGA加jia速su器qi完wan全quan按an照zhao指zhi令ling緩huan衝chong區qu中zhong的de指zhi令ling集ji驅qu動dong工gong作zuo,加jia速su器qi執zhi行xing一yi遍bian完wan整zheng指zhi令ling緩huan衝chong區qu中zhong的de指zhi令ling則ze完wan成cheng一yi張zhang圖tu片pian深shen度du模mo型xing的de計ji算suan加jia速su工gong作zuo。每mei個ge功gong能neng模mo塊kuai各ge自zi相xiang對dui獨du立li,隻zhi對dui每mei一yi次ci單dan獨du的de模mo塊kuai計ji算suan請qing求qiu負fu責ze。加jia速su器qi與yu深shen度du學xue習xi模mo型xing相xiang抽chou離li,各ge個gelayer的數據依賴以及前後執行關係均在指令集中進行控製。
簡單而言,編譯器的主要工作就是對模型結構進行分析優化,然後生成FPGA高效執行的指令集。編譯器優化的指導思想是:更高的MAC dsp計算效率以及更少的內存訪問需求。
接下來我們以Googlenet V1模型為例,對加速器的設計優化思路做簡單的分析。IncepTIon v1的網絡,將1x1、3x3、5x5的conv和3x3的pooling stack在一起,一方麵增加了網絡的width,另一方麵增加了網絡對尺度的適應性。下圖為模型中IncepTIon的基本結構。
數據依賴關係分析
cibufenzhuyaofenxiwajuemoxingzhongkeliushuihuayijikebingxinghuadejisuan。liushuihuadeshejikeyitigaojiasuqizhongdejisuandanyuanliyonglv,bingxinghuadejisuankeyizaitongyishikeliyongjinliangduodejisuandanyuan。
關於流水,分析部分包括數據從DDR加載到FPGA片上SRAM的操作與PE進行計算的流水,通過此項優化將內存訪問的時間overlap;DSP計算整列的計算控製過程,保證DSP利用率的提升。
關於並行,需要重點分析PE計算陣列與激活、pooling以及歸一化等“後處理”模塊之間的並行關係,如何確定好數據依賴關係以及防止衝突是此處設計關鍵。在IncepTIon中,可以從其網絡結構中看到,branch a/b/c的1x1的卷積計算與branch d中的pooling是可以並行計算的,兩者之間並不存在數據依賴關係。通過此處優化,3x3 max pooling layer的計算就可以被完全overlap。
模型優化
在設計中主要考慮兩個方麵:尋找模型結構優化以及支持動態精度調整的定點化。
FPGA是支持大量計算並行的器件,從模型結構上尋找更高維度的並行性,對於計算效率以及減少內存訪問都十分有意義。在IncepTIon V1中,我們可以看到branch a branch b branch c的第一層1x1卷積層,其輸入數據完全一致,且卷積layer的stride以及pad均一致。那我們是否可以在output feature map維度上對齊進行疊加?疊加後對input data的訪存需求就降低到了原來的1/3。
另一方麵,為了充分發揮FPGA硬件加速的特性,模型的Inference過程需要對模型進行定點化操作。在fpga中,int8的性能可以做到int16的2倍,但是為了使公司內以及騰訊雲上的客戶可以無感知的部署其訓練的浮點模型,而不需要retrain int8模型來控製精度損失,我們采用了支持動態精度調整的定點化int16方案。通過此種方法,用戶訓練好的模型可以直接通過編譯器進行部署,而幾乎無任何精度損失。
內存架構設計
帶寬問題始終是計算機體係結構中製約性能的瓶頸之一,同時內存訪問直接影響加速器件功耗效率。
為了最大化的減少模型計算過程中的DDR訪存,我們設計了如下的內存架構:
Input buff以及output buffer ping-pong設計,最大化流水以及並行能力
支持Input buff和output buffer自身之間的inner-copy操作
Input buff和output buffer之間的cross-copy操作
通過這種架構,對於大多數目前主流模型,加速器可以做到將中間數據全部hold在FPGA片上,除了模型權重的加載外,中間無需消耗任何額外的內存操作。對於無法將中間層feature map完全存儲在片上的模型,我們在設計上,在Channel維度上引入了slice分片的概念,在feature map維度上引入了part分片的概念。通過編譯器將一次卷積或是poolingNorm操作進行合理的拆分,將DDR訪存操作與FPGA加速計算進行流水化操作,在優先保證DSP計算效率的前提下盡量減少了DDR的訪存需求。
計算單元設計
基於FPGA的通用CNN加速器的核心是其計算單元,本加速器當前版本基於Xilinx Ku115芯片設計,PE計算單元由4096個工作在500MHz的MAC dsp核心構成,理論峰值計算能力4Tflops。其基本組織框架如下圖所示。
KU115芯片由兩個DIE對堆疊而成,加速器平行放置了兩組處理單元PE。每個PE由4組32x16=512的MAC計算DSP核心組成的XBAR構成,設計的關鍵在於提升設計中的數據複用降低帶寬,實現模型權重複用和各layer feature map的複用,提升計算效率。
應用場景及性能對比
當前深度學習主流使用GPU做深度學習中的Training過程,而線上Inference部署時需綜合考慮實時性、低成本以及低功耗特性選擇加速平台。按深度學習落地場景分類,廣告推薦、語音識別、圖片/視頻內容實時監測等屬於實時性AI服務以及智慧交通、智能音箱以及無人駕駛等終端實時低功耗的場景,FPGA相較於GPU能夠為業務提供強有力的實時高性能的支撐。
對於使用者而言,平台性能、開發周期以及易用性究竟如何呢?
加速性能
以實際googlenet v1模型為例,CPU測試環境:2個6核CPU(E5-2620v3),64G內存。
將整機CPU打滿,單張基於KU115的加速器相較於CPU性能提升16倍,單張圖片檢測延時從250ms降低到4ms,TCO成本降低90%。
同時,FPGA預測性能略強於Nvidia的GPU P4,但延時上有一個數量級的優化。
開發周期
通用的CNN FPGA加速架構,能夠支持業務快速迭代持續演進中的深度學習模型,包括Googlenet/VGG/Resnet/ShuffleNet/MobileNet等經典模型以及新的模型變種。
對於經典模型以及基於標準layer自研的算法變種,現有加速架構已經可以支持,可以在一天內通過編譯器實現模型對應指令集,實現部署上線。
對於自研的特殊模型,例如不對稱卷積算子和不對稱pooling操作等,需要根據實際模型結構在本平台上進行相關算子迭代開發,開發周期可縮短在一到兩周之內進行支持。
易用性
FPGA CNN加速器對底層加速過程進行封裝,向上對加速平台的業務方提供易用SDK。業務方調用簡單的API函數即可完成加速操作,對業務自身邏輯幾乎無任何改動。
如果線上模型需要改動,隻需調用模型初始化函數,將對應的模型指令集初始化FPGA即可,加速業務可以在幾秒內進行切換。
結語
基於FPGA的通用CNN加速設計,可以大大縮短FPGA開發周期,支持業務深度學習算法快速迭代;提供與GPU相媲美的計算性能,但擁有相較於GPU數量級的延時優勢。通用的RNN/DNN平台正在緊張研發過程中,FPGA加速器為業務構建最強勁的實時AI服務能力。
在雲端,2017年初,我們在騰訊雲首發了國內第一台FPGA公有雲服務器,我們將會逐步把基礎AI加速能力推出到公有雲上。
AI異構加速的戰場很大很精彩,為公司內及雲上業務提供最優的解決方案是架平FPGA團隊持續努力的方向。
推薦閱讀:
基於SoC FPGA進行工業設計及電機控製
結合實例解讀模擬開關關鍵技術
不可不知的射頻測試探針基本知識
一文讀懂DC/AC SCAN測試技術
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
- 從技術研發到規模量產:恩智浦第三代成像雷達平台,賦能下一代自動駕駛!
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall












