可程式化邏輯閘加速機器學習應用

魏淑芳
2017-03-13
分享

賽靈思公司(Xilinx)亞太區工業及醫療市場高級經理羅霖。

賽靈思公司(Xilinx)亞太區工業及醫療市場高級經理羅霖，提到最近穀歌翻譯越來越精準，正是運用機器學習技術。深度學習(Deep Learning)技術底下有多層度？摺積式(Convolutional)？回饋式(Recurrent)神經網路技術等。拜摩爾定律及雲端大數據資料庫累積，使得深度學習技術開始進入市場應用。

各種機器學習導入的應用有其系統需求與技術挑戰。賽靈思的場域可程式邏輯閘(Field Programmable Gate Array；FPGA)聚焦於已訓練好的單向推理(inference)應用。像亞馬遜AWS、百度與騰訊等雲服務商，在HPC伺服器的前端部署基於賽靈思FPGA的加速器，提供雲客製、雲加速、安防、自駕車與語音？影像辨識、醫療影像診斷、金融與深度學習的應用。

羅霖以圖表比較，CPU能效、計算核心數最低；DSP/GPU則能效、計算核心數稍高；FPGA在能效上更高；最高則是ASIC，但其可調整程度也最低。同時，在邊緣側的機器學習應用上，低時延是非常重要的指標，FPGA相對於GPU具有10倍以上的優勢。

AlexNet處理一張待辨識圖片，需經22.7億道權重運算與6,500萬筆資料搬移。通過剪枝(Pruning)和參數共用(Weight Sharing)技術可以達到30？50倍的運算模型壓縮率，且無損其辨識結果。

以ILSVRC 2012做影像辨識，8/16位元辨識錯誤率低於1%，但較32位元高出10倍能效與4倍記憶體頻寬節省量。學術界正研究以2/3bit位元神經網路(Bitwise Neural Network；BNN)，其辨識率正逐年逼近摺積式神經網路(Convolutional Neural Network；CNN)。

羅霖指出賽靈思FPGA具備客製化平行運算，記憶體優化架構，與較佳的能源效率(5.25倍，AlexNet影像辨識)等特性。27x18bit寬度的單一乘法器設計，用8bit量化值可單週期同時做兩個MACC運算。由暫存器檔案、邏輯閘與管線緊湊化的(DSP Supertiles)運算陣列設計，可以超過600MHz時脈做摺積運算。

Xilinx KU115/VU9P/VU13P FPGA提供9.2？19.3兆運算(TOPs)、51？66W功耗，以及較競爭者優出4~6倍的能效。以Xilinx Zynq7020與即將推出的Zynq ZU2CG，在自駕車的影像辨識？物體偵測？臉部辨識效能，直追Tegra K1/X1 SoC平台，但性價比更優。

Xilinx提供符合OpenCL/HLS(C/C++)的SDSoC/SDAccel開發環境、編譯器與優化的函式庫，開發過程可縮短到數周之內。2017年5月後更可達到較Tegra TX1高出3.8倍的影像辨識能效。目前已有客戶導入無人機、自駕車ADAS系統與雲影像識別的應用。

關鍵字

賽靈思機器學習可程式邏輯控制器(PLC)

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

議題精選－2017嵌入式技術論壇專輯