Cadence發表專為神經網路設計的新款Tensilica DSP

吳冠儀
2017-05-25
分享

神經網路近來的快速成長已成為業界眾所矚目的焦點。針對汽車、監控設備、無人機與行動市場等各類終端裝置對於人工智慧(AI)推論(inference)任務的需求，Cadence益華電腦日前推出專為神經網路設計的Tensilica Vision C5 DSP。此IP最主要的特性在於，擁有每秒高達1TMAC的運算能力，可獨立執行所神經網路的運算任務，以實現更高的靈活性與效率。

Cadence Tensilica事業群資深行銷總監Steve Roddy表示，從Google、亞馬遜等網路龍頭開始在資料中心推動深度學習訓練開始，引爆了AI的革命性進展，未來各種智慧服務將會逐漸擴散到嵌入式終端系統中，因此終端設備晶片需要有足夠的運算資源，才能滿足神經網路推論任務的需求。

Cadence Tensilica事業群資深行銷總監Steve Roddy。

然而，神經網路技術快速進展，過去4年來，由於演算法的不斷進步，運算需求也提升了16倍之多。此外，以常用的神經網路模型來說，包括AlexNet、Inception V3、以及ResNet等，它們的網路架構中卷積層所佔的比例也各有不同，並且還在持續更新。

面對此演進中的新興技術，Roddy問到，若有晶片設計業者想要在2017年為其產品選用推論平台，並預計於2019至2020年間達成出貨目標，他們應要採用哪種方案才能同時滿足低功耗效率以及彈性架構的需求？

DSP可滿足神經網路運算所需的高度靈活性

他解釋說，在汽車、無人機與監控系統中，這些以攝影機為基礎的視覺系統需要兩種基本型態的視覺最佳化運算。首先，來自攝影機的輸入影像需利用傳統的電腦攝影？影像演算法進行增強。然後，再由神經網路辨識演算法執行物件的偵測與辨識。

但是，現有的神經網路加速器解決方案通常都是採用附加在影像DSP上的硬體加速器設計，因此神經網路程式碼必須在DSP上執行部分網路層，再卸載卷積層到加速器中。這樣的架構會需要大量的資料搬動，不但沒有效率，而且會浪費不必要的電源。

若利用專為神經網路最佳化設計的Vision C5 DSP，它可執行所有的神經網路運算層，而不只是卷積層而已。因此，就能空出主要視覺？影像DSP的運算資源，來獨立執行影像增強應用，而Vision C5 DSP僅用來執行推論任務就好。藉由免除神經網路 DSP以及視覺？影像DSP之間的資料移動，相較於硬體加速器設計，可實現更低功率的設計方案，以及簡單的神經網路單處理器編程模型。

Roddy強調，Vision C5 DSP可在不到1平方公釐的晶片面積上，實現每秒1TMAC的運算能力。針對知名的AlexNet CNN(卷積神經網路)效能基準以及Inception V3 CNN效能基準，Vision C5 DSP比一般商用的GPU分別快了6倍及9倍。

此外，從終端市場的應用來看，神經網路的工作負載也有很大的差異性。舉例來說，行動電話的翻譯或語音助理等應用，只是偶爾才執行一次，但是監控系統則是需要隨時執行一些神經網路，再往上，到自駕車應用，則是隨時需要執行大量的神經網路作業。

Roddy表示，這些從低階到高階的神經網路應用，所需的運算資源並不相同，需要的處理速度從小於200GMAC/sec、到1TMAC/sec，到最高10TMAC/sec都有可能。因此，在選擇嵌入式系統的推論平台時，是無法僅靠單一方案來滿足所有不同的市場區隔。

對此，Cadence的一系列Tensilica Vision DSP在功率效率以及效能方面，都實現了重大的突破，能夠符合新一代神經網路的運算需求。以其2016年發布的Tensilica Vision P6 DSP為例，其速度便足以支援行動裝置爾偶使用的神經網路辨識任務。而對於自駕車等高階應用，則能採用多核心Vision C5 DSP的擴充性設計，以達到multi-TMAC/sec的運算能力。

Roddy指出，Vision DSP的通用、可編程特性，符合神經網路持續演進所需的靈活架構，並可隨時加入最新開發的網路層，對於想要先行部署智慧應用的晶片業者來說，是遠優於硬體加速器的選擇。他也看好，神經網路應用將會成為未來幾年嵌入式晶片設計的重要成長力量。

關鍵字

Cadence AI

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」