中文简体版   English   星期日 ,9月 22日, 2019 (台北)
登入  申請試用  MY DIGITIMES153
 
DForum
活動+

Imagination:以單階段神經網路實現嵌入式物件偵測應用

  • 吳冠儀

近年來,隨著基於深度學習的電腦視覺技術快速發展,影像分類與物件偵測(object detection)應用獲得了顯著的進展。然而,若要把準確的物件偵測功能帶到各種嵌入式裝置上,同時還要兼顧運算成本、效能與功率需求,仍有許多挑戰與設計折衷需要克服。

對此,Imagination公司視覺與AI業務開發總監Paul Brasnett說明了物件偵測演算法的最新進展、如何利用最佳化技巧使其能在嵌入式產品中高效地運作,以及Imagination將如何以最新的神經網路加速器(NNA)系列產品來滿足此市場需求。

物件偵測的各種使用案例

首先,Paul Brasnett介紹說,Imagination是GPU IP的領導廠商,其PowerVR GPU系列產品已在市場上佔有一席之地,並累積了100億台裝置出貨量的實績。此外,該公司亦可提供視覺與AI、以及通訊IP解決方案。

特別是,因應近來AI應用的快速發展,Imagination已於2017年底推出新的神經網路加速器(NNA)系列產品,透過硬體加速的方式來執行神經網路演算法,並強調GPU+NNA架構的結合將能為AI提供最佳的效能、成本與功率組合。針對新的PowerVR 視覺與AI系列產品,Imagination將持續建構並強化其軟體、硬體與生態系統,以因應不斷演進的市場需求。

他表示,包括IoT、行動、汽車、工業、智慧監控等各種應用都朝嵌入式智慧應用進展,需要以低功耗實現各種的辨識、追蹤、分析、預警功能。而在智慧城市與車載電子駕駛座艙(e-cockpit)中,物件偵測扮演著非常重要的角色。

舉例來說,在各種智慧城市應用中,包括確保辦公、公共場所安全所需的臉部辨識、交通流量監控、 可疑活動/人物監控等各種應用,都需要用到物件偵測技術。此外,電子駕駛座艙中的車道偏離警示、環景影像、後視鏡替代、道路標誌辨識等各種新功能,高效、準確的物件偵測也是不可或缺的。

物件偵測網路模型介紹

Paul Brasnett表示,目前物件偵測網路模型主要分為兩階段(two stage)和單階段(single stage)網路兩種做法。

其中,兩階段網路方式大概是從2015年開始發展,近來已逐步擴展為包含Faster R-CNN (Regions with CNN)、R-FCN (Fully Convolutional Network)、和Mask R-CNN等不同模型,而且每一種方式都還在持續演進。

而單階段網路則有Yolo(you only look once)、單次偵測(Single Shot Detection;SSD)、以及RetinaNet等不同模型。其中,SSD為Google所發展的,獲得了廣泛的關注。同樣地,為了取得更好效能,所有演算法都還在不斷的發展,學界與業界都投入了龐大的研發能量。

首先,針對Faster R-CNN,Paul Brasnett介紹說,它的基本概念是把所有感測器擷取到的特徵先進行Regional Proposal Network來篩選區域,再將結果饋入序列處理,執行Pooling、Warp等non-maximum suppression運算,其結果再進行分類,以判斷出結果。

在整個運算過程中,特徵擷取器(Feature Extractor)與區域篩選網路、以及分類都是屬於卷積神經網路,由於涉及到兩個卷積神經網路運算,因此稱為兩階段網路。

至於單階段網路,以SSD為例,是指省略了Regional Proposal Network,把特徵擷取器的結果直接進行分類,再進行non-maximum suppression運算,由於只需用到一個卷積神經網路,所以稱為單階段網路。Yolo演算法也是採取類似的概念。

這兩種方式各有其優缺點,當然,單階段網路擁有快速、執行時間確定、以及採用單純的端到端卷積網路的優點,然而,在偵測小型物件時,它不一定能取得最佳的效能。

相對的,兩階段網路的優點在於,具備較高的準確度、偵測小型物件的效能較佳。但是,它的執行時間不確定,需取決於場景環境,而且運算流程複雜,並不適用於嵌入式應用。

嵌入式物件偵測應用的最佳化

針對嵌入式視覺應用,開發人員必須在成本、運算能力、頻寬以及功率間取得平衡,這也是最主要的挑戰。顯然,單階段網路是嵌入式應用的理想選擇,但必須再採用其他技巧來了提升其準確度,以達到最佳化的結果。

Paul Brasnett表示,特徵擷取器與特徵金字塔網路(Feature Pyramid Network;FPN)是兩個可用來最佳化SSD的方法。

根據利用PowerVR NNA實際進行測試的結果顯示,採用不同的特徵擷取器會對VGG16、ResNet 50和MobileNet v1等網路的頻寬、推論速度、以及準確度帶來不同的結果。因此,他提醒開發人員,在實際開發時,應視其所需的效能規格進行謹慎的選擇。

至於提升小型物件偵測的準確度,場景內容是很重要的。透過使用多層級FPN架構在擷取高解析度資料前與低解析度資料結合,經過實際測試,此技巧確實能夠顯著提升準確度。

以PowerVR NNA實現物件偵測應用

由於各種神經網路模型的快速發展,NNA現已成為一種基本的處理器類型,與CPU和GPU一樣重要。Paul Brasnett表示,透過整合PowerVR NNA,開發人員能以非常低的功耗、最小的矽晶面積提供神經網路所需的高效能運算。藉由在邊緣裝置提供此運算能力,才能克服頻寬、延遲與隱私的限制,真正實現從邊緣到雲端的智慧應用。

Imagination最新一代的PowerVR Series3NX NNA系列產品具備可擴展性架構,透過多核心建置,最高可達到汽車與高階監控裝置所需的 160 TOPS的運算效能,以為最嚴苛的應用提供超高效能,並滿足嵌入式市場多樣化的應用需求。

由於各種的物件偵測演算化還在不斷演進,因此對於NNA或GPU來說,提供靈活的可編程支援能力是很重要的。透過使用Imagination的專用深度神經網路(DNN)API,開發人員可以輕鬆地針對Series3NX架構以及現有PowerVR GPU編寫人工智慧應用程式。

Paul Brasnett表示,Imagination將專注為各種嵌入式裝置實現高效的物件偵測功能,因此將聚焦於單一網路技術的最佳化效能,並強化NNA產品對最新演算法的支援。