Viscovery採NVIDIA GPU發展AI影像辨識技術 智慧應用 影音
瑞力登
hotspot

Viscovery採NVIDIA GPU發展AI影像辨識技術

Viscovery營運副總裁劉志錕(左)與Viscovery研發副總陳彥呈博士(右)。
Viscovery營運副總裁劉志錕(左)與Viscovery研發副總陳彥呈博士(右)。

背景

Viscovery(創意引晴)成立於2013年,Viscovery的命名是結合Video和Discovery的雙重意涵,著眼於影像分析的深度探索,透過人工智慧 (AI)、電腦視覺與深度學習,開發辨識影片內容中的人臉、物件、圖像、場景、情緒、抽象概念等多樣化元素的Video AI解決方案,專注於提供針對媒體、電商、智慧零售、品牌主、廣告主及網路行銷相關平台,提供辨識技術服務,其不僅讓網路影片內容能結合更貼切的廣告題材,同時也能透過影像辨識與分析,開發更精準的行銷活動。

Viscovery人臉辨識技術,辨識並標註影片中的明星人臉。

Viscovery人臉辨識技術,辨識並標註影片中的明星人臉。

Viscovery早期透過商品辨識技術發展線上商務(O2O)服務,直到2015年後Viscovery開始使用機器學習大量整合線上影音平台,將廣泛的視訊影片經過人、事、時、地、物的標籤化辨識後,轉為線上平台業者提供進一步與廣告主產品和服務高度相關聯的廣告點位推薦服務。

Viscovery採取B2B的營運模式,主要的客戶為本身具有大量影音內容的網路平台業者與視訊媒體,以及以大型流量為主的廣告營運商,一般的視訊媒體業者或網路平台商都有自己的內部系統,但卻缺乏辨識影片內容的能力,透過Viscovery的技術協助,這些媒體平台將針對不同影片進行歸類與應用,萃取具有高度商業價值的時間點位,並進一步與媒體平台的廣告系統銜接,推薦給適當的廣告主,以追求最大的廣告刊登效益,誠如Viscovery的熱切期許,希望透過Video AI技術,協助廣告主「在對的時機贏得觀眾的心」。

挑戰

Viscovery的技術需要建立許多的基礎資料模型,例如透過廣告主過去的刊登紀錄,來做為機器學習的輸入資料,用來訓練視訊影片分類器,其學習的結果可運用在影片的分類與廣告對應。由於分類的種類隨著不同廣告主、產品和使用者族群而有差異,經過數以千或萬計的資料緯度分析,有時也分析包括大量的情緒與抽象等元素。

Viscovery最初使用傳統的影像特徵比對技術,但是隨著商品類別越來越多而陷入辨識率下滑的挑戰,因此,自2015年開始便採用深度學習技術來克服辨識率的問題。視訊上的辨識應用技術比起靜態影像的辨識更為複雜,其必須要在動態影片中進行各種視角的人、物、場景、情緒的偵測與識別,因此,需要大量的影像資料來訓練類神經網路,隨著蒐集的資料呈爆炸性成長,運算效能、處理時間與花費成本也隨之攀升。

Viscovery一直致力於使用更有效的運算平台將大量資料在短時間內處理完畢,以便拉出更精細的分類、標籤與訊息。Viscovery曾經也直接使用如Tensorflow、Caffe等開源軟體,但許多開源軟體工具皆以單張畫面為辨識基礎,一旦用來做連續畫面的辨識時,常因資料量龐大而導致整體效率不彰。而一旦啟動人臉辨識與追蹤模型後,便可能佔住整個GPU的資源,當需要更進一步進行場景或其他辨識演算法時,資料需重複複製多份,於不同GPU上進行演算,如此一來便造成GPU的使用效能無法有效發揮。

解決方案

Viscovery導入NVIDIA GPU運算平台,並同時在系統運算基礎架構上著手進行一系列的改良,透過NVIDIA不同世代的GPU解決方案獲得充足的效益,從Fermi到Kepler,以及隨後的Maxwell與Pascal架構,NVIDIA提供相容的軟體開發套件(SDK)與高效能工具,對於需要處理大量視訊資料的Viscovery而言,NVIDIA的GPU運算效能不斷推升視訊圖像辨識速度,並幫助從大數據資料中擷取或是凸顯資料的特徵,大幅度幫助Viscovery追求處理速度與效能的極致。

Viscovery也曾經嘗試使用其他晶片大廠所開發的CPU、GPU與FPGA加速方案,但是因為軟體工具的支援不足,加上缺乏底層最佳化的調整,而轉為投向NVIDIA的解決方案。

目前透過NVIDIA所提供的完整系統軟體工具與GPU,加上在運算基礎架構最佳化的設計,Viscovery僅需使用兩張NVIDIA Tesla GPU所組合的系統,便可於6分鐘內完成1小時影片內的人事時地物辨識以及與廣告推薦的標籤設定,讓Viscovery能更有效的處理更大量影片、有效服務更多客戶。

Viscovery研發副總陳彥呈博士表示:「NVIDIA 提供完整系統軟體工具,可以大幅加速底層矩陣運算所需耗費的時間,讓Viscovery的技術開發團隊可以心無旁鶩的專注於自己發展的核心技術,同時,NVIDIA GPU的運算效能透過深度神經網路(DNN),可以輕鬆取得絕佳的效能,讓多個辨識核心可以依序完成辨識的程序。」由於NVIDIA發展CUDA架構已有十幾年之久,其所累積的技術實力更是業界所難以望其項背,對Viscovery而言,宛如站在GPU巨人的肩膀上遠眺AI應用所展現的精采絕倫。

影響

Viscovery將技術包裝成雲端API或是SDK,串接媒體平台的內部系統,幫助平台業者建立內部影片的分類資訊。有別於一般的Video AI技術,Viscovery的解決方案可應用於場景、物件、人臉、企業商標,以及包括情感與其他抽象內容的辨識,同時再配合特定廣告主進行決策資訊的置入,以協助廣告商在影片中找出最重要的刊登時間點,作為產品投遞廣告的重要依據。

效能的提升促使Viscovery的運算成本能有效降低,也讓廣告主與媒體平台業者可以掌握成本的優勢,一舉推出與眾不同的服務。目前 Viscovery的機房配置NVIDIA GPU解決方案,具備1個月處理30萬小時影片的運作容量,針對更高階的主流平台客戶,或是擁有大量視訊內容媒體的客戶,甚至可以直接提供硬體系統以擴大處理速度的能力。

Viscovery所提供的創新服務,無論是吸引廣告主投遞更多的廣告、衡量廣告在媒體平台上的效益、提供刊登廣告的建議、為品牌客戶的廣告做色情與暴力等安全過濾的機制,甚至建構一個完整的生態系統,讓更多的亞洲影視產業、廣告主、媒體平台業者形成一個完整的聯盟,塑造成一個獨立的廣告市集(Market place),這些都將驅使Viscovery持續探索視訊影像辨識的垂直應用的無限可能,讓AI應用成為精準行銷與新零售的利器。