科技產業報訂閱
Seagate

[3D視覺計算] 3D視覺機會來臨!

  • 徐宏民

3D感測器不斷推陳出新、成本逐漸降低,而且各種嶄新的應用包括擴增實境(AR)/虛擬實境(VR)、自駕車、 醫療、安全、機械製造、機器人(手臂)等都需要3D視覺技術的突破。KUKA

這幾年深度學習技術大大推升影像上的研究,許多核心技術都有超越人類的辨識能力,並逐漸落地為產品。3D感測器以及各種應用則是另一崛起中的技術趨勢;傳統影像屬於2D,透過拍攝將立體環境中某個視角,投影在二維平面中。所以3D影像比2D多了深度資訊(距離相機的位置),更可以透過線性轉換了解觀測物件在3D中的位置,因此3D影像可以獲得更豐富的立體空間訊息,但是也因為與傳統2D影像不同,所以處理複雜度較高,甚至還不知如何發揮這些3D資料的高度潛力。

3D視覺計算是個崛起的計算領域,亦是產業界高度看好的範疇。3D感測器不斷推陳出新、成本逐漸降低,而且各種嶄新的應用包括擴增實境(AR)/虛擬實境(VR)、自駕車、 醫療、安全、機械製造、機器人(手臂)等都需要3D視覺技術的突破。過去曾有些嘗試,面對這些嶄新應用及技術突破,過去的做法正逐漸被全新的思維取代。

3D視覺技術開啟新的機會。自駕車中得精確掌握人、車、障礙物位置、移動方向,不管是利用高價的LiDAR或是低價的立體相機,都是關鍵技術。機器手臂加工,為了偵測正確的塗膠、檢測位置、抓取點,必須掌握精準的3D位置。在AR/VR中得了解遊戲的場景、位置,所以平面偵測、地圖重建定位(SLAM)、頭部位置,都受惠於立體資訊。3D人臉辨識,特別是可以避掉2D人臉辨識常遇到的造假問題、低亮度挑戰等,似乎呈現新的需求。

目前常用的3D感測器包括利用兩隻攝影機推測的立體相機,打出紅外線利用飛行時間偵測物體遠近的ToF相機,使用雷射光可以測得更遠距離的光達相機(LiDAR),或是打出連續經過特殊編碼畫面的結構光相機等,都在不一樣的應用情境中被採用。每種3D訊號來源各有其優缺點、成本、適合的情境,有許多新的領域值得開發。

3D感測器百家爭鳴,硬體價格差異頗大,有數百美元到數萬美元的變化,但是以前必須全然仰賴高精度(同時高價格)感測器的限制,目前也逐漸被顛覆。例如學界利用立體相機嘗試來逼近LiDAR的效能。工業檢測所需高精度量測,也有機會利用目前深度學習技術來逼近。低成本硬體,加上智能算法,達到更佳的性價比,

目前是3D智能運算機會萌芽的時刻。未來難料,但我們可以參考(2D)相機上的發展軌跡。過去幾年,智能演算法將(2D)相機上拍攝的體驗與品質大大提升,並同時善用多個鏡頭,提供全新的應用。所以在3D的視覺中,智能軟體應會扮演更重要的角色。

接下來一系列的文章,我們將試著由「學術」及「產業」的角度來討論各種3D視覺技術,包括訊號的來源、資料格式、立體攝影機、核心算法(不管是voxel-based或是point-based)、以及幾個重要的應用領域:3D影像切割、自駕車LiDAR物件偵測、機械手臂取放、點雲影像增強、3D人臉辨識等。過去幾年,我們也參與了這些重要的研究工作,按著我們在3D視覺中成功及失敗的嘗試,以及目前技術的走向,一起來探討3D視覺落地在產業應用的機會。

參考資料:3D Vision

徐宏民(Winston Hsu)現任台大資工系教授及NVIDIA AI Lab計畫主持人。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(工業智能新創)共同創辦人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗,近年致力將深度學習技術落實到產業,並協助成立研究開發團隊。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。