[3D視覺計算] 3D視覺機會來臨！

徐宏民
2019-11-05
分享
Line

3D感測器不斷推陳出新、成本逐漸降低，而且各種嶄新的應用包括擴增實境(AR)﹧虛擬實境(VR)、自駕車、醫療、安全、機械製造、機器人(手臂)等都需要3D視覺技術的突破。KUKA

這幾年深度學習技術大大推升影像上的研究，許多核心技術都有超越人類的辨識能力，並逐漸落地為產品。3D感測器以及各種應用則是另一崛起中的技術趨勢；傳統影像屬於2D，透過拍攝將立體環境中某個視角，投影在二維平面中。所以3D影像比2D多了深度資訊(距離相機的位置)，更可以透過線性轉換了解觀測物件在3D中的位置，因此3D影像可以獲得更豐富的立體空間訊息，但是也因為與傳統2D影像不同，所以處理複雜度較高，甚至還不知如何發揮這些3D資料的高度潛力。

3D視覺計算是個崛起的計算領域，亦是產業界高度看好的範疇。3D感測器不斷推陳出新、成本逐漸降低，而且各種嶄新的應用包括擴增實境(AR)﹧虛擬實境(VR)、自駕車、醫療、安全、機械製造、機器人(手臂)等都需要3D視覺技術的突破。過去曾有些嘗試，面對這些嶄新應用及技術突破，過去的做法正逐漸被全新的思維取代。

3D視覺技術開啟新的機會。自駕車中得精確掌握人、車、障礙物位置、移動方向，不管是利用高價的LiDAR或是低價的立體相機，都是關鍵技術。機器手臂加工，為了偵測正確的塗膠、檢測位置、抓取點，必須掌握精準的3D位置。在AR/VR中得了解遊戲的場景、位置，所以平面偵測、地圖重建定位(SLAM)、頭部位置，都受惠於立體資訊。3D人臉辨識，特別是可以避掉2D人臉辨識常遇到的造假問題、低亮度挑戰等，似乎呈現新的需求。

目前常用的3D感測器包括利用兩隻攝影機推測的立體相機，打出紅外線利用飛行時間偵測物體遠近的ToF相機，使用雷射光可以測得更遠距離的光達相機(LiDAR)，或是打出連續經過特殊編碼畫面的結構光相機等，都在不一樣的應用情境中被採用。每種3D訊號來源各有其優缺點、成本、適合的情境，有許多新的領域值得開發。

3D感測器百家爭鳴，硬體價格差異頗大，有數百美元到數萬美元的變化，但是以前必須全然仰賴高精度(同時高價格)感測器的限制，目前也逐漸被顛覆。例如學界利用立體相機嘗試來逼近LiDAR的效能。工業檢測所需高精度量測，也有機會利用目前深度學習技術來逼近。低成本硬體，加上智能算法，達到更佳的性價比，

目前是3D智能運算機會萌芽的時刻。未來難料，但我們可以參考(2D)相機上的發展軌跡。過去幾年，智能演算法將(2D)相機上拍攝的體驗與品質大大提升，並同時善用多個鏡頭，提供全新的應用。所以在3D的視覺中，智能軟體應會扮演更重要的角色。

接下來一系列的文章，我們將試著由「學術」及「產業」的角度來討論各種3D視覺技術，包括訊號的來源、資料格式、立體攝影機、核心算法(不管是voxel-based或是point-based)、以及幾個重要的應用領域：3D影像切割、自駕車LiDAR物件偵測、機械手臂取放、點雲影像增強、3D人臉辨識等。過去幾年，我們也參與了這些重要的研究工作，按著我們在3D視覺中成功及失敗的嘗試，以及目前技術的走向，一起來探討3D視覺落地在產業應用的機會。

參考資料：3D Vision

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。