訂報
活動+

LiDAR車輛智慧偵測

  • 徐宏民

LiDAR雖然價位高,但未來很有可能成為車輛的必備感測器。法新社

3D(立體)視覺計算的目的是利用3D感測器所拍攝的資訊,來偵測物件或是辨識應用場景。因自駕車或是ADAS的商機,能精確掌握人、車、障礙物位置、方向、速度等技術,就成為學研以及產業關切的方向。LiDAR雖然價格不斐,但仍為目前車輛中最受矚目的3D感測器,因其利用雷射光的飛行時間來偵測環境,所以可以測得更遠距離。

3D視覺計算的突破,在於發現適合點雲(point cloud)的系列算法,直接在眾多的點雲中計算。LiDAR點雲中,每個點都有空間中3D位置資訊(雷射光遇物件反射位置),甚至物體表面的反射量(金屬表面反射量較高)。近來LiDAR點雲偵測研究相當活躍,大致可分為「投影法」及「點雲法」兩大類。

「投影法」將上萬個3D點雲投影到2D平面上,接著利用2D上發展成熟的物件偵測技術,將人、車等標示出。這依舊是相當挑戰的工作,和傳統影像不同,投影之後的平面圖為非常稀疏的點狀資訊,並非清楚顯現車輛、行人的全貌。一般投影到兩個常用視角的2D平面:鳥瞰圖以及水平平面圖。前者由車輛上方鳥瞰周遭來偵測物件,後者由車輛四周的2D視角來偵測物件。當然這些不同視角偵測的資訊會再結合(利用3D座標轉換)做最後的判斷,傳統RGB攝影機也是偵測融合的來源之一。在這範疇,MV3D算是最具代表性。

在「點雲法」中,則是直接使用點雲的豐富3D幾何資訊來偵測物件。總體來看,對點雲有兩種使用方式,例如將區域內的點雲作為確認是否為特殊物件以及物件姿態的依據。首先由2D RGB攝影機大概偵測出可能的物件,在回推這些物件在空間中的位置,接著對小範圍內的點雲進行運算,用以確認可能的物件種類以及物件的精確姿態。Frustum PointNet為此類代表。

另外延續之前提過的立體畫素(voxel)作法將車輛行進空間切割為固定大小的立體方格,接著利用類似PointNet的算法取出每個voxel內的點雲特徵值,試著描述點雲在voxel內的排列方式,接著修改傳統2D的物件偵測方式在立體空間中進行偵測,VoxelNet為在這領域的經典演算法。可以想像利用大量的voxel來表示行車空間,再加上每個voxel上的高維點雲特徵值,運算量大幅增加,所以也有不少加速計算的延伸工作,利用點雲稀疏的特性而進行加速。

我們團隊的研究也發現這些現行的方法還是避免不了幾個關鍵挑戰。例如點雲資料分布相當不平均,靠近LiDAR的車輛點雲個數遠大於遠處的;還有不同方向車輛角度的問題,行人的點雲個數較少,甚至是不同LiDAR訊號間跨領域轉移等。當我們特別考量LiDAR物理特性來設計演算法,會有顯著的改善空間,更能降低訓練資料量。另外3D物件標註相當費時,所以資料收集是另一項耗費資源的工作。

LiDAR價位高,但勢將成為未來車輛的必備感測器(當然也有業者持反對意見),所以目前有相當的硬體研究在降低LiDAR的價格。另一方面也有團隊嘗試使用較低價位的感測器(如立體相機等)來逼近LiDAR的功能,看起來也相當具有產業機會。

徐宏民(Winston Hsu)現任台大資工系教授及NVIDIA AI Lab計畫主持人。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(工業智能新創)共同創辦人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗,近年致力將深度學習技術落實到產業,並協助成立研究開發團隊。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。