精進3D人臉辨識

徐宏民
2019-11-27
分享
Line

3D感測器有精進人臉辨識技術的潛力。蘋果

3D感測器所拍攝到的資訊比傳統的2D相機(僅捕捉立體環境中某個視角)包含更豐富的3D幾何資訊。在人臉辨識應用機會高度發展的時候，3D感測器自然被賦予相當期待來精進人臉辨識。

在人臉辨識應用上，目前常用的3D感測器包括使用雙攝影機推估深度的立體相機，利用紅外線飛行時間偵測物體遠近的ToF相機、或是打出特殊編碼畫面的結構光等。最鮮明的例子為iPhone上的人臉辨識功能，可以辨識數個使用者(實為較簡易的人臉驗證工作)，但是個中技術細節以及場域限制等，並未完全了解。在3D人臉辨識中，究竟何種作法可以通用在一般3D感測器呢？特別是近年3D點雲的技術突破，如何順勢帶來更多人臉應用的自由度？

3D人臉辨識最直接的優點即在低亮度的環境中，依然可以使用點雲來表式立體資訊，進而辨識人臉，甚至提供多個角度的辨識效果，無需正對鏡頭；或是利用深度來判斷是否為實際人臉，避免使用相片造假。

在公開資料中，尚未顯明何為最佳的辨識方法，我們判斷是因為3D人臉資料取得不易，無法進行大規模(公開)研究。但在這幾年的學術研究上(從學界或是工業界所公開的論文中)我們發現，絕大部分為2.5D的辨識，並未真實釋放3D豐富的幾何資訊。也就是單單利用深度圖(depth map，即畫面物件位置相對於相機的距離)，或是結合既有的RGB三個頻道，沿用即有的2D卷積運算技術。2.5D做法有先天上的限制，無法真正釋放3D幾何資訊的技術能量。

在過去的發展中，有人嘗試使用3D的曲率或是利用2.5D資訊來偵測重要的臉部特徵位置。比較有趣的是將人臉與3D圖學模型結合之後，可以自動產生各種表情、角度的人臉進而優化訓練資料庫，或是將不同人的3D人臉，組合為新的人臉進而創造出更多的人臉訓練資料。或是針對低價位、點雲數目較少的3D感測器(通常為行動或終端設計)，拍攝多張畫面，接著對齊這些稀疏3D人臉點雲，融合為較豐富的點雲，進而改進辨識效果。

在學術上目前尚未顯明最佳做法，但是絕對有幾個技術深耕的方向。比如說，為了達到最佳的3D人臉辨識，至少需要多少的點雲個數，取得成本以及效能上的平衡？雖然3D點雲的計算可以利用先前提過的點雲(point-based)或是立體畫素(voxel-based)演算法，但是如何設計才是最有效呢？特別是接下來的辨識應用許多得再終端落地，低耗能的運算似乎成了必要的條件。在近來的3D點雲計算研究中，我們發現可以提供相當的抗旋轉的特性，那對於3D人臉辨識也有這樣的特質嗎？還是依舊依循過去的2D人臉辨識，得先找到眼、鼻等重要位置再校正到固定位置呢？

目前大部分的研究都是使用2.5D資訊，使用3D點雲在人臉辨識上可以真正提升多少辨識率？當然，最關鍵的是3D人臉辨識的成本函數設計(cost functions)，這與2D的辨識情境不盡相同。如前所示，3D資料收集標註成本想對耗時困難，在資料有限的情形下，有沒有機會利用大量的2D人臉影像來輔助3D人臉辨識？類似的案例在其他3D偵測、語意切割上都看到不錯的成效。

參考這幾年2D人臉辨識發展的成功軌跡：包括影像卷積網路的提升，大量的訓練資料(因為容易取得)，以及開發適合人臉辨識的成本函數等，產業界絕對也有機會善用極具潛力的3D視覺感測器來精進人臉辨識。

延伸閱讀：人臉辨識—從理論到產品

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。