軟體吃掉硬體的自駕技術

徐宏民
2021-07-13
分享
Line

自駕技術幾個重要模組：感知、預測、以及規劃等都需要龐大的訓練資料。Lyft

隨著自駕技術的發展，許多的團隊把技術的眼光專注在可擴展性(scalability)上，希望將技術轉換為自駕產品時，能具有合理成本，如硬體穩定度高、價格可以被市場接受、在可見的時間內獲利，以及能以低人力或時間成本，轉移到不一樣的場域或國家。如為無人計程車(robotaxi)開發的自駕技術可以使用在個人自駕車，或是在舊金山通行的自駕能力，也可以無痛在台北使用。

可擴展性確保所開發的技術不是在封閉場域內的概念展示，而是扎扎實實的成為被大眾使用的商品。這當然是非常大的挑戰，特別是自駕技術四大模組中的「感知」與「預測」，如何穩定的調適在不同的場域中，善用高性價比的硬體。而軟體(智慧技術)在這個面向扮演了關鍵的角色。

為了成本，Tesla首先主張不使用光達(LiDAR)，大致可以被接受，因為價格以及長久使用的穩定性還沒解決。最近Tesla甚至主張不使用雷達(Radar)，這樣的論調對於產業界或是學界而言，都出乎意料之外，甚至高度懷疑可行性。

最近在頂尖電腦視覺會議CVPR的自駕車論壇上，Tesla深度學習技術負責人Andrej Karpathy說明他們如何善用全視覺的技術，完全揚棄雷達、或是一般業界時常使用的LiDAR。

他們使用了8個鏡頭(解析度1024x768，每秒36幀)擔綱自駕技術最關鍵的感知(理解環境)以及預測(未來變化)訊號源。他們強調這樣的訊息量已非常龐大，而且很自豪的利用深度學習技術來推估非常重要的深度、物件偵測、物件速度等，不需要之前常仰賴的雷達或是其他訊號源了。有趣的是，最近有兩個國際研究團隊也在發表的學術論文中，呼應了類似的想法。

以軟體吃掉硬體，付出的代價是設計特殊龐大的深度學習網路、使用大量訓練資料。8個攝影畫面同時輸入網路運算，利用鏡頭間視角差、時間差的特性推估環境感知，使用類似transformer的網路結構，採用end-to-end、multitasking這些設計策略，讓網路協同完成複雜的工作。

可以想像訓練資料扮演了關鍵的角色，他們採行的策略是：(1)使用大量的訓練資料，(2)乾淨的資料標註：物件、速度、深度、加速度等，(3)多樣性的資料：各種天氣、場景、甚至包含許多不常見的特殊案例。但是這些大量訓練資料不是靠昂貴費時的人工標記，而是利用其他演算法自動標註，以時間來換取資料標註品質，例如使用耗時的物件追蹤技術，這樣的優點是即使是逆光、起霧、下雪時，物件偵測信心度降低，追蹤技術還是可以輔助標註品質。以此方法收集約100萬個10秒長度的訓練樣本，大概佔1.5PB的資料。

為了訓練這個高功能的深度學習網路，他們在公司內部建建制超級電腦，使用將近6,000片GPU(A100)。為了應付龐大的即時駕駛計算，行車電腦包含了12個CPU，1顆GPU(600 GFLOPS，FP32/FP64)，2顆NPU，每顆算力36.86 TOPS (int8)。

智慧技術正在轉化汽車產業，甚至是人類的生活方式。當更多智慧技術逐漸落實在交通工具上時，我們考量的計算平台不再只是伺服器、平板、筆記型電腦、手機等。這個世界的技術正在定義新的(移動)技術平台，多少算力、如何計算、感測器如何串聯通訊、記憶體、頻寬、耗能要求等。當然還不到量大的時候，但是「擴展性」已經是技術專注的標的了，我們還可以袖手旁觀嗎？

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。