MCU

autoML自動化深度學習網路設計可行嗎?

  • 徐宏民

NAS主要的結構包括3部分——可能網路構成空間、候選網路生成(搜尋)策略、網路效能評估策略等。

機器學習(深度學習為其中一分支)技術成為各產業智慧化的核心能力,但是算法的設計複雜,需要專業知識與經驗,對於好的人才,需求遠大於供給。為了彌補這個空缺,這幾年自動化機器學習工具(autoML)新研究興起,希望有自動化的系統,在給定問題(通常是標記的資料)之後可以自動生成機器(深度)學習算法。在資訊理論上,這是非常複雜的問題,需要大量運算資源,所以極具挑戰。

autoML研究已經發展一段時間。例如開源軟體auto-sklearn,可以自動找出各種(傳統、較簡易)算法的組合,試著優化整體預測能力,但目前僅侷限於參數量較少的簡易模型。目前最受矚目的應該是「神經網路結構搜尋」(Neural Architecture Search; NAS),希望自動設計出解決特定問題的類神經網路,原因是深度學習網路的效能優異,而且有機會在各平台實現,商業機會龐大。

NAS做為熱門的研究領域,其原則是在可能的神經網路設計架構中找出最佳的組合。主要的結構(參考附圖)包括3部分——可能網路構成空間、候選網路生成(搜尋)策略、網路效能評估策略等。

「可能的網路構成空間」是影響NAS能否收斂的關鍵因素。試想一下,目前常用的網路參數量都是百萬、千萬等級,要組合出這些可能性,不可能在有限的時間、運算資源內完成。所以目前的組合考量大多限縮在某些特定、常用的網路架構(卷積層大小、normalization方式、pooling方法等),壓縮整體搜尋的空間。

另一個需要大量運算時間的是對每個找出的候選網路進行「效能評估」,進而修正網路生成的方向。開始時大家對這些候選網路做最完整的參數訓練,可以想像需要大量的時間資源,所以較早的研究曾經使用到800個GPU、28天的時間。近來大家採用的策略都是減低訓練資料、降低訓練次數、共用網路參數,甚至是用推估的方式直接猜測效能,完全省略耗時的網路訓練。目前已經可以大大降低所需的運算量。

「候選網路生成」是為了搜尋出可能具有潛力的候選網路,還必須利用之前生成過的網路效能來修正網路生成(搜尋)的方式。所以傳統的演化式演算法在這些最佳化過程又需被大量使用,不過一般認為最有效的方式是使用強化學習(reinforcement learning),按照之前生成網路的評量,修正候選網路的生成策略。 在實際的發展上,目前自動生成的網路,在某些實驗資料集上已可超越資深研究人員的手工設計。但這也不令人意外,因其是利用大量運算資源來更優化設計效能。此外,NAS算法只能在研究人員認為有效以及給定的網路元件組合中搜尋,尚未有「創造」新元件的能力。

以企業的角度,我認為autoML該視為輔助性的工具來加速深度學習網路的設計。但是主要架構的獨特性、競爭性,或是能否在垂直領域中勝出,還是需要瞭解該領域的資深研究人員給出適合的基本結構,讓autoML算法找出最神經網路。

目前應用上,除了優化正確率之外,基於許多場域的實際考量,我們也會將速度、參數量、耗電量、平台標的(行動、工作站、嵌入系統等)、記憶體大小等當作多個優化的標準。所以autoML可以加速智慧技術的落地。

autoML的興起,對產業界(或個人職涯)傳遞怎樣的訊息呢?相關自動化技術絕對會優化、縮短智慧算法研發,但是頂尖的智慧研發人員依舊無法取代。他們與autoML相互搭配,會是最有效率的研發程序。但是對於補習式教育訓練出的的機器學習工程師,很可能會被autoML取代。此外,這些工具也會被其他競爭公司使用,能讓公司產生差異的還是對前瞻技術的提早投入,以及對於機器學習領域的通盤(或是特殊領域的深度)了解,或是將深度學習技術結合跨領域(如醫學、金融、安全等)應用。淺碟型的技術投資,對公司(或職業生涯)長期的發展性都不大!

徐宏民(Winston Hsu)現任台大資工系教授及NVIDIA AI Lab計畫主持人。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識、前瞻技術商業模式等領域。為訊連科技研發團隊創始成員,曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗,近年與國內外企業合作,將深度學習技術落實到產品,並協助成立深度學習(人工智慧)團隊。曾獲ACM MM 2014 Grand Challenge Multimodal Award、傑出資訊人才獎、吳大猷先生紀念獎等國內外大獎。