標註的訓練資料不夠怎麼辦？談自我監督學習新趨勢

徐宏民

2019-10-22

機器學習領域的科學家們不斷嘗試新的做法，「自我監督學習」(self-supervised)這樣的方式逐漸露出曙光。Ericsson

機器(深度)學習演算法的效益決定於訓練資料的可得性，特別是目前應用中大多為監督式的學習(supervised learning)，必須提供(人工)標註資料來訓練。所以在標記資料量少的領域，前瞻演算法的效力就很難發揮，原因是特定領域的資料較難取得、或是標註成本較高，如醫學影像、工業生產、金融決策等。

面對少量的標註資料，傳統機器學習的做法是利用「半監督」(semi-supervised learning)的訓練方式。在訓練的過程中僅使用少部分標註的資料，混以大量未標註的資料；例如要辨識狗的種類，只標示少部分的狗種，但是有大量種類不明的照片參雜其中。這樣的研究雖然延續多年，也看到部分成效，但是在實際應用上大家還是不具信心。

既然標註不足，另一個想法是利用影像生成的方式(如生成模型GAN)，大量生成已知類別的影像作為訓練集。但是這落入根本矛盾之中，因為資料不足，生成的模型通常無法正確訓練，如果成功的話也僅侷限在已知的樣本中，無法帶入學習模型所必須的「樣本多樣性」。

機器學習領域的科學家們不斷嘗試新的做法，「自我監督學習」(self-supervised)這樣的方式逐漸露出曙光。透過自我學習的方式訓練龐大網路，免除資料標註的侷限，其後使用新工作的些許標記資料，以微調訓練(fine-tuning)的方式將辨識能力轉移到新的工作上。

在去年推出的自然語言(文字)辨識引擎BERT，就是以這樣的方式橫空出世，在大部分的語言分析工作中，大大推升正確率，包括非常關鍵的文字問答、分類、對話等實務工作上。今年科技部舉辦的「科技大擂台」語音問答挑戰，前幾名的隊伍都使用BERT為文字理解的基底網路。

BERT的參數十分龐大，才可以在這幾年的自然語言深度模型中勝出，它使用了約3.4億個參數(目前影像辨識常用的ResNet-50約有2,600萬個)。為訓練這麼大量的模型，必須有非常龐大的未標註資料集來進行「預訓練」(pre-training )；BERT 預訓練使用的數據集共有數十億個字，包括維基百科及網路上收集的書籍。如此龐大的資料不可能使用人工標註，而是找尋適合的工作來訓練算法，比如在文字中，任意遮住某段文字，讓網路學習理解文本之後，完成克漏字為訓練工作；或是猜測閱讀的文字串在何處應為句子的段落。這些都可以自動的方式命題、訓練，而達成自我學習來訓練龐大的網路。另一個類似的研究，OpenAI的GPT-2則有幾十億的參數，也因為功能太強大，逼真的自動寫作功能，擔心有惡意用途而暫緩公開。

在影像辨識上，「預訓練」做法在卷積網路(CNN)這幾年帶來的突破之後，也時常被使用。例如許多人會先使用相對大量的ImageNet資料集來做預訓練，再微調到新的工作上。但是這有很大的侷限性：首先ImageNet為監督式的訓練，資料(相對)有限，所以無法擴展卷積網路參數量；另外跨領域的影像(如醫學影像、病理、光學檢測等)與ImageNet差異太大，所以預訓練的效果未能發揮。

我們可以期待自我監督學習或是預訓練的工作可以在影像、視訊、MRI、甚至在3D點雲中實現，推升視覺深度學習技術的進展。目前視覺研究的前瞻團隊們也正努力找尋視覺資料上的自我學習方式，應該有機會在這幾年內，善用大量未標註的資料，如同BERT一樣大大提升影像辨識預訓練，可以協助深度學習技術快速落地到標註資料缺乏的各垂直領域。

標註的訓練資料不夠怎麼辦？談自我監督學習新趨勢

徐宏民國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

資料韌性和SIEM解決方案指南

Kiro黑客松工作坊

標註的訓練資料不夠怎麼辦？談自我監督學習新趨勢

徐宏民 國立台灣大學資訊工程學系教授

作者其他文章

推薦活動

資料韌性和SIEM解決方案指南

Kiro黑客松工作坊

徐宏民國立台灣大學資訊工程學系教授