【高速運算應用-學研之星】深度強化式學習人工智慧技術走入真實世界的應用

林佩瑩／台北
2020-11-16
分享

交通大學吳毅成教授聚焦AI如何從虛擬環境走入真實世界的應用

AlphaGo人工智慧為其軟體與世界圍棋棋王李世乭對弈而一戰成名，許多專家認為至少還要十年才能達成，由此人工智慧(AI)開始在各個領域嶄露頭腳。2017年AlphaGo的開發團隊進一步發表 AlphaGo Zero，採用更進階的「深度強化式學習(Deep Reinforcement Learning；DRL)」技術，其特點在於AI訓練過程無需資料科學專家的棋譜資料，一切從「零知識」開始，讓DRL的研究進入新的里程碑。交通大學吳毅成教授旗下研究團隊參與科技部AI研究計畫「DRL技術之應用研究」，聚焦AI如何從虛擬環境走入真實世界的應用。

2020年2月該團隊刊登論文於AAAI-20，發表改良AlphaGo Zero軟體的新方法，稱為「PBT (Population Based Training)」，不單以AlphaGo Zero自我對弈方式訓練，而是同時訓練十多組程式隨機互打，以獲得更好的訓練成果，亦省下近 10 倍的計算資源。

值得一提的是，這個訓練成果超越了Facebook的FAIR研究中心所研發的OpenGo成果，而OpenGo圍棋程式是當時同規格中最強開放源碼圍棋程式，吳毅成團隊可以將獲勝率從起初47%提升到74%，這種成長超過20%以上的技術，是一項重大突破的研究成果。

DRL的研究第一階段利用持續精進演算法，延伸用在下圍棋上的AI應用，吳毅成一直認為圍棋之於AI的研究，好比果蠅之於生物界遺傳學上的貢獻，而圍棋的千變萬化特性是訓練DRL很適合的應用問題。

目前吳毅成團隊已進入第二個階段的應用，將打造一個強度夠強、行為像人的電玩遊戲機器人，稱為「AI Bot」。透過DRL技術開啟與電腦遊戲公司合作，並利用AI技術，改善如遊戲本身的擬人化、具備多種強度、多變行為等遊戲的設計需求，並協助開發者進行遊戲弱點偵測，及有效降低遊戲公司開發AI的門檻與資金，提升台灣電腦遊戲產業的前瞻發展。

第三階段則朝向整合虛擬與真實技術的研究，選擇自駕模型賽車做為試煉的場域，其成果展現於2019年參加在Las Vegas舉辦的實體賽車競賽總決賽，一舉獲得世界賽第三名的佳績。過去這些實體應用如機器人研究已累積發展多年經驗，精確度的調校，大多需要仰賴人為編寫規則或繁複工具才能取得有用特徵，最後再利用演算法歸納以做出最佳決策，對DRL 的研究而言，與其靠人為編寫規則與緊密的修改演算法，不同一切從零開始，靠同時訓練多組程式隨機互打而調整彈性的作法，該技術帶來多樣性的解決辦法。

由於平行運算上的需求，DRL的研究一直需要大量的運算資源，吳毅成認為國網中心提供TWCC (Taiwan Computing Cloud Service)的高速運算資源，對台灣的學術研究，或是產業界發展新的技術與產品有非常巨大效益。他舉前述的圍棋為例做對比，Facebook擲上億美元的研發經費，而台灣的研究團隊相對有限僅數百萬的經費，其後面主要運算資源即是來自TWCC平台，吳毅成的研究團隊表示，若無TWCC平台龐大的支援，是難以達成的。

DRL以自我學習為基礎的AI技術才剛起步，前面仍有許多重要的挑戰橫亙其間，透過不斷加強自我學習的演算法之後，已經從下圍棋、玩電玩與模擬自駕賽車的場域中，找到令人刮目相看的結果，這些研究未來應能幫助解決許多實體應用問題包括無人機、自駕車等生活應用問題，這些都需要TWCC的重要奧援，因此他由衷期望國網中心能夠在既有的步伐上，繼續往前邁進，並造福整個台灣的AI研究的社群。

關鍵字

交大 AlphaGo

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」