智慧應用 影音
科技產業報訂閱
DForum0416智慧工廠台中

【高速運算應用-學研之星】深度強化式學習人工智慧技術走入真實世界的應用

交通大學吳毅成教授聚焦AI如何從虛擬環境走入真實世界的應用

AlphaGo人工智慧為其軟體與世界圍棋棋王李世乭對弈而一戰成名,許多專家認為至少還要十年才能達成,由此人工智慧(AI)開始在各個領域嶄露頭腳。2017年AlphaGo的開發團隊進一步發表 AlphaGo Zero,採用更進階的「深度強化式學習(Deep Reinforcement Learning;DRL)」技術,其特點在於AI訓練過程無需資料科學專家的棋譜資料,一切從「零知識」開始,讓DRL的研究進入新的里程碑。交通大學吳毅成教授旗下研究團隊參與科技部AI研究計畫「DRL技術之應用研究」,聚焦AI如何從虛擬環境走入真實世界的應用。

2020年2月該團隊刊登論文於AAAI-20,發表改良AlphaGo Zero軟體的新方法,稱為「PBT (Population Based Training)」,不單以AlphaGo Zero自我對弈方式訓練,而是同時訓練十多組程式隨機互打,以獲得更好的訓練成果,亦省下近 10 倍的計算資源。

值得一提的是,這個訓練成果超越了Facebook的FAIR研究中心所研發的OpenGo成果,而OpenGo圍棋程式是當時同規格中最強開放源碼圍棋程式,吳毅成團隊可以將獲勝率從起初47%提升到74%,這種成長超過20%以上的技術,是一項重大突破的研究成果。

DRL的研究第一階段利用持續精進演算法,延伸用在下圍棋上的AI應用,吳毅成一直認為圍棋之於AI的研究,好比果蠅之於生物界遺傳學上的貢獻,而圍棋的千變萬化特性是訓練DRL很適合的應用問題。

目前吳毅成團隊已進入第二個階段的應用,將打造一個強度夠強、行為像人的電玩遊戲機器人,稱為「AI Bot」。透過DRL技術開啟與電腦遊戲公司合作,並利用AI技術,改善如遊戲本身的擬人化、具備多種強度、多變行為等遊戲的設計需求,並協助開發者進行遊戲弱點偵測,及有效降低遊戲公司開發AI的門檻與資金,提升台灣電腦遊戲產業的前瞻發展。

第三階段則朝向整合虛擬與真實技術的研究,選擇自駕模型賽車做為試煉的場域,其成果展現於2019年參加在Las Vegas舉辦的實體賽車競賽總決賽,一舉獲得世界賽第三名的佳績。過去這些實體應用如機器人研究已累積發展多年經驗,精確度的調校,大多需要仰賴人為編寫規則或繁複工具才能取得有用特徵,最後再利用演算法歸納以做出最佳決策,對DRL 的研究而言,與其靠人為編寫規則與緊密的修改演算法,不同一切從零開始,靠同時訓練多組程式隨機互打而調整彈性的作法,該技術帶來多樣性的解決辦法。

由於平行運算上的需求,DRL的研究一直需要大量的運算資源,吳毅成認為國網中心提供TWCC (Taiwan Computing Cloud Service)的高速運算資源,對台灣的學術研究,或是產業界發展新的技術與產品有非常巨大效益。他舉前述的圍棋為例做對比,Facebook擲上億美元的研發經費,而台灣的研究團隊相對有限僅數百萬的經費,其後面主要運算資源即是來自TWCC平台,吳毅成的研究團隊表示,若無TWCC平台龐大的支援,是難以達成的。

DRL以自我學習為基礎的AI技術才剛起步,前面仍有許多重要的挑戰橫亙其間,透過不斷加強自我學習的演算法之後,已經從下圍棋、玩電玩與模擬自駕賽車的場域中,找到令人刮目相看的結果,這些研究未來應能幫助解決許多實體應用問題包括無人機、自駕車等生活應用問題,這些都需要TWCC的重要奧援,因此他由衷期望國網中心能夠在既有的步伐上,繼續往前邁進,並造福整個台灣的AI研究的社群。

  •     按讚加入DIGITIMES智慧應用粉絲團
更多關鍵字報導: 交大 AlphaGo