AlphaGo Zero的進化意義

林育中
2017-10-26
分享
Line

AlphaGo Zero採單純的強化學習，不用輸入原始數據，僅憑自我訓練建立模式、函數，用較少的資源、較短的學習時間，完勝之前由打譜學習的各式版本。DeepMind

10月19日《Nature》刊登了一篇題為“Mastering the game of Go without human knowledge”的文章。做為前1、2年AlphaGo人工智慧所向披靡新聞的遺緒，媒體只輕描淡寫的提起新版的AlphaGo Zero只花了3天學習就以100：0的懸殊比數完勝以前所有的版本，包括AlphaGo Fan、AlphaGo Lee以及最強的AlphaGo Master。因為沒有棋賽、沒有事件，報導到此為止。

這件事在基礎科學上當然是重要的，所以能上《Nature》。這次文章的重點是以前諸版本AlphaGo的學習方式是監督學習(supervised learning)與強化學習(reinforcement learning)，神經網路架構為卷積神經網路(Convolutional Neural Network；CNN)與分離政策(separated policy)－分開評估位置與棋步的價值；AlphaGo Zero用強化學習(reinforcement learning)自我訓練，神經網路架構為剩餘神經網路(Residual Neural Network；RNN)與雙重政策(dual policy)－聯合評估位置與棋步的價值。

其中最大的差異是監督學習加強化學習對比單純的強化學習：前者是指輸入的數據先經過人類的標誌(label or tag)，經由學習這些人為處理過的數據，並反饋這些學習成果，由人工智慧試圖找出一個模式或函數，用以預測或決策；單純的強化學習不用輸入原始數據，僅憑自我訓練建立模式、函數。單純的強化學習或無監督學習一直是人工智慧努力的目標，因為資料庫難得，而經專家標誌過的數據更是稀有。

用白話來說，以前的AlphaGo要先打譜學棋。黃士傑博士講他在開始訓練 AlphaGo 圍棋時請他學弟、妹收集了許多棋譜，後來使用的是Gokifu棋譜資料庫。AlphaGo Zero不僅棋譜沒有標誌，連棋譜也沒有！就像電影《太極一》的副標－從零開始！它完全是在只給定明確的圍棋規則後，自己跟自己下棋、學習長棋的。它用較少的資源(僅4顆TPU)、較短的學習時間(3天)學習，然後完勝之前由打譜學習的各式版本，這個例子是單純強化學習一個優異的例子。

但是科學上的意義與商業上看到的意義是不同的。對於除了醫療資料外大數據比較缺乏的台灣，這個單純強化學習的例子告訴我們在有些應用上沒有大數據也可以達成優異的結果，這些領域七大黑洞公司所占的先天優勢就少很多，也是新入者可以考慮的領域。另外，研究發現儘管在對局中AlphaGo Zero占盡優勢，但是在預測職業棋手的棋著時，先前以打譜學棋的版本略勝一籌。這顯示人類行為的不完全理性特質，這也就是說在人類行為分析以及預測的應用上，人類還有一些可以發揮的空間。

如果你恰好也下圍棋的話，這個研究還另有人文趣味。首先，儘管AlphaGo Zero在學習過程中像人類的學習依次進入重視吃子、發展死活的概念到最終關注全局的均衡，並且逐漸發展出開局、手筋、死活、劫、官子、先手、殺龍、型、勢、地域等概念，但征子的概念在它學習較晚的階段才發展出來，這很令人費解。它也發展出新定石，譬如在星位(四4)旁邊(四5)的碰，這對於已經下了幾千年的圍棋實在很令人驚訝，尤其中國圍棋以前是雙方各在星位擺座子的，沒有小目、目外、三3、高目等的，幾千年來人類竟然沒有發展出這些定石。

最後，AlphaGo Zero在訓練時間夠長、棋力漸近飽和時，自己對戰的結果總是白半目勝，圍棋先手的貼目數要改了！