兩種網絡+蒙特卡洛樹 讓每一步都在AlphaGo的預料之中

2017年06月30日07:56  來源:人民網-科普中國
 

據新華網報道,2017年5月27日,中國棋手柯潔九段和計算機圍棋程序——AlphaGo的第三場對決在浙江省桐鄉市烏鎮舉行,在本次“人機大戰”三番棋決戰中,柯潔以0比3的總比分不敵AlphaGo。自圍棋“人機大戰”開賽以來,公眾除了關注勝負之外,對AlphaGo的運算過程也很好奇。

5月25日,中國棋手柯潔在比賽中思考。(徐昱/新華社)

其實,AlphaGo是基於監督式學習與強化學習兩種模式,通過構造兩個神經網絡,即決策網絡和價值網絡,來評估棋盤位置和決定走子動作。那麼,這兩個神經網絡到底是什麼呢?

決策網絡是針對圍棋的所有走法而言的,《科技日報》介紹,在每一步博弈以及各種選擇中,決策網絡通過大量的棋局數據,訓練形成策略學習,而決策學習分為兩步,即監督學習(學習既往的人類棋譜)和強化學習(也就是“左右互搏”,通過程序的自我博弈來發現提高勝率的策略)。此外,《人民日報海外版》介紹,通過大量的棋局學習和“左右互搏”,程序會不斷提升自身下棋的能力。

而價值網絡可以對整個盤面的優劣作出評估,一眼就能判斷某個給定的棋局是否能贏,用一個“價值”數來評估當前的棋局。據《科技日報》報道,價值網絡就是對棋盤上每個棋子后續走法的成敗預測。它負責給局勢打分,保証在落子二十步以后的局面中仍不落下風,利用價值網絡可以更快地選擇出勝利的走法。

AlphaGo有了決策網絡和價值網絡就可以進行搜索了。AlphaGo運用蒙特卡洛樹進行搜索,即用蒙特卡洛搜索樹來整合這些神經網絡。那麼,什麼是蒙特卡洛搜索樹呢?北京郵電大學教授、計算機圍棋研究所所長劉知青在接受人民網體育頻道採訪時介紹,蒙特卡洛樹搜索底層有一個堅實的數學基礎,上層使用並行計算,通過計算、模擬、採樣、優化等一系列數學方法,提高計算機的圍棋技術。對於AlphaGo來說,決策網絡提供棋子的各種走法,價值網絡再對這些棋子的勝率進行評估,然后通過蒙特卡洛搜索樹進行搜索決定走法。(張茜)

本文由中科院物理所副研究員羅會仟進行科學性把關。

(責編:高黎明、張希)