兩種網絡+蒙特卡洛樹讓每一步都在AlphaGo的預料之中

2017年06月30日07:56 來源：人民網-科普中國

據新華網報道，2017年5月27日，中國棋手柯潔九段和計算機圍棋程序——AlphaGo的第三場對決在浙江省桐鄉市烏鎮舉行，在本次“人機大戰”三番棋決戰中，柯潔以0比3的總比分不敵AlphaGo。自圍棋“人機大戰”開賽以來，公眾除了關注勝負之外，對AlphaGo的運算過程也很好奇。

5月25日，中國棋手柯潔在比賽中思考。（徐昱/新華社）

其實，AlphaGo是基於監督式學習與強化學習兩種模式，通過構造兩個神經網絡，即決策網絡和價值網絡，來評估棋盤位置和決定走子動作。那麼，這兩個神經網絡到底是什麼呢？

決策網絡是針對圍棋的所有走法而言的，《科技日報》介紹，在每一步博弈以及各種選擇中，決策網絡通過大量的棋局數據，訓練形成策略學習，而決策學習分為兩步，即監督學習（學習既往的人類棋譜）和強化學習（也就是“左右互搏”，通過程序的自我博弈來發現提高勝率的策略）。此外，《人民日報海外版》介紹，通過大量的棋局學習和“左右互搏”，程序會不斷提升自身下棋的能力。

而價值網絡可以對整個盤面的優劣作出評估，一眼就能判斷某個給定的棋局是否能贏，用一個“價值”數來評估當前的棋局。據《科技日報》報道，價值網絡就是對棋盤上每個棋子后續走法的成敗預測。它負責給局勢打分，保証在落子二十步以后的局面中仍不落下風，利用價值網絡可以更快地選擇出勝利的走法。

AlphaGo有了決策網絡和價值網絡就可以進行搜索了。AlphaGo運用蒙特卡洛樹進行搜索，即用蒙特卡洛搜索樹來整合這些神經網絡。那麼，什麼是蒙特卡洛搜索樹呢？北京郵電大學教授、計算機圍棋研究所所長劉知青在接受人民網體育頻道採訪時介紹，蒙特卡洛樹搜索底層有一個堅實的數學基礎，上層使用並行計算，通過計算、模擬、採樣、優化等一系列數學方法，提高計算機的圍棋技術。對於AlphaGo來說，決策網絡提供棋子的各種走法，價值網絡再對這些棋子的勝率進行評估，然后通過蒙特卡洛搜索樹進行搜索決定走法。（張茜）

本文由中科院物理所副研究員羅會仟進行科學性把關。