两种网络+蒙特卡洛树让每一步都在AlphaGo的预料之中

2017年06月30日07:56 来源：人民网-科普中国

据新华网报道，2017年5月27日，中国棋手柯洁九段和计算机围棋程序——AlphaGo的第三场对决在浙江省桐乡市乌镇举行，在本次“人机大战”三番棋决战中，柯洁以0比3的总比分不敌AlphaGo。自围棋“人机大战”开赛以来，公众除了关注胜负之外，对AlphaGo的运算过程也很好奇。

5月25日，中国棋手柯洁在比赛中思考。（徐昱/新华社）

其实，AlphaGo是基于监督式学习与强化学习两种模式，通过构造两个神经网络，即决策网络和价值网络，来评估棋盘位置和决定走子动作。那么，这两个神经网络到底是什么呢？

决策网络是针对围棋的所有走法而言的，《科技日报》介绍，在每一步博弈以及各种选择中，决策网络通过大量的棋局数据，训练形成策略学习，而决策学习分为两步，即监督学习（学习既往的人类棋谱）和强化学习（也就是“左右互搏”，通过程序的自我博弈来发现提高胜率的策略）。此外，《人民日报海外版》介绍，通过大量的棋局学习和“左右互搏”，程序会不断提升自身下棋的能力。

而价值网络可以对整个盘面的优劣作出评估，一眼就能判断某个给定的棋局是否能赢，用一个“价值”数来评估当前的棋局。据《科技日报》报道，价值网络就是对棋盘上每个棋子后续走法的成败预测。它负责给局势打分，保证在落子二十步以后的局面中仍不落下风，利用价值网络可以更快地选择出胜利的走法。

AlphaGo有了决策网络和价值网络就可以进行搜索了。AlphaGo运用蒙特卡洛树进行搜索，即用蒙特卡洛搜索树来整合这些神经网络。那么，什么是蒙特卡洛搜索树呢？北京邮电大学教授、计算机围棋研究所所长刘知青在接受人民网体育频道采访时介绍，蒙特卡洛树搜索底层有一个坚实的数学基础，上层使用并行计算，通过计算、模拟、采样、优化等一系列数学方法，提高计算机的围棋技术。对于AlphaGo来说，决策网络提供棋子的各种走法，价值网络再对这些棋子的胜率进行评估，然后通过蒙特卡洛搜索树进行搜索决定走法。（张茜）

本文由中科院物理所副研究员罗会仟进行科学性把关。