两种网络+蒙特卡洛树 让每一步都在AlphaGo的预料之中

2017年06月30日07:56  来源:人民网-科普中国
 

据新华网报道,2017年5月27日,中国棋手柯洁九段和计算机围棋程序——AlphaGo的第三场对决在浙江省桐乡市乌镇举行,在本次“人机大战”三番棋决战中,柯洁以0比3的总比分不敌AlphaGo。自围棋“人机大战”开赛以来,公众除了关注胜负之外,对AlphaGo的运算过程也很好奇。

5月25日,中国棋手柯洁在比赛中思考。(徐昱/新华社)

其实,AlphaGo是基于监督式学习与强化学习两种模式,通过构造两个神经网络,即决策网络和价值网络,来评估棋盘位置和决定走子动作。那么,这两个神经网络到底是什么呢?

决策网络是针对围棋的所有走法而言的,《科技日报》介绍,在每一步博弈以及各种选择中,决策网络通过大量的棋局数据,训练形成策略学习,而决策学习分为两步,即监督学习(学习既往的人类棋谱)和强化学习(也就是“左右互搏”,通过程序的自我博弈来发现提高胜率的策略)。此外,《人民日报海外版》介绍,通过大量的棋局学习和“左右互搏”,程序会不断提升自身下棋的能力。

而价值网络可以对整个盘面的优劣作出评估,一眼就能判断某个给定的棋局是否能赢,用一个“价值”数来评估当前的棋局。据《科技日报》报道,价值网络就是对棋盘上每个棋子后续走法的成败预测。它负责给局势打分,保证在落子二十步以后的局面中仍不落下风,利用价值网络可以更快地选择出胜利的走法。

AlphaGo有了决策网络和价值网络就可以进行搜索了。AlphaGo运用蒙特卡洛树进行搜索,即用蒙特卡洛搜索树来整合这些神经网络。那么,什么是蒙特卡洛搜索树呢?北京邮电大学教授、计算机围棋研究所所长刘知青在接受人民网体育频道采访时介绍,蒙特卡洛树搜索底层有一个坚实的数学基础,上层使用并行计算,通过计算、模拟、采样、优化等一系列数学方法,提高计算机的围棋技术。对于AlphaGo来说,决策网络提供棋子的各种走法,价值网络再对这些棋子的胜率进行评估,然后通过蒙特卡洛搜索树进行搜索决定走法。(张茜)

本文由中科院物理所副研究员罗会仟进行科学性把关。

(责编:高黎明、张希)