第五章深度突破2（第2页）

天才一秒记住【久久文学】地址：https://www.jjwxx.com

这个程序当然不会是完美的，在某些游戏中，它的表现相当糟糕，研究一下为什么会出现这种情况也挺有意思。

在程序玩得特别糟糕的游戏中，有一款叫作“蒙特祖玛的复仇”

，它的难点在于奖励非常稀少：玩家在获得奖励之前必须执行一系列复杂的任务（这一点与打砖块这种游戏不同，在打砖块游戏中奖励反馈或多或少都是即时的）。

通俗地说，如果奖励反馈在相关行动执行后很长时间才出现，就会给强化学习带来困难：这就是前文我们讨论过的信用分配问题，即你可能不清楚是哪些行为导致了奖励的发生。

如果雅达利游戏程序是深度思维团队唯一完成的东西，那也足够让他们在人工智能的历史上留下令人尊重、浓墨重彩的一笔，但是，该团队随后又取得了一系列惊人的成就。

其中最著名的是AlphaGo，在撰写本书的时候，它可能仍然是迄今为止最著名的人工智能系统。

AlphaGo的功能是玩一种源自中国的古老棋类游戏：围棋。

围棋是人工智能挑战一个引人关注的目标。

一方面，围棋的规则非常简单，比国际象棋简单得多。

另一方面，在2015年，围棋程序的水准远远低于人类专业棋手。

那么，为什么围棋对人工智能而言这么难？答案很简单，因为围棋的计算量太庞大了。

围棋棋盘是19×19的格子，总共有361个位置可以落子。

而国际象棋棋盘的格子是8×8，只有64个位置可以放置棋子。

正如我们在第二章中所提到的，围棋的分支因子（即棋手在游戏中每一步的平均移动可能性）约为250，而国际象棋的分支因子约为35。

换言之，在棋盘大小和分支因子方面，围棋的数据量比国际象棋庞大得多。

另外，一盘围棋对弈可以持续很长时间，一场比赛中走150步是很常见的。

对人类而言，围棋是公认最难的棋类，因为计算规模太大：思考一个如此大小的棋盘已经达到甚至超过人类玩家所能管理的极限。

这导致围棋中指定明确的战术非常困难。

对于机器而言，这也是问题所在。

棋盘规模和分支因子让简单粗暴的搜索方式毫无用武之地——我们得考虑别的方法。

AlphaGo使用了两个神经网络：价值网络只负责评估给定的棋盘位置的优劣程度，而策略网络则根据当前棋盘的状况评估下一步棋该放在何处[75]。

策略网络包含13层，首先使用监督式学习进行训练，训练的数据则是人类的专业棋手下棋的棋谱。

然后进行自我对战的强化学习。

最后，这两个网络被嵌入一个复杂的蒙特卡罗树这一搜索技术中。

在这套系统公布之前，深度思维邀请了欧洲围棋冠军樊麾与AlphaGo比赛：最终AlphaGo以5∶0获胜。

这是围棋程序第一次在全场比赛中战胜人类专业棋手。

不久之后，深度思维宣布AlphaGo将于2016年3月在韩国首尔与世界围棋冠军李世石进行五场比赛。

人工智能界因此兴奋不已，相关研究人员——包括我自己——也很期待看到比赛结果（当时我们猜测AlphaGo大概会取得一到两场胜利，但李世石会决定性地赢得整场比赛）。

谁也没有料到围绕这场比赛爆发出空前的宣传热浪，这项赛事成为全世界的头条新闻，比赛的故事甚至都被拍成了电影[76]。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第五章 深度突破2（第2页）