第五章深度突破（第3页）

天才一秒记住【久久文学】地址：https://www.jjwxx.com

强化学习的关键困难在于，许多情况下，奖励反馈可能需要很长的时间，这使得程序很难知道哪些行为是好的，哪些行为是坏的。

假设强化学习的程序输了一场游戏，那么，究竟是游戏中的哪一步导致了失败呢？如果认为游戏中的每一步都是错误的，那肯定算总结过度。

但我们怎么分辨究竟哪一步是错的？这就是信用分配问题[10]。

我们在生活中也会遇见信用分配问题。

如果你抽烟的话，很可能在未来收到与之有关的负面反馈，但是这种负面反馈通常会在你吸烟很久以后（通常是几十年）才会收到。

这种延迟的反馈很难让你戒烟。

如果吸烟者在吸烟以后立即就能收到负面反馈（以危及生命和健康的方式），那么我认为，烟民数量一定会锐减。

到目前为止，我们还没提到程序是怎样进行学习的。

机器学习作为一个学科领域，拥有同人工智能一样长的历史，也同样庞大。

在过去的60年里，人们发展过各式各样的机器学习技术。

不过近年来机器学习的成功源自一种特殊的技术：神经网络。

其实，神经网络是人工智能中最古老的技术之一：1956年，约翰·麦卡锡在人工智能暑期学校里提出的最初建议就包括神经网络。

但直到本世纪，它才再度引起了人们的广泛关注。

神经网络，顾名思义，灵感来自大脑内组成神经系统的神经细胞——神经元的微观结构。

神经元是一种能够以简单的方式相互交流的细胞，自神经元发起的纤维突起，被称为轴突，与其他神经元进行连接，连接的“交叉点”

被称为突触。

一般来说，神经元通过突触连接来接收电化学信号，并且根据接收的信号，产生输出信号，然后由其他神经元通过突触连接接收。

关键的是，神经元接收到的输入有着不同的权重：有些输入比其他的更重要，有些输入甚至可能抑制神经元，阻止它产生输出。

在动物的神经系统中，神经元组成的网络是相互联系的：人脑大约有1000亿个神经元，人脑中的神经元通常有数千个连接。

因此，神经网络的构想，就是在机器学习的程序中引入类似的结构。

毕竟，人类大脑已经充分证明了神经系统能够有效地学习。

感知器（神经网络1.0）

神经网络的研究起源于20世纪40年代美国研究人员沃伦·麦卡洛克（WarrenMcCulloch）和沃尔特·皮茨（itts），他们意识到神经元可以用电路建模，更具体地说，是用简单的逻辑电路，他们用这个想法建立了一个简单但非常通用的数学模型。

到了50年代，弗兰克·罗森布拉特（Fra）对这个模型进行了改进，创造出了感知器模型。

感知器模型意义重大，因为它是第一个实际出现的神经网络模型，时至今日，它仍然有存在的意义。

图14展示了罗森布拉特的感知器模型，中间的方块代表神经元本身，左边指向方块的箭头代表神经元的输入（对应神经元的突触连接），右边的箭头代表神经元的输出（对应轴突）。

在感知器模型中，每一个输入都跟一个被称为权重的数字关联，在图14中，与输入1相关的权重为w1，与输入2相关的权重为w2，与输入3相关的权重为w3。

神经元的每一个输入都呈激活和未激活两种状态，如果一个输入被激活，它就会通过相应的权重“刺激”

神经元。

最后，每一个神经元都有一个触发阈值，由另一个数字表示（在图14中，触发阈值用T表示）。

感知器的运作模式是神经元受到的刺激超过了触发阈值T，那么它就会“启动”

，这就意味着它的输出被触发。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第五章 深度突破（第3页）