天才一秒记住【久久文学】地址:https://www.jjwxx.com
强化学习的关键困难在于,许多情况下,奖励反馈可能需要很长的时间,这使得程序很难知道哪些行为是好的,哪些行为是坏的。
假设强化学习的程序输了一场游戏,那么,究竟是游戏中的哪一步导致了失败呢?如果认为游戏中的每一步都是错误的,那肯定算总结过度。
但我们怎么分辨究竟哪一步是错的?这就是信用分配问题[10]。
我们在生活中也会遇见信用分配问题。
如果你抽烟的话,很可能在未来收到与之有关的负面反馈,但是这种负面反馈通常会在你吸烟很久以后(通常是几十年)才会收到。
这种延迟的反馈很难让你戒烟。
如果吸烟者在吸烟以后立即就能收到负面反馈(以危及生命和健康的方式),那么我认为,烟民数量一定会锐减。
到目前为止,我们还没提到程序是怎样进行学习的。
机器学习作为一个学科领域,拥有同人工智能一样长的历史,也同样庞大。
在过去的60年里,人们发展过各式各样的机器学习技术。
不过近年来机器学习的成功源自一种特殊的技术:神经网络。
其实,神经网络是人工智能中最古老的技术之一:1956年,约翰·麦卡锡在人工智能暑期学校里提出的最初建议就包括神经网络。
但直到本世纪,它才再度引起了人们的广泛关注。
神经网络,顾名思义,灵感来自大脑内组成神经系统的神经细胞——神经元的微观结构。
神经元是一种能够以简单的方式相互交流的细胞,自神经元发起的纤维突起,被称为轴突,与其他神经元进行连接,连接的“交叉点”
被称为突触。
一般来说,神经元通过突触连接来接收电化学信号,并且根据接收的信号,产生输出信号,然后由其他神经元通过突触连接接收。
关键的是,神经元接收到的输入有着不同的权重:有些输入比其他的更重要,有些输入甚至可能抑制神经元,阻止它产生输出。
在动物的神经系统中,神经元组成的网络是相互联系的:人脑大约有1000亿个神经元,人脑中的神经元通常有数千个连接。
因此,神经网络的构想,就是在机器学习的程序中引入类似的结构。
毕竟,人类大脑已经充分证明了神经系统能够有效地学习。
感知器(神经网络1.0)
神经网络的研究起源于20世纪40年代美国研究人员沃伦·麦卡洛克(WarrenMcCulloch)和沃尔特·皮茨(itts),他们意识到神经元可以用电路建模,更具体地说,是用简单的逻辑电路,他们用这个想法建立了一个简单但非常通用的数学模型。
到了50年代,弗兰克·罗森布拉特(Fra)对这个模型进行了改进,创造出了感知器模型。
感知器模型意义重大,因为它是第一个实际出现的神经网络模型,时至今日,它仍然有存在的意义。
图14展示了罗森布拉特的感知器模型,中间的方块代表神经元本身,左边指向方块的箭头代表神经元的输入(对应神经元的突触连接),右边的箭头代表神经元的输出(对应轴突)。
在感知器模型中,每一个输入都跟一个被称为权重的数字关联,在图14中,与输入1相关的权重为w1,与输入2相关的权重为w2,与输入3相关的权重为w3。
神经元的每一个输入都呈激活和未激活两种状态,如果一个输入被激活,它就会通过相应的权重“刺激”
神经元。
最后,每一个神经元都有一个触发阈值,由另一个数字表示(在图14中,触发阈值用T表示)。
感知器的运作模式是神经元受到的刺激超过了触发阈值T,那么它就会“启动”
,这就意味着它的输出被触发。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!