第165章重启lr研究一（第1页）

天才一秒记住【久久文学】地址：https://www.jjwxx.com

忙完了这些琐事，徐辰的生活重新回归平静。

徐辰的思绪，重新回到了那个被他暂时搁置的ai项目——laart（逻辑增强型大语言模型）。

在去德国之前，他利用学校计算中心的资源，跑通了laart模型的第一个核心模块——slrm（符號逻辑推理模块）。

那个demo虽然简陋，但却在clutrr逻辑推理数据集上，跑出了惊人的95.12%的准確率。

这个成绩，足以让任何一个ai研究者疯狂。

但徐辰並不满意。

“95%……还不够。”

徐辰坐在研究室里，盯著屏幕上那个复杂的网络结构图，眉头微蹙。

“这只是一个『拼凑出来的结果。

gumbel-box虽然解决了梯度截断的问题，但它在高维空间中的拓扑性质，依然不够完美。”

……

他想起了transformer架构的发展史。

2017年，googlebrain团队提出了transformer。

那是一个划时代的架构，但它並非完美无缺。

最初的transformer，使用的是绝对位置编码。

后来，人们发现这种编码方式在处理长文本时效果不佳，於是有了相对位置编码，再后来又有了旋转位置编码。

最初的attention机制，计算复杂度是o（n^2），隨著序列长度增加，计算量呈指数级爆炸。

於是，人们发明了稀疏注意力、线性注意力、闪电注意力……

每一个组件，都在不断的叠代中进化。

“transformer之所以强大，是因为它的每一个组件——注意力机制、前馈网络、归一化、激活函数——虽然单独拿出来都有明確的数学定义，但当它们被堆叠成几百层、拥有几千亿参数后，它们之间的相互作用，会產生极度复杂的非线性动力学。”

“这种动力学，目前还没有任何数学工具能够精確预测。”

“所以，ai领域才会有那么多『炼丹师。

大家都在试，都在猜，都在赌。”

事实上，transformer本身就是一个典型的“学术成果”

。

在它诞生之初，虽然在机器翻译任务上取得了sota，但並没有人预料到它会成为后来大语言模型（llm）的基石。

它只是证明了“自注意力机制可以替代循环神经网络（rnn）”

这条路是走得通的。

真正让transformer爆发威力的，是后来openai的gpt系列、谷歌的bert系列，以及无数工程师在海量数据和算力上的疯狂堆叠与调优。

是工业界的工程化能力，將这个学术上的“好点子”

，变成了改变世界的“核武器”

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第165章 重启lr研究 一（第1页）