久久文学

第167章 重启lr研究 三(第2页)

天才一秒记住【久久文学】地址:https://www.jjwxx.com

,估计都能去泡杯茶回来了。

……

slrm运行这么慢,原因在於计算密度的爆炸。

传统的transformer,其核心计算是矩阵乘法(matmul)。

这玩意儿虽然计算量大,但在现代gpu上已经优化到了极致,那是为了並行计算而生的。

但slrm不一样。

它的核心是“几何嵌入”

每一个概念,都要被映射为一个高维空间中的“盒子”

或者“流形”

每一次逻辑推理,都要计算这些几何体之间的“交集”

、“並集”

和“包含关係”

这涉及到大量的非线性运算,比如min、max、softplus,以及复杂的gumbel分布採样。

这些操作,在gpu上是极其低效的。

它们不仅无法充分利用tensorcore的算力,还会导致大量的显存碎片化。

“推理一个简单的三段论,slrm消耗的算力,竟然是同等规模transformer的50倍!”

徐辰看著屏幕上的性能瓶颈分析,脑海中浮现出一个著名的学术概念。

“这简直就是教科书级別的『硬体彩票。”

徐辰喃喃自语。

所谓“硬体彩票”

,是google研究员sarahooker提出的一个深刻观点:一种ai算法能否成功,往往不取决於它在数学上是否优越,而取决於它是否幸运地“中奖”

了——即当下的主流硬体架构是否恰好支持它。

“transformer之所以能统治世界,不仅仅是因为“自注意力”

机制设计得好,更是因为它中了『头彩。

它的核心算子是矩阵乘法,而这恰好是gpu最擅长的事情。”

这一突破源於gpu的“无心插柳”

——其本为处理海量像素设计的並行架构,恰好完美契合了神经网络的矩阵运算需求。

“而我的slrm,虽然在逻辑推理的数学本质上碾压了transformer,但它输掉了这场『彩票。”

徐辰冷静地分析著,“现有的gpu架构,对於几何集合运算和复杂的非线性逻辑,是天然排斥的。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

她除了能打一无是处四合院:这背锅侠我不当了特种岁月之弹道无声蒸汽朋克下的神秘世界凤还朝,妖孽王爷请让道民国谍影我能升级地球人在斗罗开局加入聊天群这个修士很危险修真研究生生活录青梅且把时光暖丹师剑宗五年后我携三个幼崽炸翻财阀家族深渊独行仙傲召唤神将皇帝系统我家可能有位大佬官道争锋权宠刁妃:王爷终于被翻牌了!人生交换游戏我,截教大师兄,加入聊天群神印王座商场红颜路万族王座青春派黑岩