久久文学

第167章 重启lr研究 三(第4页)

天才一秒记住【久久文学】地址:https://www.jjwxx.com

另一个问题,是训练数据的匱乏。

徐辰目前能跑出sota,是因为他用的这几个数据集(snli、logiqa等)都是经过人工精心標註的高质量逻辑数据。

但是,这种数据在海量的网际网路文本中,占比极低。

想要让slrm真正具备通用的逻辑能力,就需要海量的、覆盖各种领域(法律、医学、常识)的逻辑数据来训练。

“没有数据,slrm就是个空壳子。”

“而且,不同的逻辑问题下,逻辑的判断归属是不一样的。

这依然需要强大的参数量来擬合。”

徐辰现在的slrm模块,参数量仅仅只有0.5b。

“如果要记住更多的逻辑,可能要把slrm扩大到7b,甚至70b,再配合海量的逻辑数据。

“到时候,它和transformer结合后的威力,绝对不是简单的1+1=2。”

“也就是说一个7b的transformer架构的模型,加上7b的slrm模型,组合起来,可能有超过100b参数的能力。”

“但是……我是没有能力搞到这么多数据了。”

……

经过一番实操,徐辰得出了结论:

“这个模型学术成果价值比较强,走產业化路线,还有很大的空间。”

“不过,因为是系统出品,我对这个方向的產业化还是比较有信心的。”

徐辰又转念一想,“现在这样,作为学术成果,其实刚刚好。”

“既展示了顛覆性的潜力,又留下了足够的改进空间给后来人。”

“这,才是一篇顶级论文该有的样子。”

他甚至可以预见,这篇论文一旦发表,將会养活多少嗷嗷待哺的ai方向研究生。

“《基於slrm的医疗问答系统优化》、《slrm在法律文书生成中的应用》、《一种改进的gumbel-box几何嵌入算法》……”

徐辰掰著手指头数了数,忍不住笑出了声。

“光是把slrm里的几何图形换成『球、『锥、『高斯分布,就能水出几十篇论文。”

“再把应用场景换一换,从数学题换成代码生成、换成情感分析,又能水出几百篇。”

“更別提那些搞硬体加速的,搞模型量化的,搞分布式训练的……这简直就是给整个ai圈送了一波『全家桶级別的选题啊!”

“我这哪里是发论文,我这是在给全球ai界创造就业岗位啊!”

“功德无量,功德无量。”

徐辰双手合十,一脸慈悲。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

她除了能打一无是处四合院:这背锅侠我不当了特种岁月之弹道无声蒸汽朋克下的神秘世界凤还朝,妖孽王爷请让道民国谍影我能升级地球人在斗罗开局加入聊天群这个修士很危险修真研究生生活录青梅且把时光暖丹师剑宗五年后我携三个幼崽炸翻财阀家族深渊独行仙傲召唤神将皇帝系统我家可能有位大佬官道争锋权宠刁妃:王爷终于被翻牌了!人生交换游戏我,截教大师兄,加入聊天群神印王座商场红颜路万族王座青春派黑岩