久久文学

第168章 重启lr研究 四(第3页)

天才一秒记住【久久文学】地址:https://www.jjwxx.com

徐辰加载模型,运行测试。

十分钟后。

最终分数:81.2%。

翻倍!

直接翻倍!

在这个榜单上,即便是千亿参数的llama-3-70b,也还在65%左右徘徊。

徐辰用7b的模型,跑出了比gpt-4还高5个点的成绩!

……

第三战:proofwriter。

这是终极考验。

不仅要对,还要对得有理有据。

qwen-7b原始水平大约是45%,会经常胡编乱造证明过程)。

laart(qwen-7b+slrm):98.4%。

“98.4%……”

徐辰看著这个数字,忍不住感嘆slrm的逻辑能力確实够强。

“虽然推理速度慢得像蜗牛,泛化能力也有限,但在『逻辑严谨性这一块,它就是当之无愧的王者。”

“有了这些数据,这篇论文,稳了。”

……

隨著徐辰將一份份测试结果上传到huggingface的leaderboard,整个ai界,再次被那个神秘的“x”

给震动了。

这一次,不再是clutrr一个榜单的孤立事件。

snli、logiqa、proofwriter……

几乎所有主流的、公认最难啃的逻辑推理榜单,在一夜之间,全部被那个简单的字母“x”

给血洗了!

而且,分数不是微弱的领先,而是断层式的碾压!

在logiqa这种“智商测试”

榜单上,x的模型甚至比第二名高出了整整5个百分点!

那一连串绿色的“newsota”

標誌,就像是一排排闪烁的霓虹灯,刺痛了所有ai巨头的眼睛。

更可怕的是,这些成绩的背后,依然没有公开任何模型权重,没有一行代码,甚至连那个“x”

到底是谁,依然是个谜。

……

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

她除了能打一无是处四合院:这背锅侠我不当了特种岁月之弹道无声蒸汽朋克下的神秘世界凤还朝,妖孽王爷请让道民国谍影我能升级地球人在斗罗开局加入聊天群这个修士很危险修真研究生生活录青梅且把时光暖丹师剑宗五年后我携三个幼崽炸翻财阀家族深渊独行仙傲召唤神将皇帝系统我家可能有位大佬官道争锋权宠刁妃:王爷终于被翻牌了!人生交换游戏我,截教大师兄,加入聊天群神印王座商场红颜路万族王座青春派黑岩