第168章重启lr研究四（第3页）

天才一秒记住【久久文学】地址：https://www.jjwxx.com

徐辰加载模型，运行测试。

十分钟后。

最终分数：81.2%。

翻倍！

直接翻倍！

在这个榜单上，即便是千亿参数的llama-3-70b，也还在65%左右徘徊。

徐辰用7b的模型，跑出了比gpt-4还高5个点的成绩！

……

第三战：proofwriter。

这是终极考验。

不仅要对，还要对得有理有据。

qwen-7b原始水平大约是45%，会经常胡编乱造证明过程）。

laart（qwen-7b+slrm）：98.4%。

“98.4%……”

徐辰看著这个数字，忍不住感嘆slrm的逻辑能力確实够强。

“虽然推理速度慢得像蜗牛，泛化能力也有限，但在『逻辑严谨性这一块，它就是当之无愧的王者。”

“有了这些数据，这篇论文，稳了。”

……

隨著徐辰將一份份测试结果上传到huggingface的leaderboard，整个ai界，再次被那个神秘的“x”

给震动了。

这一次，不再是clutrr一个榜单的孤立事件。

snli、logiqa、proofwriter……

几乎所有主流的、公认最难啃的逻辑推理榜单，在一夜之间，全部被那个简单的字母“x”

给血洗了！

而且，分数不是微弱的领先，而是断层式的碾压！

在logiqa这种“智商测试”

榜单上，x的模型甚至比第二名高出了整整5个百分点！

那一连串绿色的“newsota”

標誌，就像是一排排闪烁的霓虹灯，刺痛了所有ai巨头的眼睛。

更可怕的是，这些成绩的背后，依然没有公开任何模型权重，没有一行代码，甚至连那个“x”

到底是谁，依然是个谜。

……

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第168章 重启lr研究 四（第3页）