第168章重启lr研究四（第2页）

天才一秒记住【久久文学】地址：https://www.jjwxx.com

-logiqa：这是由公务员考试题目组成的逻辑推理数据集，包含演绎推理、归纳推理等多种题型，难度极高，被称为“ai的智商测试”

。

-proofwriter：这是一个要求模型不仅给出答案，还要生成完整逻辑证明过程（proofgeneration）的数据集。

这是对模型逻辑链条最严苛的考验。

徐辰继续用他的qwen-7b模型搭配slrm模块组成的新模型，进行测试。

徐辰首先看了下原始版本的qwen-7b模型在这些数据集上的表现。

以logiqa为例，原始的qwen-7b-chat在零样本（zero-shot）下的准確率大约在35%-40%之间，在少样本（few-shot）下也很难突破50%的天花板。

而像gpt-4这样的巨无霸，在这个榜单上常年霸榜，分数在75%以上。

徐辰决定先用slrm模块进行少样本学习，然后再將其与qwen-7b结合起来。

“如果我能用一个7b的小模型，加上我0.5b的slrm模块，在逻辑推理这个单项上，干翻gpt-4……”

徐辰嘴角勾起一抹玩味的笑容。

这就像是给一辆五菱宏光装上了曲率引擎，然后去纽北赛道上跟法拉利飆车。

……

第一战：snli。

原本，qwen-7b在面对一些带有否定词或双重否定的句子时，经常会晕头转向。

但现在，每当qwen-7b生成一个推理步骤，slrm就会在后台的高维几何空间里构建一个“逻辑盒子”

。

如果下一步的推理超出了这个盒子的范围，slrm会立刻施加惩罚梯度，强迫它修正逻辑。

测试开始。

进度条走动。

最终分数定格：94.5%。

“嘶……”

徐辰自己都吸了口凉气。

原始水平：~75%。

加持后：94.5%。

gpt-4水平：~92%。

“在nli这种基础任务上，直接超越了sota（当前最佳）！”

……

第二战：logiqa。

这是一个硬骨头。

题目全是类似“如果a去，b就不去；如果b不去，c必须去……”

这种绕口令。

qwen-7b原始水平大约是38%，这个水平基本就是蒙的。

gpt-4的水平大约是76%。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第168章 重启lr研究 四（第2页）