久久文学

第168章 重启lr研究 四(第2页)

天才一秒记住【久久文学】地址:https://www.jjwxx.com

-logiqa:这是由公务员考试题目组成的逻辑推理数据集,包含演绎推理、归纳推理等多种题型,难度极高,被称为“ai的智商测试”

-proofwriter:这是一个要求模型不仅给出答案,还要生成完整逻辑证明过程(proofgeneration)的数据集。

这是对模型逻辑链条最严苛的考验。

徐辰继续用他的qwen-7b模型搭配slrm模块组成的新模型,进行测试。

徐辰首先看了下原始版本的qwen-7b模型在这些数据集上的表现。

以logiqa为例,原始的qwen-7b-chat在零样本(zero-shot)下的准確率大约在35%-40%之间,在少样本(few-shot)下也很难突破50%的天花板。

而像gpt-4这样的巨无霸,在这个榜单上常年霸榜,分数在75%以上。

徐辰决定先用slrm模块进行少样本学习,然后再將其与qwen-7b结合起来。

“如果我能用一个7b的小模型,加上我0.5b的slrm模块,在逻辑推理这个单项上,干翻gpt-4……”

徐辰嘴角勾起一抹玩味的笑容。

这就像是给一辆五菱宏光装上了曲率引擎,然后去纽北赛道上跟法拉利飆车。

……

第一战:snli。

原本,qwen-7b在面对一些带有否定词或双重否定的句子时,经常会晕头转向。

但现在,每当qwen-7b生成一个推理步骤,slrm就会在后台的高维几何空间里构建一个“逻辑盒子”

如果下一步的推理超出了这个盒子的范围,slrm会立刻施加惩罚梯度,强迫它修正逻辑。

测试开始。

进度条走动。

最终分数定格:94.5%。

“嘶……”

徐辰自己都吸了口凉气。

原始水平:~75%。

加持后:94.5%。

gpt-4水平:~92%。

“在nli这种基础任务上,直接超越了sota(当前最佳)!”

……

第二战:logiqa。

这是一个硬骨头。

题目全是类似“如果a去,b就不去;如果b不去,c必须去……”

这种绕口令。

qwen-7b原始水平大约是38%,这个水平基本就是蒙的。

gpt-4的水平大约是76%。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

她除了能打一无是处四合院:这背锅侠我不当了特种岁月之弹道无声蒸汽朋克下的神秘世界凤还朝,妖孽王爷请让道民国谍影我能升级地球人在斗罗开局加入聊天群这个修士很危险修真研究生生活录青梅且把时光暖丹师剑宗五年后我携三个幼崽炸翻财阀家族深渊独行仙傲召唤神将皇帝系统我家可能有位大佬官道争锋权宠刁妃:王爷终于被翻牌了!人生交换游戏我,截教大师兄,加入聊天群神印王座商场红颜路万族王座青春派黑岩