天才一秒记住【久久文学】地址:https://www.jjwxx.com
-logiqa:这是由公务员考试题目组成的逻辑推理数据集,包含演绎推理、归纳推理等多种题型,难度极高,被称为“ai的智商测试”
。
-proofwriter:这是一个要求模型不仅给出答案,还要生成完整逻辑证明过程(proofgeneration)的数据集。
这是对模型逻辑链条最严苛的考验。
徐辰继续用他的qwen-7b模型搭配slrm模块组成的新模型,进行测试。
徐辰首先看了下原始版本的qwen-7b模型在这些数据集上的表现。
以logiqa为例,原始的qwen-7b-chat在零样本(zero-shot)下的准確率大约在35%-40%之间,在少样本(few-shot)下也很难突破50%的天花板。
而像gpt-4这样的巨无霸,在这个榜单上常年霸榜,分数在75%以上。
徐辰决定先用slrm模块进行少样本学习,然后再將其与qwen-7b结合起来。
“如果我能用一个7b的小模型,加上我0.5b的slrm模块,在逻辑推理这个单项上,干翻gpt-4……”
徐辰嘴角勾起一抹玩味的笑容。
这就像是给一辆五菱宏光装上了曲率引擎,然后去纽北赛道上跟法拉利飆车。
……
第一战:snli。
原本,qwen-7b在面对一些带有否定词或双重否定的句子时,经常会晕头转向。
但现在,每当qwen-7b生成一个推理步骤,slrm就会在后台的高维几何空间里构建一个“逻辑盒子”
。
如果下一步的推理超出了这个盒子的范围,slrm会立刻施加惩罚梯度,强迫它修正逻辑。
测试开始。
进度条走动。
最终分数定格:94.5%。
“嘶……”
徐辰自己都吸了口凉气。
原始水平:~75%。
加持后:94.5%。
gpt-4水平:~92%。
“在nli这种基础任务上,直接超越了sota(当前最佳)!”
……
第二战:logiqa。
这是一个硬骨头。
题目全是类似“如果a去,b就不去;如果b不去,c必须去……”
这种绕口令。
qwen-7b原始水平大约是38%,这个水平基本就是蒙的。
gpt-4的水平大约是76%。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!