天才一秒记住【久久文学】地址:https://www.jjwxx.com
杨老的新闻如同一场及时雨,彻底洗刷了国內关於“造神”
的质疑。
徐辰的生活也重新归於平静,每天穿梭在图书馆和实验室之间,静静等待著那些投递出去的论文开花结果。
但他並不知道,在大洋彼岸,一颗被他半个月前隨手种下的种子,终於迎来了发芽的时刻。
……
时间来到9月9日。
这一天,,对於镁国的ai行业来说,是註定载入史册的“黑色星期二”
,儘管大眾对此一无所知。
加州山景城,谷歌总部。
深夜十一点,googlebrain的实验室里依旧灯火通明。
高级研究员大卫·陈正百无聊赖地刷著arxiv。
作为一名负责gemini模型推理优化的工程师,他最近的日子並不好过。
openai的gpt-5依然像一座大山压在头顶,而meta的llama系列又在开源社区疯狂背刺,谷歌这个曾经的ai霸主,如今却显得有些步履蹣跚。
“又是这种標题党……”
大卫看著屏幕上一篇名为《logicisalsoyouneed》的论文,撇了撇嘴。
自从《attentionisallyouneed》火了之后,这种蹭热度的標题简直泛滥成灾。
“作者……徐辰?”
大卫愣了一下。
“这名字怎么有点眼熟?好像是那个搞定哥德巴赫猜想的数学天才?”
出於好奇,也是出於对数学天才的一丝敬意,他没有直接划走,而是点开了pdf。
原本只是想隨便扫两眼,看看数学家是怎么“玩票”
ai的。
然而,十分钟后。
大卫的坐姿从葛优瘫变成了正襟危坐,眼睛死死地盯著屏幕上的公式。
“gumbel-box几何嵌入……逻辑门控单元……这思路,有点野啊。”
作为资深从业者,他一眼就看出了这个架构的精妙之处。
它没有试图去修改transformer的主干,而是像外掛一样,巧妙地利用几何约束来修正概率生成。
“这玩意儿……能跑通吗?”
职业习惯让他立刻打开了colab,按照论文里的偽代码,手搓了一个极简版的demo。
虽然没有经过大规模训练,参数也是隨机初始化的,但他只是想验证一下那个核心的“几何求交”
算子是否真的可导。
但作为大厂员工,上班时间都在忙著优化gemini的推理延迟,根本没空搞这种“私活”
。
於是,接下来的半个月里,大卫只能利用下班后的碎片时间,一点一点地復现这个模型。
……
半个月后。
看著屏幕上那条虽然抖动剧烈、但却顽强向下的loss曲线,大卫的手开始颤抖。
“臥槽……真的收敛了?!”
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!