天才一秒记住【久久文学】地址:https://www.jjwxx.com
话音刚落,海丝的何亭波率先摘下了眼镜。
“部长,战略我认同。
但在工程落地前,我有两个技术顾虑,必须摆在桌面上。”
“讲。”
“第一,是『验证闭环的死结。”
“在工业界,正常流程是先做fpga原型验证,再做小规模mpw(多项目晶圆)流片,拿著硬体测出的真实数据去修正算法,如此叠代三轮,至少需要两年。
但您要求三个月?”
何亭波指著文件上的公式,“slrm算法目前只是数学推导。
如果没有硬体,算法跑不起来,我们不知道真实的能效比;反过来,如果不知道算法在硬体上的真实行为,我们没法確定缓存的大小和指令流水线的深度。”
“这是一个鸡生蛋、蛋生鸡的死循环。
贸然流片,几十亿打水漂事小,浪费的时间窗口事大。”
王至刚微微頷首,示意她继续。
她顿了顿,继续道:“第二,是『算子硬化与eda工具库的匹配问题。”
何亭波在白板上画了一个简图:“现在的gpu架构,大约60%的面积是通用的,比如內存控制器、总线、指令调度,这些我们可以直接復用昇腾现有的成熟设计。
这也是我们能快速突破的基础。”
“但是,”
她在核心计算区域画了个圈,“剩下的40%,也就是『计算核(core),必须彻底置换。”
“现在的gpu核心,也就是所谓的tensorcore,全是为『乘加运算设计的,里面堆满了乘法器和加法器。
但lpu的核心是几何逻辑,它需要的是大量的『比较运算、『集合运算以及特殊的『gumbel分布採样。”
“这意味著什么?”
王至刚问。
“意味著我们现有的『宏单元库失效了。”
何亭波解释道:“我们现有的eda工具,synopsys也好,华大九天也好,它们的综合引擎都是为了『算术逻辑优化的。
当我们输入一个乘法指令,工具能自动生成最优的电路结构。
但如果我们输入一个『高维几何交集指令,现有的工具根本不知道该怎么把这一堆电晶体摆放才是最优的。”
“所以,”
何亭波总结道,“这不是简单的把gpu里的乘法器拆下来换个零件。
这涉及到最底层的物理实现。
我们需要重新设计一种『专用定製单元,並让eda工具『学会怎么去调用它。”
她看向王至刚,提出了一个明確的要求:“我们需要华大九天的底层算法团队,直接进驻海丝。
我们不能只用通用的商用工具,我们需要他们开放后端综合引擎的源码,配合我们的架构师,现场手搓一套专门针对『几何算子的物理综合规则。”
“设计与工具协同进化?”
“没错。”
何亭波双手紧扣,“我们定义算子,他们修改工具。
只有当eda工具能『理解这种新的几何逻辑时,我们才能在有限的硅片面积上,塞进比英伟达多十倍的逻辑算力。”
……
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!