向“古老”技术开刀!杨植麟GTC讲稿首曝:大模型Scaling要走“质”感路线

AI广播站12小时前发布 小悠
3 0 0

素有“AI界春晚”之称的英伟达GTC 2026大会正在美国圣何塞如火如荼地进行。北京时间3月18日凌晨,在这场全球顶尖的AI盛宴上,月之暗面(Kimi)创始人杨植麟完成了他的GTC首秀。当业界仍在盲目崇拜算力“大力出奇迹”时,杨植麟却拿出了一份截然不同的技术路线图:与其继续堆砌GPU,不如向那些沿用近十年的“古老”技术标准开刀。

在题为《How We Scaled Kimi K2.5》的演讲中,杨植麟首次系统性地披露了Kimi K2.5模型背后的进化逻辑。他将当前的规模法则归纳为三个维度的全新共振:Token效率、长上下文以及智能体集群(Agent Swarms) 。在他看来,单纯的资源堆砌时代已经结束,真正的规模效应必须来自计算效率、长程记忆和自动化协作的乘积 。

向“古老”技术开刀!杨植麟GTC讲稿首曝:大模型Scaling要走“质”感路线

杨植麟直言,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,如今正成为制约大模型智能上限的“隐形天花板”。为了打破这一瓶颈,Kimi团队对底层架构进行了大刀阔斧的重构。针对2014年诞生的Adam优化器,团队研发并开源了MuonClip,在解决万亿参数训练中Logits爆炸难题的同时,实现了2倍于传统AdamW的计算效率 。而对于2017年提出的Transformer架构,Kimi团队通过混合线性注意力架构Kimi Linear和Attention Residuals方案,不仅将百万级超长上下文的解码速度提升了5到6倍,更解决了深度网络中深层贡献被稀释的顽疾 。

有趣的是,杨植麟还分享了一个反常识的观察:在原生视觉-文本联合预训练中,视觉强化学习(Vision RL)竟然能显著反哺文本性能。消融实验显示,经过视觉训练后,模型在纯文本基准测试上的表现提升了约2.1%,这意味着“看懂”画面确实有助于“理解”世界 。

谈及未来,杨植麟描绘了一幅从单智能体向动态生成集群进化的蓝图。Kimi K2.5引入的Orchestrator机制,已能将复杂任务拆解给数十个子Agent并行处理。为了防止协作中出现“串行塌缩”,团队甚至设计了全新的并行强化学习奖励函数。前OpenAI联合创始人Karpathy在听完演讲后感慨:“我们对《Attention is All You Need》的理解还是不够深。”xAI创始人马斯克也评论称这一工作“令人印象深刻” 。

从重构优化器到集群式智能体,杨植麟的GTC首秀似乎在向业界宣告:大模型的Scaling游戏,规则已经变了。

向“古老”技术开刀!杨植麟GTC讲稿首曝:大模型Scaling要走“质”感路线

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...