向“古老”技术开刀！杨植麟GTC讲稿首曝：大模型Scaling要走“质”感路线

素有“AI界春晚”之称的英伟达GTC 2026大会正在美国圣何塞如火如荼地进行。北京时间3月18日凌晨，在这场全球顶尖的AI盛宴上，月之暗面（Kimi）创始人杨植麟完成了他的GTC首秀。当业界仍在盲目崇拜算力“大力出奇迹”时，杨植麟却拿出了一份截然不同的技术路线图：与其继续堆砌GPU，不如向那些沿用近十年的“古老”技术标准开刀。

在题为《How We Scaled Kimi K2.5》的演讲中，杨植麟首次系统性地披露了Kimi K2.5模型背后的进化逻辑。他将当前的规模法则归纳为三个维度的全新共振：Token效率、长上下文以及智能体集群（Agent Swarms） 。在他看来，单纯的资源堆砌时代已经结束，真正的规模效应必须来自计算效率、长程记忆和自动化协作的乘积。

杨植麟直言，行业目前普遍使用的很多技术标准，本质上是八九年前的产物，如今正成为制约大模型智能上限的“隐形天花板”。为了打破这一瓶颈，Kimi团队对底层架构进行了大刀阔斧的重构。针对2014年诞生的Adam优化器，团队研发并开源了MuonClip，在解决万亿参数训练中Logits爆炸难题的同时，实现了2倍于传统AdamW的计算效率。而对于2017年提出的Transformer架构，Kimi团队通过混合线性注意力架构Kimi Linear和Attention Residuals方案，不仅将百万级超长上下文的解码速度提升了5到6倍，更解决了深度网络中深层贡献被稀释的顽疾。

有趣的是，杨植麟还分享了一个反常识的观察：在原生视觉-文本联合预训练中，视觉强化学习（Vision RL）竟然能显著反哺文本性能。消融实验显示，经过视觉训练后，模型在纯文本基准测试上的表现提升了约2.1%，这意味着“看懂”画面确实有助于“理解”世界。

谈及未来，杨植麟描绘了一幅从单智能体向动态生成集群进化的蓝图。Kimi K2.5引入的Orchestrator机制，已能将复杂任务拆解给数十个子Agent并行处理。为了防止协作中出现“串行塌缩”，团队甚至设计了全新的并行强化学习奖励函数。前OpenAI联合创始人Karpathy在听完演讲后感慨：“我们对《Attention is All You Need》的理解还是不够深。”xAI创始人马斯克也评论称这一工作“令人印象深刻” 。

从重构优化器到集群式智能体，杨植麟的GTC首秀似乎在向业界宣告：大模型的Scaling游戏，规则已经变了。