线性注意力突破，Kimi实现长文本处理2.9倍速飞跃

AI广播站3个月前更新小悠

36 0 0

面对长上下文处理这一制约大模型发展的瓶颈，月之暗面推出的Kimi Linear架构，以一场技术革命实现了效率与性能的双重突破。

在大模型应用日益广泛的今天，传统Transformer架构在处理长文本时面临着计算效率低下的瓶颈。这一问题随着智能体（Agent）等需要长时交互应用场景的普及而愈发凸显。

近日，月之暗面团队推出的Kimi Linear混合线性注意力架构，首次在公平比较中全面超越了传统全注意力机制，为行业带来了新的解决方案。

01 突破传统瓶颈

传统的Transformer架构采用Softmax注意力机制，其计算和内存开销随着序列长度呈平方级增长。这意味着上下文长度翻倍，计算量和内存就要翻四倍。

这种二次方复杂度严重制约了模型处理长文本的能力，不仅影响推理速度，更限制了模型上下文窗口的扩展。

线性注意力机制早在2020年就被提出，通过数学变换将复杂度从O(n²)降至O(n)，但早期版本在性能上始终无法与全注意力机制媲美。

月之暗面团队的研究人员发现，传统线性注意力受限于有限的状态容量，其记忆机制本质上是一个固定大小的状态，难以精确实现长序列建模和上下文检索。

02 核心创新设计

Kimi Linear的核心创新在于Kimi Delta Attention模块，这是一种全新的线性注意力机制。

KDA引入了细粒度的门控机制，为记忆的每个维度都配备了独立的遗忘旋钮，使模型能够根据输入内容，动态且精细地决定哪些信息需要保留，哪些可以遗忘。

与传统的标量遗忘门相比，这种通道级的独立遗忘率大大释放了线性注意力的潜力。

研究人员还设计了硬件高效的并行算法，采用Diagonal-Plus-Low-Rank转换矩阵的特化变体，并为此定制了分块并行算法。

这一优化使得KDA的算子效率比通用的DPLR公式高出约100%。

03 混合架构策略

Kimi Linear采用了精心设计的混合架构，整体骨干遵循Moonlight架构。

在token混合层，模型按照3:1的比例混合KDA层和全注意力层，即每3个KDA层后插入1个全注意力层。

这种设计兼顾了效率与能力——KDA层作为主力处理绝大部分序列信息，全注意力层则捕捉可能被线性结构忽略的全局依赖关系。

更为独特的是，Kimi Linear中的全注意力层不再使用位置编码。编码位置信息、建立近期偏见的责任完全由KDA层承担。

04 实验数据证明

在回文任务和多查询关联回忆等考验长上下文能力的合成任务中，KDA的表现优异。

随着序列长度从256增加到2048，KDA在所有任务中都稳定地达到了最高的准确度。

在通用知识、推理以及中文任务等多个维度的评测中，Kimi Linear几乎在所有类别中都胜出。

经过监督微调后，Kimi Linear在AIME 2025、LiveCodeBench等更困难的任务上，显著超越了基线模型。

效率提升最为明显：处理100万上下文长度时，Kimi Linear的预填充速度比传统注意力快2.9倍，解码速度更快达6倍。

同时，其KV缓存使用量减少了高达75%，大大降低了内存占用。

05 行业影响深远

Kimi Linear的突破性进展，为AI架构的发展提供了新的方向。

此前，谷歌、苹果等公司已开始探索状态空间模型等替代架构，显示出行业对超越传统Transformer的强烈需求。

月之暗面已经开源了KDA内核和vLLM实现，并发布了预训练和指令调优的模型检查点，这将促进更广泛的研究和应用。

这一技术突破为下一代智能体发展提供了高效解决方案，使模型在长时交互、复杂决策等场景中表现出更强潜力。

在技术快速迭代的人工智能领域，Kimi Linear的出现如同投入平静湖面的一颗石子，激起了层层涟漪。它证明了一点：线性注意力机制不是理论的空想，而是能够实际落地并超越传统的解决方案。

随着模型开源，月之暗面正邀请全球开发者一同验证和探索这一技术的边界。这场关于注意力机制的变革，才刚刚拉开序幕。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...