一台普通笔记本电脑,一个开源的小模型,正在打破人们对AI计算必须依赖数据中心和庞大算力的传统认知。
AI21实验室本周正式发布了开源小模型Jamba Reasoning 3B,这款参数仅30亿的“迷你”语言模型却拥有处理100万token的超长上下文窗口,性能媲美许多大型语言模型。
该模型采用创新的混合SSM-Transformer架构,在普通设备上就能运行,为AI技术从云端数据中心向边缘设备转移开辟了新路径。
01 突破性架构:小身材蕴含大智慧
Jamba Reasoning 3B建立在AI21自有的混合状态空间模型-变换器架构之上,这一设计巧妙结合了两种技术的优势。
状态空间模型是一种用于序列建模的深度学习算法,相比传统变换器在某些任务上更加高效。
Futurum Group分析师Brad Shimmin指出:“我一直是状态空间模型的支持者,这在行业内已有相当长的历史,但直到现在才有切实可行的实现方式”。
SSM类型模型使用绳索缩放技术来扩展模型的注意机制,从而有效优先处理任务,同时所需的计算能力比大型语言模型少。
这种混合架构使Jamba Reasoning 3B能够保持低内存使用率,即使在处理长上下文时也是如此。
它的KV缓存比“传统”Transformer架构小8倍,使其成为高级代理应用程序中的精简组件。
02 卓越性能:设备上实现高效推理
在性能表现上,Jamba Reasoning 3B给人留下深刻印象。该模型拥有25.6万token的上下文窗口长度,最多可处理100万token,与Anthropic Claude、Google Gemini和Meta Llama等大型语言模型的能力相似。
更令人惊叹的是,所有这些功能都可以在iPhone、Android设备、Mac和PC等小型设备上运行。
实际测试数据显示,在M3 MacBook Pro上,32K token的上下文长度下,Jamba Reasoning 3B可以产生每秒40个token的速度。
AI21实验室在其官方博客中强调,Jamba Reasoning 3B在效率上比DeepSeek、Google、Llama和Microsoft的竞争对手提高了2-5倍。

03 基准测试:小模型超越大对手
在严谨的基准测试中,Jamba Reasoning 3B展示了与其小巧身材不相称的强大实力。
AI21在广泛使用的基准测试系统如IFBench、MMLU-Pro和Humanity’s Last Exam上的表现,证明其超越了多个大型开源LLM。
这包括阿里巴巴的Qwen3.4B、谷歌的Gemma3.4B、Meta的Llama3.23B、IBM的Granite4.0Micro和微软的Phi-4Mini。
在IFBench测试和Humanity’s Last Exam中,它超越了所有模型,虽然在MMLU-Pro上略逊于Qwen 4而位居第二。
这些成绩的取得得益于强大的训练后流程,AI21在其中应用了对齐训练技术的组合方法——如RLVR、SFT、DPO和GRPO。
04 企业应用:本地部署保障数据安全
Jamba Reasoning 3B的企业应用前景广阔,尤其吸引那些对数据安全和隐私有高要求的企业客户。
Shimmin认为,这款迷你语言模型在企业市场中有广阔的前景,因其支持检索增强生成技术,企业能够根据自身需求进行定制,同时确保数据的安全性。
他提到,一个潜在的应用领域是客户服务中心,通过其推理能力来处理客户投诉,判断问题是否需要升级到人工或其他模型。
AI21联合首席执行官Ori Goshen向VentureBeat解释了企业应用的经济性:“我们现在在行业中看到的是经济问题,数据中心建设非常昂贵”。
“未来行业大体上将是混合模式,部分计算将在设备本地完成,其他推理将移至GPU”。
05 开源生态与未来展望
作为一款遵循Apache 2.0许可证发布的开放源代码模型,Jamba Reasoning 3B现已在Hugging Face、Kaggle和LM Studio等平台上免费提供。
这一举措有望推动更广泛的应用和创新。
AI21在官方博客中分享了他们的愿景:我们期待继续利用新型混合模型架构,发布性能越来越好的Jamba模型,使企业能够减少繁重工作负载上的内存占用,而不会降低质量。
我们相信这些进步有可能建立一个更加分散和民主化的未来,设备上的计算将提高AI在整个生态系统中部署的经济可行性。
Jamba Reasoning 3B的出现,正悄然改变人工智能领域的竞争格局。当科技巨头们仍在追逐越来越大的模型时,设备端小型模型可能正在开启一个全新赛道。
小型模型在提高响应速度的同时,也降低了使用成本和数据传输的依赖。这或许是实现AI技术真正普及的关键一步。

关注 “悠AI” 更多干货技巧行业动态
