阿里巴巴千问大模型团队于2026年4月16日正式开源稀疏混合专家(MoE)模型 Qwen3.6-35B-A3B,标志着轻量级模型在智能体编程领域实现关键突破。
该模型总参数量为350亿,得益于MoE架构的稀疏特性,其运行时的激活参数仅为30亿。在性能表现上,Qwen3.6-35B-A3B 以极低的计算成本,在多项核心编程基准测试中超越了拥有270亿参数的稠密模型 Qwen3.5-27B,并显著领先于前代 Qwen3.5-35B-A3B,展现出可与 Gemma4-31B 等大体量模型比肩的逻辑推理与智能体协同能力。

作为一款全模态开源模型,Qwen3.6-35B-A3B 在空间智能与视觉感知方面同样表现优异,RefCOCO 评分高达92.0,部分多模态指标已比肩 Claude Sonnet4.5。目前,该模型已集成至 Qwen Studio,并通过阿里云百炼平台以 qwen3.6-flash 之名对外提供 API 服务,支持 preserve_thinking 思维链保留功能,能无缝适配 OpenClaw、Claude Code 及 Qwen Code 等主流 AI 编程助手。
随着端侧 AI 与自动化智能体需求的激增,Qwen3.6-35B-A3B 的开源不仅为开发者提供了高性能的低功耗选项,更预示着“小参数、高智能”的 MoE 模型正成为重塑编程范式与多模态交互的新基石。
美团LongCat团队发布新模型LongCat-Flash-Lite,采用“嵌入扩展”新范式,突破传统MoE架构瓶颈。研究表明,扩展嵌入层比单纯增加专家数量能获得更优的帕累托前沿,有效解决了边际收益递减和通信开销高的问题。
小米新任大模型负责人罗福莉在2025小米生态大会上,正式发布全新MoE大模型MiMo-V2-Flash。该模型采用Hybrid SWA架构,设计简洁优雅,在长上下文推理方面表现突出,标志着小米向人工通用智能(AGI)目标迈出重要一步。
xLLM社区将于12月6日举办首届线下Meetup,主题为“共建开源AI Infra生态”。活动将展示自研推理引擎xLLM-Core,其性能数据表现突出:在同级GPU上,MoE、文生图、文生视频三类任务的P99延迟均低于20ms,较vLLM平均延迟下降42%,吞吐量提升2.1倍。技术亮点包括统一计算图抽象多模态任务为“Token-in Token-out”结构,以及Mooncake KV缓存集成优化。
科大讯飞发布星火X1.5深度推理大模型,基于国产算力平台,技术突破显著,效率达国际对手93%以上。其亮点在于MoE模型全链路训练效率提升,增强了语言理解与文本处理能力,助力国内开发者提升全球竞争力。
Liquid AI推出LFM2-8B-A1B模型,采用稀疏激活MoE架构,总参数量8.3B但每token仅激活1.5B参数。该设计在保持高表示能力的同时显著降低计算负载,突破“小规模MoE低效”认知,专为资源受限的边缘设备优化,支持实时交互场景。

关注 “悠AI” 更多干货技巧行业动态