阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE…

阿里国际数字商业团队近日在 Marco-MoE 系列模型中重磅推出新成员——Marco-Mini-Instruct，再次展现了“以小博大”的极致效率理念。该模型总参数量17.3B，激活参数量却仅0.86B（约占5%），推理效率极高，甚至在普通 CPU 上即可实现流畅运行。

根据官方估算，若采用8bit 量化并搭配4条 DDR42400内存，该模型推理速度可达约30token/s。这一性能让 MoE 架构真正走向“人人可用”的阶段，极大降低了本地部署门槛。

阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s！

核心创新:Upcycling 技术“点石成金”

Marco-Mini-Instruct 的最大亮点并非参数规模或速度，而是其诞生方式。该模型并非从零开始训练，而是基于 Qwen3-0.6B-Base 模型通过upcycling技术转化而来。

具体流程为:将 Dense 小模型的部分模块拆分或复制为多个专家（experts），并引入路由机制;同时结合细粒度子矩阵切分与Drop-Upcycling策略（训练过程中按一定概率随机丢弃部分专家或路由路径，加入正则化以提升鲁棒性），实现了从纯 Dense 模型到 MoE 架构的平滑升级。这一方法为行业提供了低成本、高效率的 MoE 炼制新路径。

模型 config 中 max_position_embeddings 已扩展至32K，但 SFT 阶段实际采用8192token 上下文，因此默认上下文长度更适合大多数实际应用场景。

后训练亮点:级联 On-Policy 蒸馏

后训练流程同样亮眼:先进行 SFT 预热，随后采用级联 On-Policy Distillation策略——先以 Qwen3-30B-A3B-Instruct 为教师模型进行蒸馏，再切换至更强大的 Qwen3-Next-80B-A3B-Instruct。蒸馏数据覆盖指令遵循、复杂推理、对齐安全、数学能力等多维度，确保模型在保持高效的同时，全面提升综合智能水平。

性能实测:0.86B 激活碾压4B 级 Dense 模型

最终发布的 Marco-Mini-Instruct 在大部分主流 benchmark 上，以仅0.86B 激活参数的表现，超越了 Qwen3-4B 等众多 Dense 模型，充分验证了 MoE 架构在“小而美”路线上的巨大潜力。

AIbase 认为，这一成果的最大价值在于为广大开发者打开了一扇新大门——无需从零训练海量 MoE 模型，只需选取一个合适的 Dense 小模型，严格复现论文中的 upcycling+Drop-Upcycling 流程即可。整个训练成本可控:SFT 阶段仅需64GPU×24小时，蒸馏阶段为64GPU×110小时，极大降低了中小团队尝试 MoE 的门槛。

阿里此次“魔改”再次证明:模型效率的突破不一定依赖参数堆砌，创新训练范式同样能带来质的飞跃。Marco-Mini-Instruct 的发布，无疑将加速 MoE 技术在边缘设备、个人开发者场景中的落地，值得全行业持续关注。

Claude Code推出Monitor工具，可创建后台进程实时监听外部进程输出，并以流式方式传入对话界面，实现即时响应，无需用户反复询问或等待进程结束。

DeepSeek创始人梁文锋近日宣布，新一代旗舰模型DeepSeek V4将于2026年4月下旬发布。在此之前，产品已引入分层模式：快速模式主打日常对话和即时响应，支持图片和文件文字识别；专家模式则专注于复杂逻辑和深度思考，能力更强。

近日，SBTI人格测试在社交媒体爆火。它以传统MBTI为基础，通过一系列幽默创意的自我标签吸引用户参与。测试结果会给出“尤物”“吗喽”等奇特定义，令人捧腹。其界面直接宣称“MBTI已过时，SBTI来了”，以调侃风格引发热议。

DeepSeek创始人梁文锋近日透露，新一代旗舰大模型DeepSeek V4拟定于2026年4月下旬发布，标志着国产大模型在万亿级参数赛道迎来关键突破。近期网页端已上线“快速模式”与“专家模式”，通过差异化交互完成发布前实战预演。技术层面，V4预计将实现万亿级参数规模及百万级上下文窗口。

Google为AI助手Gemini推出重磅更新，新增交互式3D模型与动态模拟功能。用户询问涉及空间结构或物理规律的问题时，Gemini可生成可旋转、缩放的三维场景，如月球公转或双摆系统，支持滑块调节变量，以直观可视化方式帮助理解复杂概念。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE…

Anthropic 重磅发布“顾问工具”！Sonnet/H…

20 小时深度心理评估揭示 Claude Mythos …

相关文章

暂无评论

阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE…

Anthropic 重磅发布“顾问工具”！Sonnet/H…

​20 小时深度心理评估揭示 Claude Mythos …

相关文章

暂无评论

20 小时深度心理评估揭示 Claude Mythos …