阿里黑科技炸场!0.6B 小模型“魔改”成 17B MoE…

AI广播站3天前更新 小悠
16 0 0

阿里国际数字商业团队近日在 Marco-MoE 系列模型中重磅推出新成员——Marco-Mini-Instruct,再次展现了“以小博大”的极致效率理念。该模型总参数量17.3B,激活参数量却仅0.86B(约占5%),推理效率极高,甚至在普通 CPU 上即可实现流畅运行。

根据官方估算,若采用8bit 量化并搭配4条 DDR42400内存,该模型推理速度可达约30token/s。这一性能让 MoE 架构真正走向“人人可用”的阶段,极大降低了本地部署门槛。

阿里黑科技炸场!0.6B 小模型“魔改”成 17B MoE,激活参数仅 5%,CPU 直接跑 30token/s!

核心创新:Upcycling 技术“点石成金”

Marco-Mini-Instruct 的最大亮点并非参数规模或速度,而是其诞生方式。该模型并非从零开始训练,而是基于 Qwen3-0.6B-Base 模型通过upcycling技术转化而来。

具体流程为:将 Dense 小模型的部分模块拆分或复制为多个专家(experts),并引入路由机制;同时结合细粒度子矩阵切分与Drop-Upcycling策略(训练过程中按一定概率随机丢弃部分专家或路由路径,加入正则化以提升鲁棒性),实现了从纯 Dense 模型到 MoE 架构的平滑升级。这一方法为行业提供了低成本、高效率的 MoE 炼制新路径。

模型 config 中 max_position_embeddings 已扩展至32K,但 SFT 阶段实际采用8192token 上下文,因此默认上下文长度更适合大多数实际应用场景。

后训练亮点:级联 On-Policy 蒸馏

后训练流程同样亮眼:先进行 SFT 预热,随后采用级联 On-Policy Distillation策略——先以 Qwen3-30B-A3B-Instruct 为教师模型进行蒸馏,再切换至更强大的 Qwen3-Next-80B-A3B-Instruct。蒸馏数据覆盖指令遵循、复杂推理、对齐安全、数学能力等多维度,确保模型在保持高效的同时,全面提升综合智能水平。

性能实测:0.86B 激活碾压4B 级 Dense 模型

最终发布的 Marco-Mini-Instruct 在大部分主流 benchmark 上,以仅0.86B 激活参数的表现,超越了 Qwen3-4B 等众多 Dense 模型,充分验证了 MoE 架构在“小而美”路线上的巨大潜力。

AIbase 认为,这一成果的最大价值在于为广大开发者打开了一扇新大门——无需从零训练海量 MoE 模型,只需选取一个合适的 Dense 小模型,严格复现论文中的 upcycling+Drop-Upcycling 流程即可。整个训练成本可控:SFT 阶段仅需64GPU×24小时,蒸馏阶段为64GPU×110小时,极大降低了中小团队尝试 MoE 的门槛。

阿里此次“魔改”再次证明:模型效率的突破不一定依赖参数堆砌,创新训练范式同样能带来质的飞跃。Marco-Mini-Instruct 的发布,无疑将加速 MoE 技术在边缘设备、个人开发者场景中的落地,值得全行业持续关注。

Claude Code推出Monitor工具,可创建后台进程实时监听外部进程输出,并以流式方式传入对话界面,实现即时响应,无需用户反复询问或等待进程结束。

DeepSeek创始人梁文锋近日宣布,新一代旗舰模型DeepSeek V4将于2026年4月下旬发布。在此之前,产品已引入分层模式:快速模式主打日常对话和即时响应,支持图片和文件文字识别;专家模式则专注于复杂逻辑和深度思考,能力更强。

近日,SBTI人格测试在社交媒体爆火。它以传统MBTI为基础,通过一系列幽默创意的自我标签吸引用户参与。测试结果会给出“尤物”“吗喽”等奇特定义,令人捧腹。其界面直接宣称“MBTI已过时,SBTI来了”,以调侃风格引发热议。

DeepSeek创始人梁文锋近日透露,新一代旗舰大模型DeepSeek V4拟定于2026年4月下旬发布,标志着国产大模型在万亿级参数赛道迎来关键突破。近期网页端已上线“快速模式”与“专家模式”,通过差异化交互完成发布前实战预演。技术层面,V4预计将实现万亿级参数规模及百万级上下文窗口。

Google为AI助手Gemini推出重磅更新,新增交互式3D模型与动态模拟功能。用户询问涉及空间结构或物理规律的问题时,Gemini可生成可旋转、缩放的三维场景,如月球公转或双摆系统,支持滑块调节变量,以直观可视化方式帮助理解复杂概念。

阿里黑科技炸场!0.6B 小模型“魔改”成 17B MoE…

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...