以小博大!英伟达8亿参数“指挥家”模型登场,开启AI智能体新范式

一支由8亿参数“指挥家”领导的AI交响乐团,在博士级问题测试中击败了规模远超自己的单体巨头,计算成本却仅为后者的几分之一。

近日,英伟达与香港大学的研究团队联合发布了一项名为“Orchestrator”的AI模型及相关训练框架ToolOrchestra。

这个仅拥有80亿参数的模型,被设计为一个智能“指挥家”,专门负责协调调用各种专业工具和其他大型语言模型,以解决复杂问题。

在多项基准测试中,这个轻量级的协调者展现出了超越其体型的实力,不仅准确性更高、成本更低,还能灵活地根据用户偏好选择工具,为构建实用且可扩展的企业级AI系统开辟了新路径。


01 技术破局

当前,让大语言模型使用外部工具已成为扩展其能力的主流方法。然而,现有方案多是为一个庞大的通用模型配备基础工具,未能充分发挥“工具使用”范式的潜力。

研究团队提出了范式转变:从依赖单一巨无霸模型,转向由一个小型“指挥家”领导的复合型智能系统

这个指挥家的核心任务是分析复杂问题,将其拆解,然后调度最合适的工具或专业模型按序解决。

02 训练革新

为实现这一构想,团队开发了ToolOrchestra训练框架。该框架采用强化学习方法,教导一个小型语言模型如何成为一名高效的指挥家。

训练过程的奖励机制精心平衡了三个目标:最终答案的正确性、执行的成本与效率,以及与用户偏好的对齐。

系统会因为过度使用计算资源而受罚,也会因为选择了用户标记为“偏好”的工具而受赏,例如出于隐私考虑优先选用开源模型而非私有API。

03 实战表现

基于Qwen3-8B基础模型训练而成的Orchestrator,在多项高难度测试中接受了检验。

在涵盖博士级难题的“Humanity’s Last Exam”基准测试中,Orchestrator以显著优势超越了先前的方法,而计算成本却只是后者的一小部分。

在另一个函数调用测试中,它聪明地调整策略,仅在约40%的步骤中调用GPT-5级别的大型模型,其余步骤则使用更经济的选项,最终表现仍优于每一步都使用大模型的智能体。

04 未来意义

这项研究的价值在于为企业级AI应用提供了新思路。Orchestrator展现出了强大的泛化能力,能够适应训练中未曾见过的新模型和定价结构。

这种灵活性使其非常适用于那些同时依赖公共、私有和定制AI模型与工具的复杂商业环境。

更低的成本、更快的速度以及高度的可定制性,让这种“指挥家”模式成为构建能够规模化部署的高级AI智能体的实用方案。

正如论文展望,未来的智能系统可能由更复杂的“递归指挥家”系统构成,在持续提升智能上限的同时,进一步增强解决复杂任务的能力。

目前,该模型权重已基于非商业许可提供,而训练代码则以宽松的Apache 2.0许可证开源,为后续研究和开发奠定了基础。

关注 “悠AI” 更多干货技巧行业动态

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...