联邦AI战术逆袭!Zoom智能调度系统刷新全球最难AI考试纪录

AI广播站2天前更新 小悠
16 0 0

全球近千位学科专家贡献的2500道高难度考题面前,Zoom的联邦AI系统以2.3个百分点的优势超越了谷歌保持的纪录,一场关于AI发展路径的辩论正在业界激烈展开。

近日,视频会议巨头Zoom在人工智能领域投下一枚震撼弹——其AI系统在被誉为“人类最后的考试”的顶级基准测试HLE中取得48.1%的成绩,超越此前由谷歌Gemini3Pro保持的45.8%纪录。

面对OpenAI、谷歌等模型巨头的长期主导地位,这家以视频会议闻名的SaaS公司选择了一条截然不同的技术路径。


01 考试突破

“人类最后的考试”HLE基准测试由Scale AI与人工智能安全中心联合推出,包含2500道由全球近千位学科专家贡献的高难度问题。

这一测试的难度极高,大多数当前模型的得分仅停留在个位数到两位数低端,被视为“为衡量AI进展而设计的最后一道封闭式学术测试”。

2026年初的这次测试结果公布后,Zoom以微弱但明确的优势超越谷歌,在HLE的官方榜单上创造了新的纪录。

这一成绩不仅代表着技术上的突破,更暗示着AI竞争格局可能发生的变化。长期以来,大模型领域的竞争一直由谷歌、OpenAI及Anthropic等实验室把持,而Zoom的突然登顶打破了这一格局。

02 联邦战术

Zoom首席技术官黄学东揭开了公司AI战略的面纱。这位前微软AI大将表示,Zoom并未通过烧钱训练自己的万亿参数大模型,而是开发了一套精密的“联邦式人工智能方法”。

这一方法的核心是Z评分器,它作为系统的核心大脑,负责实时评估来自OpenAI、谷歌和Anthropic等多个模型的响应,并针对特定任务挑选出最优解。

联邦AI战术逆袭!Zoom智能调度系统刷新全球最难AI考试纪录

探索-验证-联合策略构成了一套智能体工作流,通过让多个人工智能系统进行“辩证协作”,互相挑战并完善推理结果。

流量控制器则像一个智能调度中心,通过集成而非自研,实现了“超越任何单一模型极限”的性能表现。

03 成本革新

Zoom采用的联邦AI路径不仅关注性能,还特别注重成本效益。公司早在2023年底就宣称,其方案能够以GPT-4约6%的推理成本达到接近的输出质量。

这种成本控制能力在AI竞争日益激烈的环境下显得尤为重要。Zoom的联邦方法避免了昂贵的算力投入,同时使公司能在不同供应商之间灵活切换,彻底摆脱了供应商锁定的风险。

2024年10月,Zoom与NVIDIA合作,将Nemotron推理模型接入了联邦架构,并自研了一个490亿参数的中等规模LLM。这一规模虽远小于业界领先的万亿参数模型,但足以在企业协作场景中高效完成任务。

04 行业争议

Zoom的突破在开发者社区引发激烈争论。工程师Max Rumpf等批评者认为,Zoom只是通过API“套壳”了别人的成果,在对实际用户意义有限的基准测试中刷分,这种行为并无实质技术贡献。

这些批评声音将Zoom的方法形容为“剽窃他人劳动果实”或“借鸡生蛋”。

另一派观察家则有不同看法。开发者朱宏成认为,在AI评估中胜出必然需要“模型联邦”,这就像数据竞赛平台Kaggle的获胜者总是依赖模型集成,而非单打独斗。

这种策略在商业上被评价为极其聪明:它避免了昂贵的算力投入,同时让Zoom能在不同供应商之间灵活切换。

05 商业落地

对于Zoom的3亿用户而言,真正的考验将在即将上线的AI Companion 3.0中展开。虽然48.1%在HLE这种涉及高等数学与哲学的考试中代表了机器智能的前沿,但用户更关心它在实际应用中的表现。

当数亿人开始使用它总结会议、提取行动项时,这套“联邦大脑”能否真的比单一模型更省时、更准确,将是衡量其价值的最终标准。

黄学东将HLE测试成就视为对Zoom战略的验证。在2025年9月的Zoomtopia大会上,公司正式发布了AI Companion 3.0,主打智能体AI能力。

新系统不仅能总结会议、提取待办事项,还能主动分析日程、自动安排会议、跨平台抓取信息,并与第三方Agent协作。


就在Zoom发布HLE测试成绩的同一天,另一家初创公司Sup AI宣布以52.15%的准确率超越了所有现有系统——同样采用多模型编排方案。

这暗示着基于工具调用和模型聚合的AI性能竞争已经拉开序幕。随着OpenAI、谷歌持续投入巨额资金开发基础模型,越来越多的应用层公司开始探索通过智能调度和协同现有模型来创造价值的路径。

Zoom的联邦AI方法不仅是一项技术突破,更是企业级AI发展的一个战略样本。

联邦AI战术逆袭!Zoom智能调度系统刷新全球最难AI考试纪录

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...