爆火的DeepSeek-V4 背后：北大开源框架One-E…

DeepSeek-V4 发布仅 10 小时，北京大学DCAI团队便火速出炉了一份全量自动化评测报告。这一速度在AI工程界引发了广泛关注，其核心推手是北大最新开源的评测框架——One-Eval。

长期以来，大模型评测被视为工程师的“噩梦”。传统流程中，从筛选基准集、编写脚本、字段适配到解析运行日志，大量精力消耗在搭建测试管道而非模型跑分本身。One-Eval的出现，标志着行业效率进入了范式级的提升阶段。

爆火的DeepSeek-V4 背后：北大开源框架One-Eval如何终结AI测评“噩梦”？

当前大模型评测正面临严峻挑战。随着模型规模与复杂度的激增，静态评测模式的弊端日益凸显。首先是操作门槛高，参数配置繁琐，程序容错率极低；其次是缺乏透明度，最终得分往往像一个“黑盒”，难以追溯模型打分的具体依据。

最令行业头疼的是“数据污染”现象。由于模型在训练阶段可能接触过测试题，导致榜单公信力下滑，高分不再等同于高能力。为了应对这些痛点，业界迫切需要更灵活、更透明的评测工具。

北大团队推出的One-Eval选择了“降维打击”的路径，将复杂的脚本操作转化为自然语言驱动的智能体模式。

用户只需通过对话输入测试意图，系统即可自动识别需求、匹配对应的基准工具（如金融、法律、医疗等专业领域），并静默完成后台配置。此外，One-Eval引入了“全局状态”总线架构，确保评测全链路可追溯。为了保证结果的严谨性，它依然保留了“人工在环”机制，在关键决策点等待人工确认，实现了全自动与专业干预的平衡。

大模型评测不仅是技术活，更是一门估值数百亿美元的生意。以行业巨头Scale AI为例，其商业逻辑已进化为三重闭环：

服务收费：为企业提供合规审计、权限管理等基础订阅服务。

定义标准：通过引入人类专家盲测等机制，重新定义行业公信力，向追求认证的大模型商收取高额费用。

数据补全：这是最高级的护城河——系统在诊断出模型短板后，顺势销售针对性的高质量微调数据集。

这种“诊断+卖药”的闭环，让评测机构成为了大模型淘金热中稳赚不赔的“裁缝”与“裁判”。北大One-Eval的开源，无疑为这个被资本把持的赛道注入了新的技术变量。

荣耀宣布智能助理YOYO接入DeepSeek-V4大模型，成为安卓首个整合该技术的智能体。升级聚焦性能、上下文理解与推理效率三大核心，显著提升复杂指令与长文本对话处理能力，标志着移动端AI体验进入更高阶段。

腾讯云在TokenHub平台推出DeepSeek-V4预览版API，支持百万级上下文长度，显著提升自然语言处理能力。定价与DeepSeek官方一致，提供高性价比服务，并在国际站新加坡节点同步上架，覆盖全球用户。

寒武纪宣布完成对DeepSeek-V4全系列模型的“Day0”适配，基于vLLM推理框架，覆盖285B参数Flash版及1.6T参数Pro版。通过自研Torch-MLU-Ops算子库优化稀疏注意力与压缩结构，确保模型发布当日即可在寒武纪硬件上稳定运行，相关代码已开源至GitHub。

寒武纪公司宣布，已成功完成对深度求索公司开源AI模型DeepSeek-V4的Day 0适配，实现发布当天即稳定运行。通过自研融合算子库Torch-MLU-Ops，对模型中的Compressor、mHC等模块进行针对性加速，大幅提升推理效率。同时采用vLLM推理框架，为用户带来更高效的人工智能体验。

DeepSeek于4月24日发布新一代大模型DeepSeek-V4，性能比肩顶级闭源模型，成为开源AI里程碑。它支持100万tokens超长上下文，适用于长文档分析、代码生成和多轮任务。同时推出轻量版Flash和标准版，分别满足快速迭代与深度应用需求。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

爆火的DeepSeek-V4 背后：北大开源框架One-E…

三星新款AI智能眼镜实拍图曝光，搭载Android XR和…

小米新款人形机器人亮相投资者日:已进厂实测，复杂安装成功率…

相关文章

暂无评论