DeepSeek-V4 发布仅 10 小时,北京大学DCAI团队便火速出炉了一份全量自动化评测报告。这一速度在AI工程界引发了广泛关注,其核心推手是北大最新开源的评测框架——One-Eval。
长期以来,大模型评测被视为工程师的“噩梦”。传统流程中,从筛选基准集、编写脚本、字段适配到解析运行日志,大量精力消耗在搭建测试管道而非模型跑分本身。One-Eval的出现,标志着行业效率进入了范式级的提升阶段。

当前大模型评测正面临严峻挑战。随着模型规模与复杂度的激增,静态评测模式的弊端日益凸显。首先是操作门槛高,参数配置繁琐,程序容错率极低;其次是缺乏透明度,最终得分往往像一个“黑盒”,难以追溯模型打分的具体依据。
最令行业头疼的是“数据污染”现象。由于模型在训练阶段可能接触过测试题,导致榜单公信力下滑,高分不再等同于高能力。为了应对这些痛点,业界迫切需要更灵活、更透明的评测工具。
北大团队推出的One-Eval选择了“降维打击”的路径,将复杂的脚本操作转化为自然语言驱动的智能体模式。
用户只需通过对话输入测试意图,系统即可自动识别需求、匹配对应的基准工具(如金融、法律、医疗等专业领域),并静默完成后台配置。此外,One-Eval引入了“全局状态”总线架构,确保评测全链路可追溯。为了保证结果的严谨性,它依然保留了“人工在环”机制,在关键决策点等待人工确认,实现了全自动与专业干预的平衡。
大模型评测不仅是技术活,更是一门估值数百亿美元的生意。以行业巨头Scale AI为例,其商业逻辑已进化为三重闭环:
服务收费:为企业提供合规审计、权限管理等基础订阅服务。
定义标准:通过引入人类专家盲测等机制,重新定义行业公信力,向追求认证的大模型商收取高额费用。
数据补全:这是最高级的护城河——系统在诊断出模型短板后,顺势销售针对性的高质量微调数据集。
这种“诊断+卖药”的闭环,让评测机构成为了大模型淘金热中稳赚不赔的“裁缝”与“裁判”。北大One-Eval的开源,无疑为这个被资本把持的赛道注入了新的技术变量。
荣耀宣布智能助理YOYO接入DeepSeek-V4大模型,成为安卓首个整合该技术的智能体。升级聚焦性能、上下文理解与推理效率三大核心,显著提升复杂指令与长文本对话处理能力,标志着移动端AI体验进入更高阶段。
腾讯云在TokenHub平台推出DeepSeek-V4预览版API,支持百万级上下文长度,显著提升自然语言处理能力。定价与DeepSeek官方一致,提供高性价比服务,并在国际站新加坡节点同步上架,覆盖全球用户。
寒武纪宣布完成对DeepSeek-V4全系列模型的“Day0”适配,基于vLLM推理框架,覆盖285B参数Flash版及1.6T参数Pro版。通过自研Torch-MLU-Ops算子库优化稀疏注意力与压缩结构,确保模型发布当日即可在寒武纪硬件上稳定运行,相关代码已开源至GitHub。
寒武纪公司宣布,已成功完成对深度求索公司开源AI模型DeepSeek-V4的Day 0适配,实现发布当天即稳定运行。通过自研融合算子库Torch-MLU-Ops,对模型中的Compressor、mHC等模块进行针对性加速,大幅提升推理效率。同时采用vLLM推理框架,为用户带来更高效的人工智能体验。
DeepSeek于4月24日发布新一代大模型DeepSeek-V4,性能比肩顶级闭源模型,成为开源AI里程碑。它支持100万tokens超长上下文,适用于长文档分析、代码生成和多轮任务。同时推出轻量版Flash和标准版,分别满足快速迭代与深度应用需求。

关注 “悠AI” 更多干货技巧行业动态