资深行业专家在盲测中频频选择AI生成报告,一场关于智能生产力的静默革命正在全球职场蔓延。
当地时间9月25日,OpenAI发布了名为GDPval的全新基准测试结果,显示其最新模型GPT-5在44个职业任务中,有40.6%的表现被评定为优于或与人类专家持平。这一数据标志着AI在工作质量上向人类专家看齐的重要里程碑。
同日,OpenAI的竞争对手Anthropic的Claude Opus 4.1模型更是在49%的任务中不输于行业专家。然而,OpenAI解释称,Claude得分较高的部分原因在于其生成更美观的图表,而非纯粹性能更优。
01 测试设计:衡量AI经济价值的新标准
GDPval基准测试是OpenAI为评估AI在经济价值工作上逼近人类程度的一次创新尝试。该测试基于对美国国内生产总值贡献最大的九个行业设计,包括医疗保健、金融、制造业和政府服务等关键领域。
测试涵盖44种职业,从软件工程师到护士再到记者,几乎囊括了现代经济中的核心知识工作。OpenAI邀请资深专业人士对比AI生成的报告与人类专家完成的成果,在盲测环境下选择更优的一方。
以一项具体任务为例,投资银行家被要求为“最后一公里配送行业”制作竞争格局分析报告,然后将人类专家与AI生成的报告进行对比。这种直接对比的方法确保了评估的实用性和可靠性。

02 结果分析:AI进步速度令人惊讶
测试结果展现出AI进步的惊人速度。OpenAI评估负责人Tejal Patwardhan表示,约15个月前发布的GPT-4o模型在类似测试中胜率仅为13.7%,而GPT-5的成绩几乎提高了三倍。
这种飞跃式进步凸显了AI技术迭代的迅猛势头。Patwardhan对媒体表示,她对这一进步速度感到鼓舞,并预计这种上升趋势还将持续。
不同AI模型的表现也存在差异。Claude Opus 4.1在49%的任务中与人类专家持平或更优,略高于GPT-5的40.6%。OpenAI首席经济学家Aaron Chatterji认为,这表明专业工作者已可借助AI节省时间,专注于更有价值的任务。
03 现实局限:AI尚未完全准备取代人类
尽管结果令人印象深刻,但OpenAI也坦率承认当前测试的局限性。GDPval-v0仅评估了“撰写专业报告”这一单一工作形式,而现实工作中的沟通、协作和应急处理等复杂任务尚未覆盖。
大多数职业的工作内容远不止提交研究报告,而这正是GDPval-v0测试的全部内容。OpenAI承诺未来将开发更全面的测试,涵盖更多行业和交互式工作流程。
同时,在另一项针对编程能力的SWE-Bench Pro测试中,GPT-5的表现仅为23.3%的通过率。这一反差表明,AI在不同领域的专业能力存在明显差异,其在企业级复杂任务中仍有明显短板。
04 未来展望:AGI道路上的关键一步
GDPval测试不仅是衡量AI性能的工具,更是OpenAI开发现实世界处理能力的关键环节。作为通向AGI(通用人工智能)道路上的重要组成部分,这一测试为我们提供了观测AI进步的新窗口。
OpenAI首席经济学家Aaron Chatterji指出:“随着模型在某些任务上表现得越来越出色,人们可以越来越多地将部分工作委托给模型,自己去完成潜在价值更高的任务。”
业界认为,GDPval测试的重要性未来将持续提升。随着AI模型在经济价值工作中表现出越来越强的竞争力,人机协作的新工作模式正在各个专业领域悄然兴起。
GPT-5在短短15个月内从13.7%到40.6%的飞跃,勾勒出AI发展的惊人轨迹。当人类专家在盲测中无法分辨机器与同行的作品时,专业能力的边界正在重新定义。
尽管AI还无法完全替代人类的综合判断与创造力,但这些突破意味着专业人士可以将更多常规任务交给AI处理,自己专注于更高层次的创新与决策。

关注 “悠AI” 更多干货技巧行业动态
