AI闯入专业领域：GPT-5在工作质量上逼近人类专家

资深行业专家在盲测中频频选择AI生成报告，一场关于智能生产力的静默革命正在全球职场蔓延。

当地时间9月25日，OpenAI发布了名为GDPval的全新基准测试结果，显示其最新模型GPT-5在44个职业任务中，有40.6%的表现被评定为优于或与人类专家持平。这一数据标志着AI在工作质量上向人类专家看齐的重要里程碑。

同日，OpenAI的竞争对手Anthropic的Claude Opus 4.1模型更是在49%的任务中不输于行业专家。然而，OpenAI解释称，Claude得分较高的部分原因在于其生成更美观的图表，而非纯粹性能更优。

01 测试设计：衡量AI经济价值的新标准

GDPval基准测试是OpenAI为评估AI在经济价值工作上逼近人类程度的一次创新尝试。该测试基于对美国国内生产总值贡献最大的九个行业设计，包括医疗保健、金融、制造业和政府服务等关键领域。

测试涵盖44种职业，从软件工程师到护士再到记者，几乎囊括了现代经济中的核心知识工作。OpenAI邀请资深专业人士对比AI生成的报告与人类专家完成的成果，在盲测环境下选择更优的一方。

以一项具体任务为例，投资银行家被要求为“最后一公里配送行业”制作竞争格局分析报告，然后将人类专家与AI生成的报告进行对比。这种直接对比的方法确保了评估的实用性和可靠性。

AI闯入专业领域：GPT-5在工作质量上逼近人类专家

测试结果展现出AI进步的惊人速度。OpenAI评估负责人Tejal Patwardhan表示，约15个月前发布的GPT-4o模型在类似测试中胜率仅为13.7%，而GPT-5的成绩几乎提高了三倍。

这种飞跃式进步凸显了AI技术迭代的迅猛势头。Patwardhan对媒体表示，她对这一进步速度感到鼓舞，并预计这种上升趋势还将持续。

不同AI模型的表现也存在差异。Claude Opus 4.1在49%的任务中与人类专家持平或更优，略高于GPT-5的40.6%。OpenAI首席经济学家Aaron Chatterji认为，这表明专业工作者已可借助AI节省时间，专注于更有价值的任务。

尽管结果令人印象深刻，但OpenAI也坦率承认当前测试的局限性。GDPval-v0仅评估了“撰写专业报告”这一单一工作形式，而现实工作中的沟通、协作和应急处理等复杂任务尚未覆盖。

大多数职业的工作内容远不止提交研究报告，而这正是GDPval-v0测试的全部内容。OpenAI承诺未来将开发更全面的测试，涵盖更多行业和交互式工作流程。

同时，在另一项针对编程能力的SWE-Bench Pro测试中，GPT-5的表现仅为23.3%的通过率。这一反差表明，AI在不同领域的专业能力存在明显差异，其在企业级复杂任务中仍有明显短板。

GDPval测试不仅是衡量AI性能的工具，更是OpenAI开发现实世界处理能力的关键环节。作为通向AGI（通用人工智能）道路上的重要组成部分，这一测试为我们提供了观测AI进步的新窗口。

OpenAI首席经济学家Aaron Chatterji指出：“随着模型在某些任务上表现得越来越出色，人们可以越来越多地将部分工作委托给模型，自己去完成潜在价值更高的任务。”

业界认为，GDPval测试的重要性未来将持续提升。随着AI模型在经济价值工作中表现出越来越强的竞争力，人机协作的新工作模式正在各个专业领域悄然兴起。

GPT-5在短短15个月内从13.7%到40.6%的飞跃，勾勒出AI发展的惊人轨迹。当人类专家在盲测中无法分辨机器与同行的作品时，专业能力的边界正在重新定义。

尽管AI还无法完全替代人类的综合判断与创造力，但这些突破意味着专业人士可以将更多常规任务交给AI处理，自己专注于更高层次的创新与决策。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

您必须登录才能参与评论！

立即登录

暂无评论...