按下启动键,一个能连续工作24小时的AI编程伙伴开始运转,它处理的代码量相当于人类程序员数月的工作,而成本却降低了近三分之一。
2025年11月20日,OpenAI正式发布其最新智能体编程模型GPT-5.1-Codex-Max。这款被称为“永动机”的模型突破了传统AI的上下文限制,能在单个任务中连贯处理数百万token,并可持续独立工作超过24小时。
这一创新将彻底改变软件开发行业的效率标准与工作模式。
01 技术突破
GPT-5.1-Codex-Max的核心技术突破在于其“压缩”机制。当模型接近上下文窗口限制时,它能自动压缩会话,保留关键信息,获得新的上下文窗口,并重复此过程直到任务完成。
这项技术使模型能够跨越多个上下文窗口运行,处理传统模型无法应对的复杂重构和长时间代理循环任务。
在OpenAI的内部评估中,GPT-5.1-Codex-Max针对同一任务可以连续工作24小时,不断迭代实现方案,修复测试失败,最终交付成功结果。
这项能力的突破标志着AI正从简单的代码生成器向能够持续工作、自动调试、主动规划的编程智能体演进。
02 性能表现
在性能测试方面,GPT-5.1-Codex-Max展现出了令人瞩目的成绩。在衡量解决实际软件问题的SWE-Bench Verified测试中,该模型取得了77.9%的准确率。
与竞争对手相比,这一成绩小幅领先于谷歌Gemini 3 Pro的76.2%。
在Terminal-Bench 2.0测试中,GPT-5.1-Codex-Max的准确率达到58.1%,同样领先于Gemini的54.2%。同时,该模型在LiveCodeBench Pro测试中的得分与Gemini的2439分持平。
更值得一提的是,GPT-5.1-Codex-Max在推理效率上实现了显著提升。在中等推理强度下完成任务时,模型使用的思考token比前代产品GPT-5.1-Codex减少了约30%,却仍然实现了更高的准确性。
对于不那么敏感延迟但追求质量的任务,开发者可以开启超高强度推理模式,让模型花更多时间思考,输出更优解决方案。
03 效率革命

GPT-5.1-Codex-Max的实际应用能力令人印象深刻。它能够直接打造完全运行在浏览器中的强化学习环境。
用户不仅可以观看倒立摆的动态,还能通过内置的策略梯度控制器直接训练模型,让AI在实验中不断优化策略。
该模型还开发出了太阳系重力模拟器,使用户可以直观理解轨道、速度与引力之间的关系。用户可以通过拖拽、点击与操控界面元素,观察天体的运动轨迹。
另一个案例是帮助用户以直观、动态的方式理解光在两种介质界面上的折射规律。用户可以通过滑块调节介质的折射率,实时观察折射角度的变化。
04 开发成本
从成本角度看,GPT-5.1-Codex-Max的定价策略颇具竞争力。根据最新信息,该模型的API定价与GPT-5保持一致,为输入1.25美元/百万token,输出10美元/百万token。
考虑到其效率提升,实际使用成本将显著降低。
OpenAI表示,这种token效率的提升有望转化为实际的使用成本下降。在创建类似功能的应用时,GPT-5.1-Codex-Max所使用的token数量为27k,而GPT-5.1-Codex的用量为37k,节约效果明显。
该模型现已集成到OpenAI旗下的多个Codex开发环境,涵盖官方命令行工具、内部代码审查工具及各类交互式编程环境。不过,普通用户需要通过订阅ChatGPT Plus、Pro或企业版等付费计划才能使用。
05 安全机制
随着模型能力的持续提升,安全性成为不容忽视的挑战。OpenAI称GPT-5.1-Codex-Max尚未在内部的Preparedness Framework中达到“高等级网络安全能力”,但其安全能力已经是业内迄今为止最强大的。
目前,Codex系列模型默认运行在高度隔离的安全沙箱中,文件写入仅限自身工作空间,网络访问被关闭,除非开发者主动启用。这些措施可有效减少提示词注入等安全风险。
OpenAI希望通过渐进式部署的方法从真实世界收集反馈,并及时更新模型的安全防护。模型同时会生成详细的终端日志和测试引用,方便开发者审查和验证其生成的所有代码。
OpenAI明确强调,GPT-5.1-Codex-Max的定位是编码“助手”,而非人类替代品。
OpenAI内部数据显示,95%的工程师每周都会使用Codex系列工具。自采用以来,工程师平均拉取请求提交量提升约70%。
效率提升的背后,是AI开发范式的根本转变:软件工程正从“编写代码”转向“描述需求+审核结果”。随着运行成本下降与安全防护强化,GPT-5.1-Codex-Max可能成为新一代开发者的标准配置,重塑软件行业的未来图景。

关注 “悠AI” 更多干货技巧行业动态
