OpenAI发布“永动机”编程模型：AI程序员可24小时不眠不休，成本骤降三成

AI广播站1周前发布小悠

5 0 0

按下启动键，一个能连续工作24小时的AI编程伙伴开始运转，它处理的代码量相当于人类程序员数月的工作，而成本却降低了近三分之一。

2025年11月20日，OpenAI正式发布其最新智能体编程模型GPT-5.1-Codex-Max。这款被称为“永动机”的模型突破了传统AI的上下文限制，能在单个任务中连贯处理数百万token，并可持续独立工作超过24小时。

这一创新将彻底改变软件开发行业的效率标准与工作模式。

01 技术突破

GPT-5.1-Codex-Max的核心技术突破在于其“压缩”机制。当模型接近上下文窗口限制时，它能自动压缩会话，保留关键信息，获得新的上下文窗口，并重复此过程直到任务完成。

这项技术使模型能够跨越多个上下文窗口运行，处理传统模型无法应对的复杂重构和长时间代理循环任务。

在OpenAI的内部评估中，GPT-5.1-Codex-Max针对同一任务可以连续工作24小时，不断迭代实现方案，修复测试失败，最终交付成功结果。

这项能力的突破标志着AI正从简单的代码生成器向能够持续工作、自动调试、主动规划的编程智能体演进。

02 性能表现

在性能测试方面，GPT-5.1-Codex-Max展现出了令人瞩目的成绩。在衡量解决实际软件问题的SWE-Bench Verified测试中，该模型取得了77.9%的准确率。

与竞争对手相比，这一成绩小幅领先于谷歌Gemini 3 Pro的76.2%。

在Terminal-Bench 2.0测试中，GPT-5.1-Codex-Max的准确率达到58.1%，同样领先于Gemini的54.2%。同时，该模型在LiveCodeBench Pro测试中的得分与Gemini的2439分持平。

更值得一提的是，GPT-5.1-Codex-Max在推理效率上实现了显著提升。在中等推理强度下完成任务时，模型使用的思考token比前代产品GPT-5.1-Codex减少了约30%，却仍然实现了更高的准确性。

对于不那么敏感延迟但追求质量的任务，开发者可以开启超高强度推理模式，让模型花更多时间思考，输出更优解决方案。

03 效率革命

GPT-5.1-Codex-Max的实际应用能力令人印象深刻。它能够直接打造完全运行在浏览器中的强化学习环境。

用户不仅可以观看倒立摆的动态，还能通过内置的策略梯度控制器直接训练模型，让AI在实验中不断优化策略。

该模型还开发出了太阳系重力模拟器，使用户可以直观理解轨道、速度与引力之间的关系。用户可以通过拖拽、点击与操控界面元素，观察天体的运动轨迹。

另一个案例是帮助用户以直观、动态的方式理解光在两种介质界面上的折射规律。用户可以通过滑块调节介质的折射率，实时观察折射角度的变化。

04 开发成本

从成本角度看，GPT-5.1-Codex-Max的定价策略颇具竞争力。根据最新信息，该模型的API定价与GPT-5保持一致，为输入1.25美元/百万token，输出10美元/百万token。

考虑到其效率提升，实际使用成本将显著降低。

OpenAI表示，这种token效率的提升有望转化为实际的使用成本下降。在创建类似功能的应用时，GPT-5.1-Codex-Max所使用的token数量为27k，而GPT-5.1-Codex的用量为37k，节约效果明显。

该模型现已集成到OpenAI旗下的多个Codex开发环境，涵盖官方命令行工具、内部代码审查工具及各类交互式编程环境。不过，普通用户需要通过订阅ChatGPT Plus、Pro或企业版等付费计划才能使用。

05 安全机制

随着模型能力的持续提升，安全性成为不容忽视的挑战。OpenAI称GPT-5.1-Codex-Max尚未在内部的Preparedness Framework中达到“高等级网络安全能力”，但其安全能力已经是业内迄今为止最强大的。

目前，Codex系列模型默认运行在高度隔离的安全沙箱中，文件写入仅限自身工作空间，网络访问被关闭，除非开发者主动启用。这些措施可有效减少提示词注入等安全风险。

OpenAI希望通过渐进式部署的方法从真实世界收集反馈，并及时更新模型的安全防护。模型同时会生成详细的终端日志和测试引用，方便开发者审查和验证其生成的所有代码。

OpenAI明确强调，GPT-5.1-Codex-Max的定位是编码“助手”，而非人类替代品。

OpenAI内部数据显示，95%的工程师每周都会使用Codex系列工具。自采用以来，工程师平均拉取请求提交量提升约70%。

效率提升的背后，是AI开发范式的根本转变：软件工程正从“编写代码”转向“描述需求+审核结果”。随着运行成本下降与安全防护强化，GPT-5.1-Codex-Max可能成为新一代开发者的标准配置，重塑软件行业的未来图景。

关注 “悠AI” 更多干货技巧行业动态

# AI广播站

文章版权归作者所有，未经允许请勿转载。

Steam每周上架50款AI游戏：繁荣还是泡沫？开发者担忧重蹈雅达利覆辙

小悠

全模态AI实现突破，昆仑元Blaze-Omni-14b模型重塑人机交互界限

小悠

阿尔巴尼亚任命全球首位AI“部长”，算法能否根除腐败？

小悠

通话换现金：Neon应用爆红背后的隐私危机，数万用户通话数据泄露后紧急下架

小悠

AI赛道现新局：OpenAI加速迭代，小米开源“具身”模型，国产应用“灵光”闪耀

小悠

三星入局智能眼镜，联合谷歌、时尚巨头打造Gemini驱动新物种

小悠

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...