微软研究院近日开源了全新网页智能体(Web Agent)框架 Webwright。该框架摒弃了当前主流的“截图/DOM 点击”预测模式,转而让 AI 模型直接在终端内编写 Playwright 代码及执行 Bash 命令,以更高效、更具逻辑性的方式完成复杂网页任务。
Webwright 的设计理念非常硬核——“一个终端胜过万千抽象”。其整个框架代码量仅约 1,000行,由三个核心模块构成,且无任何复杂的多智能体编排:

Runner (约150行): 负责智能体循环的核心逻辑,管理上下文与执行。
Model Endpoint (约550行): 统一的模型交互接口,支持 OpenAI、Anthropic 及 OpenRouter 等后端。
Terminal Environment (约300行): 提供一个隔离的终端执行环境,让模型在此运行 Playwright 脚本、查看日志、分析截图并执行调试。
工作流程: Runner 发送当前任务上下文给模型 → 模型生成“思考过程”与“Shell 命令” → 环境执行并返回结果(输出、截图、报错栈) → 进入下一轮循环,直至任务完成。
当前主流智能体通过不断预测“点击、滚动、输入”来操作浏览器,这种模式存在效率低、状态维持困难等瓶颈。Webwright 的代码驱动模式带来了显著优势:
逻辑复用: 每次操作生成的都是可重用的 RPA(机器人流程自动化)脚本,而非一次性点击记录。这些脚本可在 Claude Code、Codex 等其他工具中被调用。
复杂逻辑处理: 代码天然支持循环、函数与逻辑分支,对于填写表单、跨页面操作、条件跳转等长链路任务,代码的表达力远超简单的动作堆砌。
工程化纠错: 通过执行报错后的堆栈分析,模型可以自主进入“写代码-运行-报错-修复”的迭代循环,极大提升了任务成功率。
针对智能体常遇到的两大痛点,Webwright 引入了针对性方案:
门控自检机制: 防止模型“幻觉性”宣告任务完成。模型必须先生成一份“自检配置”,并在干净的环境中运行最终脚本,通过自我反思判断任务是否真正达成,才能输出完成标记。
历史压缩: 为应对长轨迹导致的上下文超载,系统每执行20步就会将历史对话压缩为一份概要摘要,确保上下文窗口始终聚焦核心进展。
在2026年5月的基准测试中,Webwright 表现优异:
Online-Mind2Web: 基于 GPT-5.4的 Webwright 在100步预算内达到了 86.67% 的准确率,在同类开源方案中位居前列。
Odysseys (长链路任务): 面对平均272词的复杂指令,Webwright + GPT-5.4取得了 60.1% 的得分,相较于基础 GPT-5.4(33.5%)实现了约 81.5% 的性能增幅,并超越了4月榜单的冠军模型 Opus4.6(44.5%)。
Webwright 的出现展示了一个重要趋势:随着模型编程能力的提升,智能体正在向“开发者范式”转型。通过将浏览器视为一个可编程的端点,而非单纯的交互界面,Webwright 成功将 AI 网页任务的执行效率与鲁棒性提升到了新的高度。
对于广大开发者而言,Webwright 不仅是一个智能体框架,更是一个能帮你自动编写、维护和打包自动化脚本的“超级员工”。目前该项目已在 GitHub 开源。
3D生成AI领域迎来重大突破,Hyper3D发布Rodin Gen-2.5模型,号称全球最强。该模型实现4秒生成百万面模型,并首次达到千万面级3D生成,细节可呈现毛孔和皮肤微结构。其核心创新是引入自适应思考努力机制,根据任务复杂度动态调整计算资源,标志着AI3D从“能看”迈向“能用”阶段。
微软Microsoft 365的AI助手Copilot Cowork被曝存在严重安全漏洞,攻击者通过“间接提示词注入”技术,在办公模板中植入恶意指令,无需用户批准即可窃取并外泄企业云盘机密文件,还能代替用户发送邮件、发布Teams消息,威胁组织数据安全。
YouTube科技频道Fully Buffered近日成功在2006年的奔腾4 641处理器上运行了Meta最新的Llama 3.2 3B大模型,将现代AI与20年前老旧硬件结合,展现了LLM的底层兼容性极限。这一硬核测试引发网友感慨,摩尔定律在AI时代的进化速度以跨时空方式实现“握手”,堪称硬件“考古”的极致配置。
OpenAI桌面代理Codex新增“锁屏运行”功能,允许Mac锁定或息屏时通过远程指令操控本地应用,打破传统需解锁且屏幕常亮的限制。核心突破在于开发者无需“看守”电脑,即可执行长时复杂工程任务,如大型代码编译或GUI自动化测试。
苹果正与谷歌合作,采用一款1.2万亿参数的定制大型语言模型,作为下一代Siri的核心升级。该模型参数规模远超当前主流移动端模型(如Gemini 3.5 Flash的3000亿参数),引发业界高度关注。

关注 “悠AI” 更多干货技巧行业动态