UI TARS Desktop 是一款由字节跳动开源的桌面级AI智能体(AI Agent),它能让用户像吩咐助手一样,用自然语言控制电脑完成各种任务。与传统的自动化工具不同,它基于强大的视觉语言模型,能“看懂”屏幕上的内容并自主推理、执行复杂操作,是提升效率的“数字员工”。
核心亮点:在OSWorld等专业基准测试中,UI-TARS模型的性能超越了GPT-4o和Claude 3.5 Sonnet,而且是免费开源的(Apache 2.0协议),被网友称为“免费版Operator”。
1. 模型概述:一个能“看”会“想”的桌面AI
1.1 能力评估
UI TARS Desktop 是一个通过自然语言指令直接控制电脑图形界面的AI智能体。它的核心能力是将“看到”的屏幕画面和“听到”的用户指令结合起来,规划并执行一系列鼠标键盘操作。
它胜任的任务场景非常广泛:
-
日常办公自动化:整理文件、发送邮件、制作或修改PPT、填写表格。
-
网页操作:自动搜索信息、预订机票、发布社交媒体动态。
-
软件测试:模拟用户点击,自动化测试应用界面的功能和稳定性。
-
应用操作:在VS Code中安装插件、使用专业软件。
-
信息查询与整理:根据指令查找、汇总屏幕或网页上的特定信息。
1.2 技术特点介绍
-
多模态GUI理解:其背后的UI-TARS模型基于Qwen-2-VL构建,使用了包含500亿token的大规模GUI截图数据集进行训练。它能精准识别屏幕上的按钮、文本框等元素,并理解它们之间的空间关系和功能上下文。
-
动态实时交互:能够实时监控屏幕变化,界面弹出新窗口或内容更新时,它能立即调整后续操作,适应动态环境。
-
推理与规划能力:采用思维链(CoT)等推理机制,在执行每个动作前会进行“思考”,将复杂指令拆解为可行的操作步骤序列。
-
统一动作空间:设计了一套跨平台(Windows、macOS、Web、移动端)的通用操作指令(如点击、输入、滑动),使其能在不同设备间以相同逻辑工作。
-
灵活的模型部署:提供2B、7B、72B三种参数规模的模型,并区分基础版和经过优化训练的DPO版本,用户可根据自身硬件条件选择本地或云端部署。
三种模型规模对比
| 模型规模 | 特点与资源需求 | 推荐使用场景 |
|---|---|---|
| 2B模型 | 体积小,资源消耗低,可在CPU上运行。 | 轻量级任务,硬件配置有限的用户体验。 |
| 7B模型(尤指7B-DPO) | 在性能与资源消耗间取得最佳平衡,需至少6GB以上显存。 | 绝大多数用户的推荐选择,适合日常自动化任务。 |
| 72B模型 | 能力最强,在多项评测中领先,但对硬件要求极高。 | 企业级或研究场景,追求极限性能。 |
1.3 应用场景
-
个人生产力提升:自动化处理重复性电脑操作,节省时间。
-
软件测试与质量保证:替代或辅助人工进行UI回归测试。
-
无障碍支持:为视障或操作不便的用户提供自然语言交互方式。
-
企业流程自动化:处理跨系统、跨平台的数据录入与搬运工作。
-
教育与研究:作为AI智能体与人机交互研究的实践平台。
2. 安装与部署方式
UI TARS Desktop的安装分为两步:安装客户端应用程序和配置后端AI模型服务。
2.1 客户端安装(各系统通用)
-
下载客户端:访问项目的 GitHub仓库发布页(
github.com/bytedance/UI-TARS-desktop),下载对应操作系统的最新版本安装包。 -
系统权限配置(关键步骤):
-
macOS:安装后,需在
系统设置 > 隐私与安全性中,手动开启辅助功能和屏幕录制权限给 “UI TARS” 应用。这是应用能控制鼠标和看到屏幕内容的前提。 -
Windows:建议右键以管理员身份运行安装程序或应用,以确保有足够权限执行操作。
-
Linux:通常需要通过终端命令赋予相应权限。
-
2.2 后端模型服务部署(二选一)
模型服务可以理解为UI TARS的“大脑”。你可以选择更便捷的云端服务,或更私密的本地部署。
方案一:云端模型服务(推荐新手)
直接使用现成的AI模型API,无需本地显卡。
-
获取API:注册并登录 Hugging Face 或 火山引擎(VolcEngine) 等平台,找到UI-TARS模型(如
Doubao-1.5-UI-TARS)并申请API Key。 -
配置客户端:打开UI TARS Desktop客户端,在设置中:
-
VLM Provider:选择对应的服务商(如 Hugging Face 或 VolcEngine Ark)。 -
VLM Base URL:填入平台提供的API地址。 -
VLM API KEY:填入你获得的密钥。 -
VLM Model Name:填入具体的模型名称。
-
方案二:本地模型服务(追求性能与隐私)
在本地电脑上运行模型,响应更快,数据不出本地。
-
安装推理引擎:推荐使用 vLLM 来高效运行模型。打开终端(命令行)执行:
# 确保已安装Python 3.9以上 pip install vllm>=0.6.1
-
下载模型文件:从Hugging Face模型库下载你选择的UI-TARS模型文件(如
UI-TARS-7B-DPO)到本地目录。 -
启动本地API服务:在终端中运行以下命令,将
<path-to-your-model>替换为你的模型文件路径:python -m vllm.entrypoints.openai.api_server \ --model <path-to-your-model> \ --served-model-name ui-tars
服务启动后,会显示运行在
http://localhost:8000。 -
配置客户端:在客户端设置中,
VLM Provider选择Custom或OpenAI-Compatible,VLM Base URL填入http://localhost:8000/v1,模型名称留空或填ui-tars即可。
方案三:Docker一键部署(最简化)
社区提供了集成好的Docker镜像,内含轻量化的模型(如Qwen3-4B),开箱即用。
# 拉取并运行镜像(确保已安装Docker) docker run --gpus all -p 8080:8080 -d <ui-tars-desktop-image-name> # 访问 http://localhost:8080 即可使用
硬件建议:本地部署7B及以上模型需要性能较好的NVIDIA独立显卡(推荐显存≥8GB)。仅使用CPU或2B模型会显著降低响应速度。
3. 配套客户端
-
客户端名称:UI TARS Desktop
-
是否付费:完全免费并开源。其使用的UI-TARS模型同样免费,这与OpenAI需要付费订阅的Operator工具形成鲜明对比。
-
配置方式:如上文所述,主要通过图形化界面配置模型服务的连接信息(API地址和密钥)。
-
下载地址:项目官方 GitHub仓库:
github.com/bytedance/UI-TARS-desktop。
4. 案例讲解:自动整理下载文件夹
场景:每周都需要手动整理“下载”文件夹,将图片、文档、压缩包分类归档,非常耗时。现在,让UI TARS来完成。
准备工作:
-
已完成上述安装,客户端正确连接了模型服务(云端或本地)。
-
在桌面上创建好
图片、文档、其他三个目标文件夹。
执行过程:
-
打开UI TARS Desktop客户端,在输入框中用自然语言写下指令:
“请打开我电脑上的‘下载’文件夹,把里面所有的JPG和PNG图片移动到桌面上的‘图片’文件夹里,把所有的PDF和DOCX文件移动到‘文档’文件夹里,剩下的所有文件都移动到‘其他’文件夹里。完成后告诉我一共处理了多少个文件。”
-
AI解析与执行:
-
UI TARS首先会“思考”你的指令,将其分解为:
打开资源管理器 -> 导航至下载文件夹 -> 列出所有文件 -> 按扩展名筛选分类 -> 执行移动操作 -> 统计数量。 -
接着,它会自动操控鼠标和键盘,打开文件资源管理器(或Finder),进入下载目录。
-
通过实时分析屏幕图像,识别文件列表,并根据扩展名判断文件类型。
-
模拟拖放或剪切粘贴操作,将文件移动到对应的目标文件夹。
-
最后,在操作历史或聊天窗口反馈结果:“已完成,共处理了47个文件。”
-
可执行脚本概念(进阶):
UI TARS也支持通过Python SDK进行更编程化的控制,实现可重复使用的自动化脚本。
# 示例:使用UI TARS SDK进行文件整理的代码逻辑 from ui_tars_sdk import Agent # 初始化智能体,连接到本地模型服务 agent = Agent(vlm_url="http://localhost:8000/v1") # 定义复杂任务指令 task = """ 1. 在桌面创建名为“2025-02归档”的文件夹。 2. 将“下载”文件夹中所有修改日期在2025年2月1日之前的文件,移动到该归档文件夹。 3. 完成后,列出归档文件夹中的文件清单。 """ # 执行任务 result = agent.run(task, mode="desktop") # 指定桌面模式 print(result)
5. 使用成本与商业价值
使用成本
-
直接成本:零元。项目本身及其核心模型完全免费开源。
-
间接成本:
-
硬件成本:若想获得最佳体验(尤其是本地部署7B/72B模型),需要一台配备中高端NVIDIA显卡的电脑。
-
云端API成本:如果选择使用火山引擎等商业平台的云端模型服务,会产生按调用量计算的API费用,但通常有免费额度。
-
学习成本:需要花费一些时间理解安装部署流程和权限配置。
-
商业价值
-
替代传统RPA:与UiPath等传统RPA工具相比,UI TARS无需针对特定软件编写复杂脚本或依赖系统接口,通过视觉感知就能操作任何可见的UI,特别适合老旧系统或没有API的软件自动化,部署更灵活。
-
降低自动化门槛:业务人员可以直接用自然语言描述需求,无需专业开发人员介入,极大缩短了自动化流程从构思到上线的周期。
-
提升运营效率:能够7×24小时执行重复、规律的电脑操作任务,将人力从枯燥劳动中解放出来,专注于更有创造性的工作。
-
创造新的商业场景:在教育、无障碍辅助、个人效率工具乃至“数字员工”租赁等领域,都有广阔的想象空间和市场潜力。
总结来说,UI TARS Desktop是一款具有变革潜力的前沿工具。 它虽然目前在新手安装和复杂任务稳定性上存在挑战,但其免费、强大且直观的特性,使其成为探索AI驱动自动化的绝佳起点。对于开发者和技术爱好者而言,现在正是上手体验,将其融入工作流并探索其边界的最佳时机。

关注 “悠AI” 更多干货技巧行业动态