UI TARS Desktop：用自然语言“吩咐”电脑干活，操作评测

UI TARS Desktop 是一款由字节跳动开源的桌面级AI智能体（AI Agent），它能让用户像吩咐助手一样，用自然语言控制电脑完成各种任务。与传统的自动化工具不同，它基于强大的视觉语言模型，能“看懂”屏幕上的内容并自主推理、执行复杂操作，是提升效率的“数字员工”。

核心亮点：在OSWorld等专业基准测试中，UI-TARS模型的性能超越了GPT-4o和Claude 3.5 Sonnet，而且是免费开源的（Apache 2.0协议），被网友称为“免费版Operator”。

1. 模型概述：一个能“看”会“想”的桌面AI

1.1 能力评估

UI TARS Desktop 是一个通过自然语言指令直接控制电脑图形界面的AI智能体。它的核心能力是将“看到”的屏幕画面和“听到”的用户指令结合起来，规划并执行一系列鼠标键盘操作。

它胜任的任务场景非常广泛：

日常办公自动化：整理文件、发送邮件、制作或修改PPT、填写表格。
网页操作：自动搜索信息、预订机票、发布社交媒体动态。
软件测试：模拟用户点击，自动化测试应用界面的功能和稳定性。
应用操作：在VS Code中安装插件、使用专业软件。
信息查询与整理：根据指令查找、汇总屏幕或网页上的特定信息。

1.2 技术特点介绍

多模态GUI理解：其背后的UI-TARS模型基于Qwen-2-VL构建，使用了包含500亿token的大规模GUI截图数据集进行训练。它能精准识别屏幕上的按钮、文本框等元素，并理解它们之间的空间关系和功能上下文。
动态实时交互：能够实时监控屏幕变化，界面弹出新窗口或内容更新时，它能立即调整后续操作，适应动态环境。
推理与规划能力：采用思维链（CoT）等推理机制，在执行每个动作前会进行“思考”，将复杂指令拆解为可行的操作步骤序列。
统一动作空间：设计了一套跨平台（Windows、macOS、Web、移动端）的通用操作指令（如点击、输入、滑动），使其能在不同设备间以相同逻辑工作。
灵活的模型部署：提供2B、7B、72B三种参数规模的模型，并区分基础版和经过优化训练的DPO版本，用户可根据自身硬件条件选择本地或云端部署。

三种模型规模对比

模型规模	特点与资源需求	推荐使用场景
2B模型	体积小，资源消耗低，可在CPU上运行。	轻量级任务，硬件配置有限的用户体验。
7B模型（尤指7B-DPO）	在性能与资源消耗间取得最佳平衡，需至少6GB以上显存。	绝大多数用户的推荐选择，适合日常自动化任务。
72B模型	能力最强，在多项评测中领先，但对硬件要求极高。	企业级或研究场景，追求极限性能。

1.3 应用场景

个人生产力提升：自动化处理重复性电脑操作，节省时间。
软件测试与质量保证：替代或辅助人工进行UI回归测试。
无障碍支持：为视障或操作不便的用户提供自然语言交互方式。
企业流程自动化：处理跨系统、跨平台的数据录入与搬运工作。
教育与研究：作为AI智能体与人机交互研究的实践平台。

2. 安装与部署方式

UI TARS Desktop的安装分为两步：安装客户端应用程序和配置后端AI模型服务。

2.1 客户端安装（各系统通用）

下载客户端：访问项目的 GitHub仓库发布页（github.com/bytedance/UI-TARS-desktop），下载对应操作系统的最新版本安装包。
系统权限配置（关键步骤）：
- macOS：安装后，需在 系统设置 > 隐私与安全性 中，手动开启 辅助功能 和 屏幕录制 权限给 “UI TARS” 应用。这是应用能控制鼠标和看到屏幕内容的前提。
- Windows：建议右键以管理员身份运行安装程序或应用，以确保有足够权限执行操作。
- Linux：通常需要通过终端命令赋予相应权限。

2.2 后端模型服务部署（二选一）

模型服务可以理解为UI TARS的“大脑”。你可以选择更便捷的云端服务，或更私密的本地部署。

方案一：云端模型服务（推荐新手）

直接使用现成的AI模型API，无需本地显卡。

获取API：注册并登录 Hugging Face 或 火山引擎(VolcEngine) 等平台，找到UI-TARS模型（如 Doubao-1.5-UI-TARS）并申请API Key。
配置客户端：打开UI TARS Desktop客户端，在设置中：
- VLM Provider：选择对应的服务商（如 Hugging Face 或 VolcEngine Ark）。
- VLM Base URL：填入平台提供的API地址。
- VLM API KEY：填入你获得的密钥。
- VLM Model Name：填入具体的模型名称。

方案二：本地模型服务（追求性能与隐私）

在本地电脑上运行模型，响应更快，数据不出本地。

安装推理引擎：推荐使用 vLLM 来高效运行模型。打开终端（命令行）执行：
bash
```
# 确保已安装Python 3.9以上
pip install vllm>=0.6.1
```
下载模型文件：从Hugging Face模型库下载你选择的UI-TARS模型文件（如 UI-TARS-7B-DPO）到本地目录。
启动本地API服务：在终端中运行以下命令，将 <path-to-your-model> 替换为你的模型文件路径：
bash
```
python -m vllm.entrypoints.openai.api_server \
--model <path-to-your-model> \
--served-model-name ui-tars
```
服务启动后，会显示运行在 http://localhost:8000。
配置客户端：在客户端设置中，VLM Provider 选择 Custom 或 OpenAI-Compatible，VLM Base URL 填入 http://localhost:8000/v1，模型名称留空或填 ui-tars 即可。

方案三：Docker一键部署（最简化）

社区提供了集成好的Docker镜像，内含轻量化的模型（如Qwen3-4B），开箱即用。

# 拉取并运行镜像（确保已安装Docker）
docker run --gpus all -p 8080:8080 -d <ui-tars-desktop-image-name>
# 访问 http://localhost:8080 即可使用

硬件建议：本地部署7B及以上模型需要性能较好的NVIDIA独立显卡（推荐显存≥8GB）。仅使用CPU或2B模型会显著降低响应速度。

3. 配套客户端

客户端名称：UI TARS Desktop
是否付费：完全免费并开源。其使用的UI-TARS模型同样免费，这与OpenAI需要付费订阅的Operator工具形成鲜明对比。
配置方式：如上文所述，主要通过图形化界面配置模型服务的连接信息（API地址和密钥）。
下载地址：项目官方 GitHub仓库：github.com/bytedance/UI-TARS-desktop 。

4. 案例讲解：自动整理下载文件夹

场景：每周都需要手动整理“下载”文件夹，将图片、文档、压缩包分类归档，非常耗时。现在，让UI TARS来完成。

准备工作：

已完成上述安装，客户端正确连接了模型服务（云端或本地）。
在桌面上创建好 图片、文档、其他 三个目标文件夹。

执行过程：

打开UI TARS Desktop客户端，在输入框中用自然语言写下指令：

“请打开我电脑上的‘下载’文件夹，把里面所有的JPG和PNG图片移动到桌面上的‘图片’文件夹里，把所有的PDF和DOCX文件移动到‘文档’文件夹里，剩下的所有文件都移动到‘其他’文件夹里。完成后告诉我一共处理了多少个文件。”
AI解析与执行：
- UI TARS首先会“思考”你的指令，将其分解为：打开资源管理器 -> 导航至下载文件夹 -> 列出所有文件 -> 按扩展名筛选分类 -> 执行移动操作 -> 统计数量。
- 接着，它会自动操控鼠标和键盘，打开文件资源管理器（或Finder），进入下载目录。
- 通过实时分析屏幕图像，识别文件列表，并根据扩展名判断文件类型。
- 模拟拖放或剪切粘贴操作，将文件移动到对应的目标文件夹。
- 最后，在操作历史或聊天窗口反馈结果：“已完成，共处理了47个文件。”

可执行脚本概念（进阶）：
UI TARS也支持通过Python SDK进行更编程化的控制，实现可重复使用的自动化脚本。

# 示例：使用UI TARS SDK进行文件整理的代码逻辑
from ui_tars_sdk import Agent

# 初始化智能体，连接到本地模型服务
agent = Agent(vlm_url="http://localhost:8000/v1")

# 定义复杂任务指令
task = """
1. 在桌面创建名为“2025-02归档”的文件夹。
2. 将“下载”文件夹中所有修改日期在2025年2月1日之前的文件，移动到该归档文件夹。
3. 完成后，列出归档文件夹中的文件清单。
"""

# 执行任务
result = agent.run(task, mode="desktop") # 指定桌面模式
print(result)

5. 使用成本与商业价值

使用成本

直接成本：零元。项目本身及其核心模型完全免费开源。
间接成本：
- 硬件成本：若想获得最佳体验（尤其是本地部署7B/72B模型），需要一台配备中高端NVIDIA显卡的电脑。
- 云端API成本：如果选择使用火山引擎等商业平台的云端模型服务，会产生按调用量计算的API费用，但通常有免费额度。
- 学习成本：需要花费一些时间理解安装部署流程和权限配置。

商业价值

替代传统RPA：与UiPath等传统RPA工具相比，UI TARS无需针对特定软件编写复杂脚本或依赖系统接口，通过视觉感知就能操作任何可见的UI，特别适合老旧系统或没有API的软件自动化，部署更灵活。
降低自动化门槛：业务人员可以直接用自然语言描述需求，无需专业开发人员介入，极大缩短了自动化流程从构思到上线的周期。
提升运营效率：能够7×24小时执行重复、规律的电脑操作任务，将人力从枯燥劳动中解放出来，专注于更有创造性的工作。
创造新的商业场景：在教育、无障碍辅助、个人效率工具乃至“数字员工”租赁等领域，都有广阔的想象空间和市场潜力。

总结来说，UI TARS Desktop是一款具有变革潜力的前沿工具。 它虽然目前在新手安装和复杂任务稳定性上存在挑战，但其免费、强大且直观的特性，使其成为探索AI驱动自动化的绝佳起点。对于开发者和技术爱好者而言，现在正是上手体验，将其融入工作流并探索其边界的最佳时机。

关注 “悠AI” 更多干货技巧行业动态

MCP专区

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...