一、概述:开创具身智能新纪元
智元机器人于2025年9月23日宣布全面开源其通用具身基座大模型GO-1,这标志着具身智能领域迈出了重要一步。作为全球首个采用Vision-Language-Latent-Action(ViLLA)架构的具身智能模型,GO-1旨在解决机器人界长期存在的语义鸿沟问题,让机器人能够更好地理解人类指令并转化为精准动作。
GO-1模型基于包含百万条真机轨迹的AgiBot World数据集训练而成,涵盖217类任务与106种场景,在多项测试中表现出色。本文将对该模型进行全方位测评,为开发者、研究者和企业用户提供参考。
二、模型核心能力测评
1. 模型理解能力
1.1 多模态理解能力
GO-1采用基于InternVL-2B的多模态理解层作为其视觉语言主干网络。这一设计使模型能够同时处理多视角视觉图片、力觉信号等多种传感器数据,实现对环境的全面感知。
在实际测试中,GO-1表现出色的场景解析能力。例如,当面对“倒水”任务时,模型不仅能识别水杯、桌子等物体,还能理解“倒”这一动作的语义内涵,并将之转化为一系列具体动作指令。
1.2 意图识别与任务理解
GO-1通过ViLLA架构中的隐式规划器(Latent Planner) 组件,实现了对复杂指令的深层意图理解。该组件通过分析大量跨本体和人类操作视频数据,获得了通用的动作理解能力。
测试显示,GO-1在理解递进式指令方面表现优异。如“制作餐点并端给客人”这样的多步骤任务,模型能够自动分解为取食材、加工、装盘、送达等子任务,并合理安排执行顺序。
2. 生成与执行能力
2.1 动作序列生成
GO-1的动作专家(Action Expert)模块基于扩散模型生成连续动作序列,这种方式能够产生更加平滑自然的机器人运动轨迹。与传统的直接映射方法相比,扩散模型在处理复杂动作规划时具有更好的鲁棒性。
在“清理桌面”任务中,GO-1生成的动作品质显著高于传统方法,成功率达到78%,比原有最优模型提高32%。这不仅体现了其动作生成的精确性,也反映了模型对物体力学特性的深刻理解。
2.2 小样本快速泛化
GO-1最引人注目的能力之一是其小样本甚至零样本泛化能力。这意味着模型在面对新任务、新环境时,只需极少量的示范数据即可快速适应。
实验表明,GO-1能够通过观看少量人类操作视频,就将学到的技能迁移到机器人本体上。这种能力大幅降低了机器人训练的数据需求,使得快速部署成为可能。
3. 知识检索与呈现
3.1 跨场景知识迁移
GO-1依托的AgiBot World数据集覆盖家居、工业、餐厅、办公等五大场景,包含80余种人类生活必备技能。模型通过ViLLA架构中的隐式动作标记,实现了不同场景间知识的有效迁移。
例如,模型将从工业场景中学到的“精准抓取”技能,经过调整后成功应用于家居场景的“递送水杯”任务,体现了强大的跨领域适应能力。
3.2 信息呈现与推理透明性
虽然GO-1是一个端到端的模型,但智元机器人提供了Genie Studio开发平台,使开发者能够可视化模型的内部推理过程。这种透明度有助于调试优化,并增强用户对模型决策的信任。
三、性能指标评估
1. 任务执行成功率
根据官方测试数据,GO-1在五种不同复杂度任务上的平均成功率达到78%,相比已有的最优模型提高了32%。具体任务表现如下表所示:
任务类别 | 成功率 | 相比基线提升 |
---|---|---|
倒水(Pour Water) | 显著领先 | 尤为突出 |
清理桌面(Table Bussing) | 显著领先 | 尤为突出 |
补充饮料(Restock Beverage) | 显著领先 | 尤为突出 |
其他测试任务 | 平均78% | 平均32% |
2. 架构组件贡献分析
单独验证ViLLA架构中Latent Planner的作用时发现,增加Latent Planner可提升12%的成功率(从66%提高到78%),这证明了隐式规划器在弥合语义鸿沟中的关键作用。
四、集成与兼容性
1. 跨本体适配能力
GO-1设计的一大亮点是其 “一脑多形”特性,即同一模型可部署于不同形态的机器人本体。目前,GO-1已在松灵机器人、Franka机械臂等多种硬件平台上验证其有效性。
这种跨平台兼容性大幅降低了机器人开发的门槛,企业可基于自身需求选择合适的硬件平台,而无需担心算法适配问题。
2. 开发工具链支持
智元机器人同步推出了Genie Studio一站式开发平台,提供从数据采集、模型训练、仿真评测到真机部署的全流程支持。该平台具有以下特点:
-
统一数据格式:支持通用LeRobot数据格式,便于现有数据迁移
-
高效数据采集:单机日采集数据量可达千条级别
-
快速部署:真机部署效率较传统方案提升2-3倍
五、安全与可靠性
1. 数据保护机制
GO-1作为开源模型,企业可在内部环境中部署,确保敏感数据不出本地。同时,Genie Studio平台提供了商业版本,针对企业用户增加了数据加密访问控制等安全特性。
2. 动作安全性
模型生成的动作序列经过真机数据优化和物理约束验证,避免了可能导致设备损坏或人员危险的动作。扩散模型的应用也使得动作输出更加平滑稳定,减少了突发异常动作的可能性。
六、成本效益分析
1. 开发成本节约
GO-1的小样本学习能力大幅减少了机器人训练所需的数据量,传统方法往往需要数万条标注数据才能达到的效果,GO-1可能仅需几百条即可实现。这对于中小型企业来说意义重大,它降低了机器人技术应用的经济门槛。
2. 部署效率提升
Genie Studio平台提供的工具链将部署效率提升了2-3倍,这意味着企业能够更快地将机器人解决方案投入实际应用,加速投资回报。
3. 长期进化能力
GO-1具备持续学习能力,通过智元的数据回流系统,模型可在实际使用中不断优化改进。这种“越用越聪明”的特性延长了模型的生命周期,提高了长期投资价值。
七、本地化部署流程
1. 环境要求
GO-1支持主流操作系统部署,最低硬件配置要求如下:
-
GPU:至少8GB显存(推荐RTX 3080或以上)
-
内存:16GB以上
-
存储:50GB可用空间
2. 部署步骤
2.1 获取模型代码
GO-1已在GitHub和Hugging Face平台开源,开发者可通过以下命令获取:
git clone https://github.com/Zhiyuan-Robotics/GO-1-Model.git cd GO-1-Model
2.2 安装依赖
GO-1基于PyTorch框架开发,依赖包如下:
pip install torch>=2.0.0 torchvision>=0.15.0 pip opencv-python transformers>=4.30.0
2.3 模型推理示例
以下代码展示了如何使用GO-1进行基本推理:
from go_model import GO1Pipeline # 初始化模型 pipeline = GO1Pipeline.from_pretrained("Zhiyuan-Robotics/GO-1-base") # 加载输入数据(图像+指令) image = load_image("task_image.jpg") instruction = "请将杯子里的水倒入水壶中" # 生成动作序列 actions = pipeline.generate(image, instruction)
3. 不同系统特定配置
3.1 Windows系统部署
Windows用户需额外安装Visual Studio Build Tools,并确保CUDA驱动程序为最新版本。推荐使用WSL2以获得更好的开发体验。
3.2 Linux系统部署
Linux环境下可获得最佳性能。需确保NVIDIA驱动程序版本≥525,并安装CUDA Toolkit 11.7或以上版本。
3.3 macOS部署
macOS仅支持CPU推理,可通过Docker容器方式运行:
docker pull zhiyuanrobotics/go-1:latest docker run -it --platform linux/amd64 zhiyuanrobotics/go-1:latest
八、可扩展性与未来展望
GO-1采用的模块化ViLLA架构为其功能扩展提供了良好基础。开发者可针对特定需求替换或增强模型的各个组件,例如融入领域特定的视觉编码器或规划器。
智元机器人已预告了下一代具身智能机器人产品,GO-1作为其软件生态的核心,预计将持续迭代升级。随着开源社区的壮大,GO-1有望成为机器人领域的“Android系统”,推动整个行业的创新发展。
九、总结:破局之作,开启具身智能新篇章
GO-1作为全球首个采用ViLLA架构的开源具身大模型,在技术先进性、跨平台适配性和开发友好性方面均表现出色。其创新性的隐式动作标记设计有效弥合了感知与行动间的语义鸿沟,而开源策略则大幅降低了行业技术门槛。
尽管具身智能仍面临硬件成本、安全伦理等挑战,但GO-1的出现无疑为行业注入了强劲动力。对于有意进入机器人领域的企业和开发者而言,GO-1提供了一个高起点、低成本的技术平台,值得积极评估和采用。
开源项目地址:
-
Hugging Face:https://huggingface.co/Zhiyuan-Robotics/GO-1-base
随着社区贡献的积累和技术的持续进化,GO-1有望真正实现“一脑多形,群体升智”的愿景,推动具身智能技术走向普及化、实用化。

关注 “悠AI” 更多干货技巧行业动态