机器科学发布通用具身大模型　首秀VLOA架构

21世纪经济报道记者石恩泽

6月24日，通用具身智能企业RoboScience机器科学（以下简称“机器科学”）在深圳举办发布会，正式发布自研通用具身大模型Visics，并首次完整披露其底层技术架构VLOA（Vision-Language-Object-Action）。

与传统的VLA模型（视觉-语言-动作）相比，VLOA增加了对“物体（Object）”的理解，赋予了机器人类似人类的“物理直觉”，以更好地适应复杂的真实物理环境。

该公司同时展示了Visics在多项真实场景中的应用成果，其中包括被称为具身智能领域“登月级”挑战的家具拼装任务。

机器科学创始人兼CEO田野介绍，当前机器人操作面临泛化能力不足、精细操作困难、长程任务误差累积三大核心瓶颈。Visics大模型的突破在于通过自研VLOA架构，将物体3D点云轨迹作为中间接口，实现了“认知”与“执行”的解耦。

具体而言，Visics大模型由两大核心引擎组成：上层为“具身世界模型”，负责认知和预演物理轨迹；下层为“通用操作模型”，负责将轨迹转化为不同机器人的物理控制信号。两者以物体的连续3D点云轨迹为接口进行衔接，分别利用海量互联网视频数据和仿真数据进行预训练。

在数据体系建设方面，机器科学选择了“仿真+视频”双数据飞轮路线。机器科学联合创始人兼执行总裁汪涛透露，公司自研高精度仿真引擎RoboMirage，结合全自动视频数据标注与清洗管线，将单条数据的获取成本降至传统方案的1/20至1/200，同时以每周数十万小时的速度持续扩充数据集。

其中，具身世界模型预训练已积累数百万小时以物体为中心的操作相关视频数据；通用操作模型则依托RoboMirage积累了数百亿次高质量操作轨迹数据，2026年目标为超过1万亿次。

在应用展示环节，Visics大模型完成了家具拼装的全流程自主操作，攻克了手内操作、双臂协同、毫米级插接、精细力控等技术难点。机器人可读取说明书后自主启动拼装，并在人为拆解已组装部件后自动恢复状态并接续完成后续步骤。此外，公司还展示了跨本体灵巧手抓取、精细力控操作及动态传送带抓取等能力。

团队方面，机器科学首席科学家邵林团队连续两年获得ICRA最佳论文奖或提名，其最新研究T(R,O)Grasp可实现5FPS实时动态交互，平均抓取成功率达94.83%。CEO田野曾担任苹果AI Platform技术负责人。

在资本层面，公司已获得京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家CVC和财务投资机构的投资及产业支持，在北京、深圳、苏州、杭州设有研发和生产中心。

商业化路径上，公司计划分阶段推进：当前阶段聚焦物体维度泛化突破，在商超、电商物流等高频多品类场景完成POC验证；中短期扩展至任务与机器人维度，推动自研硬件量产；长期目标为B端与C端规模化落地。汪涛表示，公司不绑定自有硬件销售，可选择纯软件授权、控制器方案等多种交付方式。