关于世界行动模型 Motubrain
生数科技率先定义通用世界模型路径,于2025年7月和12月发布了首个基于视频大模型的具身基础模型Vidar和统一架构的通用基座世界模型Motus。早于行业 2 个月提出并验证了 World Action Models 的核心思想,为通用世界行动模型的发展奠定了基础。
作为生数科技连接数字世界与物理世界的进化核心,全新世界行动模型 Motubrain 标志着通用世界模型从“视觉推演”向“物理决策”的跨代跃迁。Motubrain 定位于具身智能机器人的通用大脑,具备多本体适配、多任务泛化和长程任务执行能力,能够支撑机器人在家庭、工业、商业等真实场景中,更稳定地完成连续复杂任务。
Motubrain 的核心突破,在于将“看到的世界”和“要执行的动作”放入同一个模型中统一建模,让机器人不仅能理解环境,也能预测变化,并生成可执行的行动策略。

通用世界模型架构

世界行动模型架构
Motubrain 关键能力
一脑多能,应对多种任务。
Motubrain 能够在多任务场景中保持稳定表现,不依赖单一任务训练。
一脑多型,适配多种本体。
Motubrain 并不是为某一种机器人量身定制,而是面向多机器人本体设计的统一智能底座。
一脑贯通,长程任务一步完成。
Motubrain 能够直接学习完整任务链路,无需上层规划、任务拆解、快慢双系统或多模型拼接,在复杂长程任务中实现更高的成功率。
一脑预见,实现动态决策。
Motubrain 不只是执行指令,更能够理解世界并预测环境变化,并据此推演更合理的动作与运动路径。
Motubrain 同时在 RoboTwin 2.0 与 WorldArena 两项国际权威 Benchmark 上取得第一
RoboTwin 2.0 榜单
在 RoboTwin 2.0 中,Motubrain 在 Clean 和 Randomized 两个场景下分别达到 95.8 和 96.1,同样排名第一,是榜单上唯一一个在随机环境下平均分超过 95 的模型,在大多数具体任务中也都取得了 100 或接近 100 的成绩。
WorldArena 榜单
在 WorldArena 上,Motubrain 以 63.77 的总体 EWM Score 位居第一,并在 Motion Quality、Flow Score、Motion Smoothness 等多个关键运动维度上全面领跑。
世界行动模型 Motubrain:开启具身智能多任务泛化与规模化演进新范式
在模型架构上,Motubrain基于 UniDiffuser 统一建模框架,通过跨模态先验融合(Cross-modal Priors Fusion),将视觉语言知识(VLM)、视频动态知识(Video Generation Model)与动作技能知识(Action Expert)整合进同一模型,实现语言、视频与动作的统一表达与生成,构建真正意义上的统一世界行动模型。
战略合作伙伴









