关闭广告

四足机器人首次同时「思考+走路」,北大提出链式推理MobileVLA-R1

新智元156人阅读


新智元报道

编辑:LRST

【新智元导读】在「大模型+机器人」的浪潮中,让机器人「听懂人话」已经不难,真正难的是——既要听得懂,还要走得对、走得稳。北京大学最新工作MobileVLA-R1把大模型的「链式思考(Chain-of-Thought)」真正搬进了四足机器人,在VLN导航仿真和真实Unitree Go2实验中,对标GPT-4o、NaVILA等强基线,在成功率和路径效率上实现全线提升,向「既会想、又会走」的具身智能迈出关键一步。

过去两年,RT-2、OpenVLA、NaVILA等Vision-Language-Action(VLA)模型,让机器人「能听懂复杂自然语言指令」成为现实。但一旦落地到四足机器人上,两大老问题依然突出:

  • 语义和控制断层模型在语言上「讲得通」,但落到连续控制上就开始「晃、抖、走不直」,甚至原地迷路;

  • 决策黑盒,难以纠错大模型直接给出一个动作,失败了也不知道是理解错了,还是规划错了,更谈不上线上调试与安全监管。

简而言之,现在很多VLA更像是「一次性给答案的黑盒」,而不是真正能「边想边走」的机器人大脑。

针对这些痛点,北京大学团队提出MobileVLA-R1,核心理念只有一句话:不再「看图直接给动作」,而是让机器人先生成一段可解释的链式推理(CoT),再据此输出动作。


论文链接:https://arxiv.org/pdf/2511.17889

项目代码:https://github.com/AIGeeksGroup/MobileVLA-R1

项目主页:https://aigeeksgroup.github.io/MobileVLA-R1/


MobileVLA-R1 总体架构。模型从RGB、深度和点云等多模态输入中抽取3D场景表征,与自然语言指令对齐后,通过链式推理生成高层计划与低层意图,再由Action Decoder输出连续控制命令,驱动四足机器人完成复杂路径规划与动作执行。

Vision端,MobileVLA-R1同时接入RGB图像、深度图和3D点云 / 地图等多源感知,由图像编码器、深度编码器和点云编码器提取表征,再通过统一的Projection Layer融合为时序场景表示;

Language / Reasoning端,文本编码器读取自然语言指令,如「先右转走到走廊尽头,再到壁炉前趴下」,并与多模态场景特征对齐;在此基础上,模型利用我们构建的多粒度链式推理数据集MobileVLA-CoT,把一条任务轨迹拆成

  • 「去哪、做什么」的高层目标,

  • 「从哪绕、先避什么」的中层规划,

  • 以及「当前是加速、转向还是减速等待」的低层意图;

Action端,上层MobileVLA-R1模块输出结构化的CoT,再经由Action Decoder转换为连续速度与转向指令,驱动四足机器人沿着右侧示例中那样的路径完成任务。

这样,MobileVLA-R1更像是一个有自说服能力的机器人管家:每一步该怎么走、为何这么走,都先在「内心独白」里解释清楚,再交给腿脚去执行。


MobileVLA-R1在真实室内环境中的三段示例任务。从左到右分别为:区分垃圾桶和水桶;绕开纸箱到达水桶;穿过椅子间隙到达桌子前。上方展示第三人称轨迹叠加,下方为相应视频片段。

CoT+强化学习

把「说得对」变成「走得好」

为了让「推理」和「控制」真正对齐,MobileVLA-R1采用了类似R1的两阶段训练范式:先教会「会想」,再逼它「走好」。

第一步:监督阶段(SFT)

先把「内心独白」造出来。

如下左图所示,研究人员构建了多粒度的MobileVLA-CoT 数据引擎

  • 既有面向单步控制的Step-CoT,也有覆盖整条任务轨迹的Episode-CoT / Nav-CoT

  • 输入同时包含RGB–Depth视觉、导航轨迹和指令文本,再交给Gemini-2.5生成结构化的 … … 链式推理;

  • 通过半自动校验,确保每一步「想法」都和动作、轨迹对得上。

在这一阶段,模型通过监督微调学会像人一样分步思考、拆解任务,也就是先学会「说得对」。


MobileVLA-CoT数据引擎。通过导航数据、Step/Episode级别视觉输入和结构化Prompt,借助Gemini-2.5生成多粒度链式推理标注。

第二步:强化阶段(GRPO 风格)

再把「想得清楚」变成「走得漂亮」。

研究人员在CoT之上构建了一条GRPO强化学习流水线

  • 对同一条指令,策略模型一次性生成多条 CoT + 动作方案;设计了三类奖励:

  • Movement Reward:速度、转向等连续控制是否接近专家轨迹;

  • Action Reward:离散动作选择是否正确;

  • Format Reward:是否严格遵守 / 结构,保证推理可解析;

  • 综合奖励和KL约束,只保留那些「既想得清楚、又走得好看」的策略更新模型。

相比只在文本上做奖励,MobileVLA-R1的优化目标直接对齐到真实轨迹与动作质量,真正把「大模型式慢思考」压进了四足机器人的行走行为中。


MobileVLA-R1的强化学习流水线。策略模型针对同一指令生成多条CoT+动作方案,结合Movement / Action / Format三类奖励和KL约束进行GRPO更新。

从VLN仿真到真实Go2

对标GPT-4o、NaVILA全面超越

在实验上,MobileVLA-R1覆盖了从仿真到真实机器狗的完整评估链路:

VLN-CE R2R-CE、RxR-CE等经典 Vision-and-Language Navigation 基准上,在「未见环境」下的成功率(SR)、路径效率(SPL)均显著高于现有导航模型和 VLA 基线;


在四足控制基准QUARD六大任务上,MobileVLA-R1将平均成功率提升至0.73,在「穿越狭窄区域、复杂绕障、货物卸载」等高难度任务上依然保持稳定;


在真实平台Unitree Go2上,研究人员将MobileVLA-R1部署在Jetson Orin机载计算平台上,结合L2 LiDAR+RGB-D摄像头+3D地图的多模态感知,在室外街道、室内走廊等典型场景中执行长时语言指令(如「绕开垃圾桶到门口停下」「找到黑色自行车并趴在旁边」),对比GPT-4o、NaVILA,在简单与复杂长指令下都取得更高完成率和更低导航误差。


下方两个demo分别展示了MobileVLA-R1 在室内Corridor场景和室外Outdoor场景中执行长时语言指令时的真实表现。

视频 1:室内 demo

MobileVLA-R1根据指令 「Starting from the initial position, walk forward to find a cardboard box, stop in front of it, and lie down」,在真实室内走廊中完成多模态感知(RGB/ Depth / 3D 点云)–链式推理–连续控制的完整闭环:自主前进、识别纸箱、在目标前精确停下并执行最终动作。

视频 2:室外demo

MobileVLA-R1 根据指令「Turn left and slowly go up the stairs, walk straight ahead for five seconds and stop, then turn right and descend the stairs smoothly」,在真实户外场景中完成上台阶、直行、定点停下、下台阶等连续动作,结合 RGB、深度和点云信息实现稳定的路径规划与地形适应能力。

如下图和上方视频所示,MobileVLA-R1能在真实环境中将视觉、深度和地图信息统一到同一推理链路中,一边「内心独白式」规划路径,一边稳定完成导航与避障。


MobileVLA-R1在Unitree Go2上的真实部署示意。左:机载Jetson Orin+LiDAR + RGB-D摄像头的硬件与部署流程;右:在室外街道、室内走廊等场景中执行长时语言指令时的逐步视觉 / 深度 / 地图可视化。

具身智能迈向

解释得清、走得稳、可持续优化

相比现有VLA,MobileVLA-R1的意义不只在于多了几分成功率,而是在于构建了一个更具「工程可用性」的范式:

  • 可解释:每个动作前都有清晰的CoT,方便线上排查和安全审计;

  • 可优化:可以直接在CoT + 轨迹层面设计新的奖励与人类偏好反馈;

  • 可扩展:天然可以与3D-R1、3D CoCa等3D场景理解模型、长期记忆模块结合,走向更大尺度的具身智能系统。


结语

从一条走廊,到更大的世界

当我们看着一只四足机器人,在拥挤的走廊里绕开行人、玻璃门和随机放置的障碍物,听懂「帮我把快递送到前台,再自己回充电桩」这样的指令,并稳稳完成任务时,

我们看到的不只是单个模型的性能提升,而是具身智能的一次范式升级

MobileVLA-R1告诉我们:

只要把「看懂世界」「想清路径」「走好每一步」真正连成一条可学习、可强化的链,机器人距离真正的「聪明可靠」就不再那么遥远。

参考资料:

https://arxiv.org/pdf/2511.17889

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

想要一个不热的夏天 离不开这些户外短裤

TOPMEN男装网 浏览 13421

伊朗防长:美国"以武促和"实为强制屈服 各国不会接受

极目新闻 浏览 872

2025奇瑞全球创新大会有什么重磅信息?

My车轱辘 浏览 703

安以恩:邦本宜裕是很“高级”的球员,我们能秒懂彼此的意图

懂球帝 浏览 283

立案!光环下的清越科技,藏着多少“秘密”?

财经下午茶 浏览 487

雷军“悔棋”背后,存储市场的涨价潮也是窗口期

北京商报 浏览 516

收购两公司 探路者加码芯片业务

北京商报 浏览 189

迈尼昂:有人说我经常受伤?我们是场上最容易受到冲击的球员

懂球帝 浏览 797

勇士副总经理:续约追梦后 邓利维的第二个电话就打给了萨里奇

直播吧 浏览 14141

加拿大总理:加美经济关系已结束

北京日报客户端-长安街知事 浏览 1900

黑+白,越简单越高级

猫姐品衣有道 浏览 11119

美国政府宣布美英就药品定价达成原则性协议

华尔街见闻官方 浏览 196

“受够了女装就是男装XXS版”,不想再交粉红税的她们被「时尚户外风」哄好了

Vista氢商业 浏览 779

美军高官称希望韩建核潜艇对抗中国 还引了句"蜘蛛侠"

澎湃新闻 浏览 1391

1.5亿利润与12亿负债,祥源文旅为何景区造血,债务“起飞”?

华夏时报 浏览 519

中国观众认定的烂片,北美观众当成宝,首周末破4.3亿夺全球冠军

靠谱电影君 浏览 851

全球最大稳定币遭质疑 标普将评级降至“最差一档”

财联社 浏览 271

东北大学团队突破人类移动预测难题:让AI像人类一样理解出行规律

科技行者 浏览 658

梅开二度,姆伯莫当选与布莱顿一役曼联队内最佳球员

懂球帝 浏览 591

俄军方:美国打算在乌使用化学武器并祸给俄罗斯

环球网资讯 浏览 16147

主要针对能源企业,仍然保留对话空间,俄称已对美欧制裁形成“免疫力”

环球网资讯 浏览 665
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1