您的位置:首页 >美饮

视焦点讯!定义新一代具身大脑:酷哇CooWAIM 2.0发布,让机器人拥有“交互式物理推演”本能

来源: 证券之星APP 时间: 2026-05-29 22:05:54

一台在早高峰十字路口作业的轮式机器人,或者一只正准备跨越不规则台阶的四足机器狗,在执行动作前,是否需要对物理世界进行预演?

过去几年,随着视觉-语言-动作大模型(VLA)的发展,机器人在理解指令与输出动作之间建立了有针对性的映射。但在复杂的城市开放场景中,例如面对前方突然逆行的非机动车,或者作业路线上滚落的杂物,传统模型往往容易遭遇决策瓶颈。


(资料图片)

究其原因,目前业内的世界动作模型(WAMs)在架构设计上存在一定的局限:它们倾向于将“预测世界如何演变”和“决定智能体如何动作”分离为两个独立的分支。这种 “先预测,后规划”(Predict-then-Plan) 的流水线模式,在很大程度上忽略了物理世界中至关重要的互惠性(Reciprocity)——环境的未来状态,实际上取决于智能体当下采取的干预动作。

世界动作模型技术范式

为解决这一行业技术痛点,酷哇科技(Coowa)技术团队正式发布全新一代交互式世界模型 CooWAIM 2.0。作为 Coowa WAM 的跨代际演进版本,CooWAIM 2.0 从底层架构上彻底突破了前代模型“预测与规划分离”的局限。 该模型基于团队最新研发的 DAWN(Denoising Actions and World iNteractive model)架构 ,论文和代码均已开源:

论文题目:The DAWN of World-Action Interactive Models

论文链接:https://arxiv.org/html/2605.11550v1

DAWN 架构的提出,为交互式物理推演带来了新的“黎明”。CooWAIM 模型首次将隐空间物理推理深度融入决策闭环,让世界预测与动作生成在推理过程中实现协同演化,为具身智能世界模型的发展提供了极具前瞻性的解法。

论文题目:The DAWN of World-Action Interactive Models

论文链接:https://arxiv.org/html/2605.11550v1

,即根据观测o和指令a直接输出未来视野H内的动作a。而引入了世界模型的 WAMs 虽然加入了未来世界状态v1:T,但通常是单向静态生成。

DAWN 架构的本质突破,在于它重新定义了世界-动作交互模型(WAIM) 的底层逻辑:未来世界和未来动作不应是单向生成的产物,而必须作为一对耦合变量(coupled variables),在推理阶段通过迭代交互来寻求自洽 。

在 DAWN 架构中,这一理念通过两个核心组件的深度耦合得以实现:基于 Transformer 的世界预测器(World Predictor,pθ) 与 以世界状态为条件的动作降噪器(World-Conditioned Action Denoiser,Gφ)。

在实际推理(Inference)时,CooWAIM 2.0 并不依赖全像素级的视频渲染,而是在语义特征空间进行推演。

首先,动作降噪器基于当前的视觉潜变量 和指令条件 ,生成一个初始的动作意图 :

随后,模型进入 轮递归交互阶段。预测器根据当前的动作意图,在隐空间内推演出短期的未来世界状态 :

紧接着,动作降噪器“接收”到这个未来状态,根据潜在的物理反馈(如碰撞风险、地形阻碍)进一步修正动作轨迹 :

通过这种基础逻辑的重构,CooWAIM 2.0 实现了从“被动预测”向“交互式博弈”的跨越。

论文的消融实验(Ablation Studies)揭示了一个极其反直觉的结论:更多的隐变量 Token 并不意味着更好的规划效果,这意味着Token空间是存在冗余的。

实验团队对比了将密集特征压缩为 16 个 Token 和 64 个 Token 的表现。结果显示,虽然 64 个 Token 将 PDMS 评分微弱提升了 0.4 分(从 82.8 提升至 83.2),但推理延迟(Latency)却暴涨了近 3 倍(从 331.3ms 飙升至 963.6ms)。

基于此,CooWAIM 2.0 最终选择将繁杂的视觉数据提炼为 16 个潜变量 Token 。它有效地过滤了光影变化等冗余噪声,精准保留了路网几何、障碍物拓扑等决定规划质量的“核心物理语义”,为高频递归推演留足了算力冗余。

WAIM交互式世界动作模型通过在隐式空间中进行短程推演,与不推演(Fast-WAM)和全程推演后再执行动作预测的两个极端相比,取得了效果和效率上的最佳平衡

数据表明,最核心的性能跃升集中在 2-3 秒的“短时潜变量推演”上。CooWAIM 2.0 无需消耗过量资源去模拟过度长远的未来,它只需要在隐空间里往后“看”一眼,确认接下来的动作不会引发连锁物理崩溃,这就足以支撑生成极高质量的长程轨迹。

标签: 财经频道 财经资讯