具身龙虾,上车理想

2026-04-06 jxgzhc 0 条评论 0 阅读
📰 资讯来源
量子位

🔗 查看原文 →

📖 阅读导引

别人家的“龙虾”还在盯着屏幕玩电脑,理想已经把“龙虾”带上车了! 最近,理想发布了全新的流式视频理解与具身智能统一的Agent框架——…

别人家的“龙虾”还在盯着屏幕玩电脑,理想已经把“龙虾”带上车了!

最近,理想发布了全新的流式视频理解与具身智能统一的Agent框架——

在保持与OpenClaw框架完全兼容的基础上,StreamingClaw原生支持实时的多模态流式交互

这意味着,系统在面对视觉输入时,不再将其视为死板的离线视频文件,而是像人类感知世界一样,实时捕获流数据(Stream)并进行即时推理。

比如,这只虾不仅能在驾驶中盯着你,检测可疑动作(哈欠、玩手机)并主动预警。

与此同时,StreamingClaw还引入了自主多代理调度机制

依托主-从代理的紧密协同,它不仅能自主完成复杂的任务规划与逻辑决策,更深度集成了丰富的工具及技能库,在现实场景中实现了指令驱动的具身智能。

在StreamingClaw的加持下,机器人与终端设备实现了极低延迟的“边看、边记、边行动”:

比如,它可以实时上识别你手持的物品,帮你解题。

不难看出,在这些复杂场景中,StreamingClaw的核心硬实力在于实时推理与瞬时响应。

而支撑这只“理想龙虾”在物理世界灵活行动的,正是一整套围绕“流式架构”展开的系统设计。

不同于大模型等对延迟(相对)不敏感的场景,在具身智能、AI硬件及智能座舱等领域,系统往往需要在毫秒级完成感知—决策—执行的闭环:

然而,现有的视频Agent在处理实时感知(流式感知)时往往面临着延迟较高的问题。

之所以这样是因为,传统方法通常将视频视为完整文件处理。长视频的计算量呈指数级爆炸,难以实时响应;

同时,模型难以持续追踪长时程信息,导致决策草率、频繁遗忘,甚至直接任务失败。

针对这些问题,以往的研究尝试通过视觉压缩或Token精简来缓解负载,但同时也导致了细节丢失,无法准确定位等问题。

更致命的是,传统模型大多是被动触发:你不问,它不动,缺乏对环境风险的主动感知。

StreamingClaw通过“增量计算”改写了这一逻辑。

它不再机械地重复处理历史画面,而是将环境的细微变化视为增量信号进行推理更新。

这意味着,它不仅能“看”得更准、记”得更久,还能在思考过程中自主调用工具,实现从感知到物理干预的真正闭环。

这就是所谓的流式推理,与处理现成文件的“离线模式”不同,其要求AI必须像观看直播一样,在数据不断涌入的同时即时分析,不允许任何严重滞后。

接下来,我们具体来看StreamingClaw是怎么做到的。

总体来看,StreamingClaw是一个高度协同的多代理(Multi-agent)架构。它通过一套标准化的流水线,打破了不同硬件之间的壁垒:

首先,无论是智能眼镜、自动驾驶芯片还是具身机器人,所有多模态流式输入都会通过时间戳对齐共享流式缓存*进行标准化处理,确保AI拥有统一的“时间尺度”。

其次,核心大脑StreamingReasoning(主代理) 负责实时感知与规划;StreamingMemoryStreamingProactivity(从代理) 则分别提供长效记忆支撑与主动交互决策。

最后,代理生成的决策指令会直接驱动工具箱与技能库

从简单的视频剪切到复杂的具身动作序列,执行结果会即时反馈至代理,形成一套完整的“感知—决策—执行”闭环。

这种架构让StreamingClaw不仅能听懂指令,更能通过自主规划与工具调用,真正深入现实场景解决问题。

流式推理(StreamingReasoning)主要针对具有连续输入输出的流视频理解场景。

其核心目标是在极低延迟的约束下,实现对现实世界的实时感知、理解与推理。

本文转载自量子位,版权归原作者所有

jxgzhc

暂无个人简介

查看全部文章
上一篇 下一篇

评论

评论已关闭。