具身龙虾，上车理想

📰 资讯来源

量子位

🔗 查看原文 →

📖 阅读导引

别人家的“龙虾”还在盯着屏幕玩电脑，理想已经把“龙虾”带上车了！最近，理想发布了全新的流式视频理解与具身智能统一的Agent框架——…

别人家的“龙虾”还在盯着屏幕玩电脑，理想已经把“龙虾”带上车了！

最近，理想发布了全新的流式视频理解与具身智能统一的Agent框架——

在保持与OpenClaw框架完全兼容的基础上，StreamingClaw原生支持实时的多模态流式交互。

这意味着，系统在面对视觉输入时，不再将其视为死板的离线视频文件，而是像人类感知世界一样，实时捕获流数据（Stream）并进行即时推理。

比如，这只虾不仅能在驾驶中盯着你，检测可疑动作（哈欠、玩手机）并主动预警。

与此同时，StreamingClaw还引入了自主多代理调度机制。

依托主-从代理的紧密协同，它不仅能自主完成复杂的任务规划与逻辑决策，更深度集成了丰富的工具及技能库，在现实场景中实现了指令驱动的具身智能。

在StreamingClaw的加持下，机器人与终端设备实现了极低延迟的“边看、边记、边行动”：

比如，它可以实时上识别你手持的物品，帮你解题。

不难看出，在这些复杂场景中，StreamingClaw的核心硬实力在于实时推理与瞬时响应。

而支撑这只“理想龙虾”在物理世界灵活行动的，正是一整套围绕“流式架构”展开的系统设计。

不同于大模型等对延迟（相对）不敏感的场景，在具身智能、AI硬件及智能座舱等领域，系统往往需要在毫秒级完成感知—决策—执行的闭环：

然而，现有的视频Agent在处理实时感知（流式感知）时往往面临着延迟较高的问题。

之所以这样是因为，传统方法通常将视频视为完整文件处理。长视频的计算量呈指数级爆炸，难以实时响应；

同时，模型难以持续追踪长时程信息，导致决策草率、频繁遗忘，甚至直接任务失败。

针对这些问题，以往的研究尝试通过视觉压缩或Token精简来缓解负载，但同时也导致了细节丢失，无法准确定位等问题。

更致命的是，传统模型大多是被动触发：你不问，它不动，缺乏对环境风险的主动感知。

StreamingClaw通过“增量计算”改写了这一逻辑。

它不再机械地重复处理历史画面，而是将环境的细微变化视为增量信号进行推理更新。

这意味着，它不仅能“看”得更准、记”得更久，还能在思考过程中自主调用工具，实现从感知到物理干预的真正闭环。

这就是所谓的流式推理，与处理现成文件的“离线模式”不同，其要求AI必须像观看直播一样，在数据不断涌入的同时即时分析，不允许任何严重滞后。

接下来，我们具体来看StreamingClaw是怎么做到的。

总体来看，StreamingClaw是一个高度协同的多代理（Multi-agent）架构。它通过一套标准化的流水线，打破了不同硬件之间的壁垒：

首先，无论是智能眼镜、自动驾驶芯片还是具身机器人，所有多模态流式输入都会通过时间戳对齐与共享流式缓存*进行标准化处理，确保AI拥有统一的“时间尺度”。

其次，核心大脑StreamingReasoning（主代理） 负责实时感知与规划；StreamingMemory与StreamingProactivity（从代理） 则分别提供长效记忆支撑与主动交互决策。

最后，代理生成的决策指令会直接驱动工具箱与技能库。

从简单的视频剪切到复杂的具身动作序列，执行结果会即时反馈至代理，形成一套完整的“感知—决策—执行”闭环。

这种架构让StreamingClaw不仅能听懂指令，更能通过自主规划与工具调用，真正深入现实场景解决问题。

流式推理（StreamingReasoning）主要针对具有连续输入输出的流视频理解场景。

其核心目标是在极低延迟的约束下，实现对现实世界的实时感知、理解与推理。

本文转载自量子位，版权归原作者所有

StreamingClaw通过“增量计算”改写了这一逻辑。

jxgzhc

评论

具身龙虾，上车理想

StreamingClaw通过“增量计算”改写了这一逻辑。

jxgzhc

太初元碁向员工发放百亿算力token并将共建高校AI科教融合学院

让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突｜CVPR’26

相关文章

阿里ATH推出AI开发工具秒悟Meoo

腾讯发布浏览器龙虾QBotClaw：内置自研Skill，支持多模型API

哈萨比斯传记里讲了好多八卦啊

Meta员工空转AI只为浪费token！烧的多挣的多，日均消耗2万亿

评论