GR00T系列模型解读

张开发
2026/4/11 19:09:14 15 分钟阅读

分享文章

GR00T系列模型解读
写在前面1. 双引号括起来的来自与原文或者原文的中文翻译。2. 实验部分因为数据冗杂我会用AI解读有AI解读的部分会用类似本导言一样包括起来。3. 有任何建议欢迎在评论区指出。来自于GEAR - Generalist Embodied Agent Research是nvidia的通才具身研究的基座模型本质上所有的工作都围绕着GR00T展开为了实现大脑通用化。期待若干年之后实现具备能有清晰物理感知能力与规划操作能力的具身智能。项目主页Isaac GR00T - Generalist Robot 00 Technology | NVIDIA Developer代码仓库主页NVIDIA/Isaac-GR00T: NVIDIA Isaac GR00T N1.6 - A Foundation Model for Generalist Robots.总体演进N1是NVIDIA首代开放通用人形机器人 VLA 基座N1.5在架构、数据与训练目标上系统性增强N1.6继续朝更快收敛、更平滑动作更进N1.7推测开始强调商业部署与高级灵巧控制N2推测则标志着 GR00T 从传统VLA向World Action Model的下一阶段演进。时间名称类型定位关键变化来源2024-03Project GR00T项目 / 平台NVIDIA 的通才具身研究计划与开发平台不是单一模型版本GR00T 生态的起点下面衍生出 GR00T-Gen、GR00T-Mimic、GR00T-Control 等工作流与模型路线。NVIDIA 官方项目介绍2025-03GR00T N1初代公开基础模型第一代正式公开的人形机器人通用基础模型核心路线是双系统 VLASystem 2 做视觉语言理解System 1 用扩散 Transformer 做高频动作生成是 N1.x 系列的起点。NVIDIA Research2025FLARE训练方法 世界建模增强Robot Learning with Implicit World ModelingN1.5 相对 N1 的代表性技术增量之一。做 future latent alignment用更低计算成本把世界模型式监督接入策略学习还能从人类第一视角视频里吸收训练信号。NVIDIA Research2025DreamGen数据生成管线通过视频世界模型生成神经轨迹扩展机器人训练数据GR00T 路线里最关键的数据扩展方案之一。它把缺机器人动作数据转化为先生成视频再恢复伪动作从而用世界模型补足训练数据缺口。NVIDIA Research2025-06GR00T N1.5N1 的首次正式升级版在 N1 基础上同时升级架构、数据和训练目标相较 N1 有更强的语言跟随、泛化与 grounding 能力并加入了 FLARE 这类隐式世界建模监督和DreamGen通过视频世界模型生成神经轨迹数据。NVIDIA Research2026-01GR00T N1.6N1.x 持续迭代版更成熟的公开 VLA 版本比 N1.5 收敛更快、动作更平滑GitHub 主分支也以 N1.6 为主因此很适合写成“当前公开主线版本”。NVIDIA Research2026-03预告GR00T N1.7早期商用版本面向生产部署的 open reasoning VLA公开信息还不算完整但官方新闻稿已明确提到early access commercial licensing advanced dexterous control。可概括为比 N1.6 更偏真实部署和商业化。NVIDIA Newsroom2026-03预告GR00T N2下一代基础模型从 VLA 路线迈向World Action Model路线这是公开资料里最明显的一次路线升级。官方说它基于 DreamZero research、采用新的world action model architecture在新任务新环境中的成功率超过领先 VLA 模型 2 倍。NVIDIA Newsroom

更多文章