阿里巴巴发布具身智能大模型 Qwen-Robot 系列，聚焦机器人标准化控制底座

2026年6月16日

今日，阿里巴巴正式对外发布千问具身智能大模型 Qwen-Robot 系列。

这是千问大模型家族首个面向具身智能领域的完整模型产品线，旨在通过标准化接口，解决不同形态机器人在移动、操作及环境预测上的底层通用问题。

该系列由三款核心大模型组成，分别对应机器人的执行操作、移动导航与物理世界模拟能力，既支持独立部署，也能够组合协同运转。

拆解 Qwen-Robot 三大核心模型

长期以来，具身智能领域受限于不同硬件形态的控制差异，难以形成统一的技术底座。此次发布的 Qwen-Robot 系列试图通过“视觉语言能力（VL）接入控制系统”的思路，实现跨场景和跨机型的通用化：

Qwen-RobotNav（移动模型）：作为智能体的行动模块，该模型通过可控观测编码和工具接口，将视觉语言能力接入移动控制。其核心技术突破在于统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类原本独立的任务，为机器人的移动和路线规划提供了基础技术支持。
Qwen-RobotManip（操作模型）：该模型聚焦于机器人的肢体交互。通过规范状态-动作空间以及相机坐标系下的末端执行器增量位姿，它将视觉语言能力引入具体的机械操作中。值得注意的是，该模型基于超过 38,100 小时完全由开源数据构建的语料库进行了训练，具备了一定的跨多机型泛化能力。
Qwen-RobotWorld（世界模型）：作为环境预测的“模拟器”，该模型通过自然语言动作接口，将视觉语言能力引入世界动态预测中。它允许机器人在同一个模型框架下，跨操作、驾驶和导航等不同场景，去预测符合实际物理规律的未来变化。

技术背景与行业落地探讨

就在上个月（5月20日），阿里巴巴刚刚发布了全新旗舰模型 Qwen3.7-Max。在第三方机构 Arena 的全球大模型盲测总榜中，Qwen3.7-Max 的测试表现超过了 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，在国产模型中位列第一，并逐步接近 GPT、Claude、Gemini 等国际前列模型的水平。

本次 Qwen-Robot 系列的推出，实际上是阿里将其在大语言模型上的积累，向物理世界延伸的一次技术尝试。

行业观察：

传统机器人开发往往面临“一机一物理模型”的烟囱式局限，硬件形态（如双足、四足、机械臂等）的差异使得算法难以通用。

Qwen-Robot 系列通过将视觉、语言和动作（VLA）进行标准化融合，为行业提供了一种“通用底座”的解题思路。

不过，大模型在虚拟环境中的预测，与真实物理世界的实时精密控制（如毫秒级响应、力控反馈）之间，依然存在产业公认的落地鸿沟。Qwen-Robot 实际的表现如何，仍需等待其在工业制造、商用物流及服务机器人等具体场景中的实际量产与检验。