2026年6月16日
今日,阿里巴巴正式对外发布千问具身智能大模型 Qwen-Robot 系列。
这是千问大模型家族首个面向具身智能领域的完整模型产品线,旨在通过标准化接口,解决不同形态机器人在移动、操作及环境预测上的底层通用问题。
该系列由三款核心大模型组成,分别对应机器人的执行操作、移动导航与物理世界模拟能力,既支持独立部署,也能够组合协同运转。
拆解 Qwen-Robot 三大核心模型
长期以来,具身智能领域受限于不同硬件形态的控制差异,难以形成统一的技术底座。此次发布的 Qwen-Robot 系列试图通过“视觉语言能力(VL)接入控制系统”的思路,实现跨场景和跨机型的通用化:
- Qwen-RobotNav(移动模型): 作为智能体的行动模块,该模型通过可控观测编码和工具接口,将视觉语言能力接入移动控制。其核心技术突破在于统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类原本独立的任务,为机器人的移动和路线规划提供了基础技术支持。
- Qwen-RobotManip(操作模型): 该模型聚焦于机器人的肢体交互。通过规范状态-动作空间以及相机坐标系下的末端执行器增量位姿,它将视觉语言能力引入具体的机械操作中。值得注意的是,该模型基于超过 38,100 小时完全由开源数据构建的语料库进行了训练,具备了一定的跨多机型泛化能力。
- Qwen-RobotWorld(世界模型): 作为环境预测的“模拟器”,该模型通过自然语言动作接口,将视觉语言能力引入世界动态预测中。它允许机器人在同一个模型框架下,跨操作、驾驶和导航等不同场景,去预测符合实际物理规律的未来变化。
技术背景与行业落地探讨
就在上个月(5月20日),阿里巴巴刚刚发布了全新旗舰模型 Qwen3.7-Max。在第三方机构 Arena 的全球大模型盲测总榜中,Qwen3.7-Max 的测试表现超过了 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,在国产模型中位列第一,并逐步接近 GPT、Claude、Gemini 等国际前列模型的水平。

本次 Qwen-Robot 系列的推出,实际上是阿里将其在大语言模型上的积累,向物理世界延伸的一次技术尝试。
行业观察:
传统机器人开发往往面临“一机一物理模型”的烟囱式局限,硬件形态(如双足、四足、机械臂等)的差异使得算法难以通用。
Qwen-Robot 系列通过将视觉、语言和动作(VLA)进行标准化融合,为行业提供了一种“通用底座”的解题思路。
不过,大模型在虚拟环境中的预测,与真实物理世界的实时精密控制(如毫秒级响应、力控反馈)之间,依然存在产业公认的落地鸿沟。Qwen-Robot 实际的表现如何,仍需等待其在工业制造、商用物流及服务机器人等具体场景中的实际量产与检验。
