专栏观察

对话原力灵机周而进:原生大模型,让具身智能“更简单”

文 | 智能相对论

作者 | 叶远风

在人工智能浪潮席卷全球的当下,尤其是世界模型掀起新一轮热潮后,适配“具身智能”的大模型正广受关注。然而,在众声喧哗与概念纷繁之中,什么才是通向通用机器人的切实路径?是强化学习还是模仿学习?是VLA端到端还是模块化分步式?是仿真捷径还是真机苦功?

近期,我们对话了原力灵机联合创始人周而进。在他看来,行业的许多争论可能偏离了本质。原力灵机选择了一条看似“笨拙”的道路:摒弃直接套用现有大模型,从零开始构建原生机器人模型DM0;不追求参数的盲目膨胀,相信“小”模型也能在真实世界中完成复杂任务;明确提出“通用”与“泛化”正交的研发框架,并以“世界模型”与“视觉-语言-动作模型”的紧密结合,作为实现这一目标的技术支柱。

周而进断言,他们正在做的,实际上是“更简单的事”。

这份“简单”,并非指技术难度低,而是指抛开捷径与妥协,回归问题本质——让机器人像人一样,通过分层智能系统理解世界、规划任务、并灵巧地操纵物理实体。这要求模型必须真正理解“干预世界”与“预测世界”的区别,必须能适应不同的机器身体与传感器组合,也必须能在不完美的现实场景中,从“有人兜底”逐步走向完全自主。

在本次对话过程中,作为AI圈内的技术精英,曾经的“天才少年”周而进系统阐述了原力灵机对“通用具身智能”的完整定义与四大泛化维度,犀利点评了行业在技术路径、数据策略上的常见误区,并首次详细解读了其“世界模型+VLA”的技术架构为何是必然选择。他也坦诚分享了公司从工业物流场景切入的商业化逻辑,以及面对数据稀缺、客户信任等挑战时的“兜底”哲学。

我们得以窥见一家具身智能创业公司的技术蓝图,也对当前具身智能发展范式有一定反思。以下是对话实录。

智能相对论:怎么看待当下具身智能的发展?

周而进:具身智能这一波浪潮来自于大模型开启了一个非常强大的关于泛化的能力,关于万物互联的可能性。

在算法上面,我们认为构建一个分层的智能系统十分必要。这是因为,和人一样,具身智能对于世界的理解、动作的操纵反馈,一定需要一个分层系统来实现,才能有很普遍的实用价值。

这个体系有三层:

首先要有一个大脑对系统进行规划;

然后有一个“小脑”做出各种low level的指令,比如拿、放、推、拉;

最后一层,我们定义为system0,意思是从抓、拿、放这些low level指令到真的去驱动电机,把关节稳定地转起来,拿稳、放平,动作流畅光滑,执行效率高,然后还要结合各种传感器的信号,包括力的反馈、触觉的反馈等。

有了这样一个三层的分层系统,才能最终解决那些足够复杂的问题。

之所以有这样的认识,是因为我们从一开始就把自己的目标定位为“通用具身智能”,想要造出来的机器人不是为了专门擦桌子,或者说专门去做一个具体的动作(那样的话也不用那么复杂的系统)。未来的机器人,应该是每天就跟保洁阿姨一样,巡视一下工区哪有垃圾桶满了就给换一个,哪里的桌子脏了就能擦干净,饮水机没水了就补充一下。

这些能力需要的不是简单的规则,而是一个对于场景环境的长程理解到精细操作的完美执行,哪一环都少不了,我们的大模型算法必须构建起分层智能系统。

智能相对论:“通用具身智能”对模型层面有什么要求?

周而进:第一,模型对硬件要有一定的通用性。

在真实的业务落地情况下,也结合我们的业务实践,硬件需要用一些不同的构型来完成不同的任务,比如物流行业,重载业务的机器人需要很“粗”的手臂,灵活度可以不要求那么高。但一些非常精细的操作,比如说拆袋子、拆箱子、封胶带,就需要有一个桌面双臂灵巧手的形态,身体不需要动。

一个足够通用的机器人模型,对于这些构型都应该能够适配。

第二,模型要有对多传感器的理解。

人类感官的本质也是多种传感信号的共同输入,最常见的是视觉,然后听觉、触觉等等。多传感器相互之间是替补关系,比如,我闭着眼睛去摸,一样能够抓起一个东西,这个时候其实就是传感器之间的相互补位。

对于人类来说,我把你左手绑住,不应该影响你的右手,或者说,我遮住你的眼睛,你的触觉应该依然是work的。

模型一定要去适应就是不同的机型、不同的传感器,只有这样,才能够真正理解每一个模块、每一个传感器实际起到的作用是什么、相互之间怎么来互补,要能够把这些东西放在一个大脑里面,统一指挥、统一调配起来。

具身智能模型的目标,应是这样:今天我给机器插上一个触觉模组,干活就能干得更准确,拔掉依然能干活,只不过准确率可能会下降一点;一个双臂机器人把某一条臂卸掉,还是能继续干活。

智能相对论:“通用具身智能”价值展现在哪里?

周而进:“通用”产生的价值,或者说,一个非常重要的判断标准是泛化性,不能一种情况行另一种情况就不行。

第一是被操作对象的泛化。

比如说都是整理杂物,模型如果只能在已经采集的数据上奏效,其实是没有意义的。切苹果,只有我家的苹果能切,他家的苹果就切不了,那就不行。

被操作对象在语义层面需要保持一致,但在个体层面可以不同。

第二是场景的泛化。

都是切水果,机器人在我家、在你家应该都能切。

对象、场景的泛化,这是最基本的两个标准,也是今年我们核心努力的一个方向。

第三是任务的泛化。

机器人不能永远都只能做我教他的那几个动作。

一方面,基于很多原子动作可以去做排列组合,机器人应该能学会做成更复杂的动作,比如说收纳桌子,可以拆解为拾起、折叠、擦拭这么几个原子动作的组合。

这就需要更好的一个具身大脑把一个更长程的任务拆解成更多的原子动作,然后有一个全局的推理系统能够把整个系统跑起来,最后完成一些更长的任务,越做越长。

另一方面,很多原子动作本身也应该有创新,比如说今天会打蝴蝶结,明天可以学会外科医生打的一种外科结,那是一种完全不一样的绕线方法。

对这种,就不能简单地把原有的一些动作去排列组合做更长的任务,它是一种全新的概念,需要通过更广泛的数据学习不停地补充模型能力,对基本动作进行扩充。

第四是机型的泛化。

这其实是更难的要求,在数据量不足的情况下,能做到前边几个泛化,又能够在几个我们常用的机型上都做好,是一个非常有挑战性的目标。

我们在训模型的时候,会有意识去训练一个通用模型,让它接受各种各样机器人数据,为未来去做机型泛化来去做准备。

未来我们的机器人,完全有可能是一种可组装式的,比如说在某些业务场景加装不同的配合机械臂,支持客户通过少量的数据就能够适应新的抓握要求。

智能相对论:“通用”和“泛化”具体要怎么推进和实现?

周而进:泛化的4个维度是机器人逐步都要去解决的,在模型或算法的角度,通用加泛化是两个正交的概念。

在具体的手段方面,我们主要围绕VLA(Vision-Language-Action,视觉语言动作模型)+世界模型两个具体的研发模块。

在这个基本的架构之上,数据策略、强化学习方法、模仿学习方法,都围绕它们进行,用来实现通用+泛化的目标。

智能相对论:李飞飞等团队在做的世界模型,在具身智能领域的应用,听起来和通用+泛化的构想有点类似,那VLA+世界模型和单纯的世界模型有什么区别?

周而进:世界模型和VLA是正交的。

VLA是说接下来该做什么动作,世界模型是说当我做了这个动作之后,这个世界发生了什么样的变化。

我们认为,单独说谁是VLA派或者世界模型派这个本身是没有意义的,技术上面要追求的不是站队问题,而是到底怎么样更好的全面建模机器人操作,有一个模块来预测状态发生什么,有一个模块来预测接下来动作该做啥。

如果只有世界模型,那么机器人知道这个世界接下来该怎么演变,但不知道该做什么动作去影响这个世界去获得想要的结果。比如说这儿着火了,世界模型能告诉你接下来5秒钟火是怎么燃烧,但他不会去做动作,因为怎么去灭火这件事情,世界模型告诉不了。

或者说,世界模型推动的机器人最终是落不了地的,它不知道怎么去介入世界、干预世界,解决不了问题。

智能相对论:如果只关注世界模型,不关注VLA,对具身智能会是什么结果?

周而进:现在大家对世界模型的定义确实是多种多样的,如果说世界模型它本身没有排斥说去做动作,那就相当于已经把世界模型和VLA放在了一起,概念融合了。

概念的事,永远可以把其他概念吸收进来,扩充“世界模型”内涵,把所有事都干了。但是,它的本质,必须是我们所说的世界模型+VLA,做两类预测,一是我要干预世界我该做什么,二是干预也好不干预也好,世界本身会怎么演变。

有些团队在训练世界模型时,更多的是通过视频这个方向去做模型训练,不会有太多触觉、身体动作的数据加入进来(至少不以其为主),这会导致具身智能在仿真时表现很好,一旦上了真机就很拉跨。这样的世界模型,就算想要扩充到VLA,也没办法真正做到VLA所达到的精度。

在狭义上,只有世界模型的具身智能,和Gemini没有本质区别。

今天很多大模型公司把动态模型拓展一下就说自己是具身大脑,做的评测也都是开环评测,比如给一张图询问下一步动作,判断这个动作是不是正确。但具身智能真正要解的是闭环控制,做了第一步决策之后,“世界”变了,接下来还能不能根据这个变化再来做出第二步、第三步正确的反应,这个过程是没办法背答案的。

狭义的世界模型,生成漂亮的视频是没问题的,但用来操作机器人,可能没什么太大意义。

智能相对论:现在具身智能的数据本来就很缺,用世界模型+VLA的方式来实现通用+泛化,对数据的需求似乎会是几何式增长,怎么应对这个挑战?

周而进:数据问题要回到每一份数据的价值怎么呈现。不是说谁数据量大就厉害,也不是盲目说哪个数据好哪个坏,关键是怎么真正用好每一种数据。

仿真数据量大管饱,但做了那么多年,自驾直到今天所有公司都还在采真机数据。但是,只要与这个世界交互是在改变世界,这类仿真数据的可用性就仍然很强。

比如说导航,非常低速简单的室内场景,大规模扫描各种屋子来建模真实场景有很重要的意义,因为这样的场景就是不要撞到各种物品就好。

但例如叠衣服或者装水,随着动作的不同变化会很大,液体一晃动,整个瓶子的质心就是在变化,如果没办法准确建模,仿真数据就很难足够有价值。反之,如果已经能准确建模,那说明对世界的理解已经很准确,就不再需要“仿真”了,这是矛盾的。

因此,我们在室内低速导航、刚性物体抓取等方面,会充分利用仿真数据。但在需要精细化操作的方面,主要投入力度进行真实数据采集,解决最后一公里问题。

这方面,一方面要解决数据泛化性问题,什么情形都要有,另一方面,要解决最后的高精度操作问题。目前在大力进行human data采集,通过各种采集设备,在各种场景把人的动作信号捕捉下来,进行较大规模的真实遥采。

只不过,就像自动驾驶没有人天天骑着自行车去采集数据,真实数据不代表真机数据。现在的采集过程只不过是机器人布置出去的量太少的情况下,不得已而为之的替代手段,以后一定要过渡到机器人的大批量真机采集上来。

还有一点要强调的是,数据收集的维度,从传感器而言已经有视觉、触觉、听觉、力控、加速度等维度,维度越多,与人的感受、体验越接近,越能强化机器人的通用+泛化能力,只不过目前还是视觉内容占主体,未来相信其他维度的数据会慢慢变得丰富,甚至能够有嗅觉传感数据的加入,相信机器人的通用性会进一步强化。

智能相对论:大模型APP现在不只是看训练数据,也看真实使用的反哺,越用越好用,机器人是不是也类似?

周而进:是的,机器人能够在真实世界快速被部署出去,这个游戏才会进入到下一个阶段,再循环,然后就开始做真实世界强化学习。

自动驾驶已经过了这个阶段,成熟的飞轮滚起来了。机器人首先还需要在第一阶段加码,先用起来,不要犹豫,要先进到场景里、滚动起来。

智能相对论:原力灵机的理想是做全场景,但现在商业化先在工业物流领域,是不是就是基于这样的背景?

周而进:一开始要有个大目标,它决定了技术架构和判断。在这个大目标之下,需要的是尽量先跑起来。

饭得一口一口吃,泛化有多个维度,在工业物流场景,除了先落地跑起来,其实能做的事也有挺多的。

场景限制但还是能改变操作对象,比如在物流皮带上做分拣、做打包,面临各种各样的商品,有刚性有柔性,天天在变,第一步就对机器人有最基础的能力验证。

然后在场景上,一些客户他有自己的物流仓库、门店、商超,场景会有变化、环境更复杂,如果最开始没有想着泛化,算法可能就无法适应。

到今天为止,具身智能整个硬件,从传感器到构型没有定式,关节夹爪选哪个、传感器怎么安置,摄像头视角的变化该怎么来定,如果不做本体,就永远摸不清楚这里面到底要怎么弄,所以一定在最开始要软硬一体化设计,让机器人真的进到产线里面。

智能相对论:但是先让机器人在工业物流场景跑起来,不够成熟的情况下,怎么解决客户认可的问题?

周而进:这其中最重要的概念是“兜底”问题。

比如说做皮带上的分拣,拿起一件衣服分拣掉地上怎么办?放错箱子了怎么办?夹爪卡住了怎么办?中间突然断电了怎么办?机器人要处理,就牵扯一套复杂的解决方案。

很多团队搞了各种新的算法,准确率不断提升,从50%刷到70%。但我认为从95%刷到97%可能都没用,只要会出错,就必须要有“兜底”方案。

如果没法兜底,就很难被客户所接受。

而“兜底”方案是一个动态的过程,可能早期,机器人还“泛化”不了的,我在生产线装个兜网来解决掉落问题,人工+机器人配合,或者机器人+遥操。但随着机器人进产线,算法适应更多对象、场景和任务,机器人会慢慢接过来实现泛化升级,把解决方案的其他部分吸收掉,最终独立工作。

这也是为什么要强调对场景的理解、与客户在解决方案层面进行系统合作,只有这样,才有让机器人获得第一阶段进入,然后逐步滚动成熟起来的机会。

智能相对论:目前下游硬件在通用+泛化的支持方面如何,是不是会成为瓶颈?

周而进:必须要澄清一个行业认知,当前很多具身智能的表现拉跨并不是因为硬件性能不足,而基本都因为模型能力没有跟上。

一个浅显的道理是,如果一个动作能够被遥操出来,或者能够在固定程序上跑得很惊艳,比如春晚宇树机器人的武术和舞蹈,那就证明硬件能力本身没有问题。

事实上,今天机器人硬件的很多性能表现已经很不错了,一个好的摇操方案,转核桃、翻跟斗都是家常便饭。大家都卡在模型上,模型能够进场景基本就意味着本体能进场景。

当然,散热、功耗这些,是供应链硬件必须不断强化的。

智能相对论:通用+泛化正交下,模型的参数量会有什么不同之处吗?之前原力灵机发布了DM0大模型并进行了开源,参数只有2.4B。

周而进:在机器人领域,无脑堆参数量这件事非常荒诞。我们还是要回到实质上,到底多大的参数量能够做到一个什么样的能力?

对机器人来说,8B未必比4B厉害,4B可能比2B差。我们通过大量的真机的实验发现,2.4B的参数量已经足够完成想要的功能,也便于部署和二次开发了,一台4090、5090的机器就能跑起来。而且做了代码优化之后,机器人的反应时间能控制在60毫秒的时延。

退一步说,在现在的数据条件下,如果现在有具身智能大模型说自己的参数量有30B,那我只能怀疑它用了一堆仿真数据。

今年我们的一个大目标还是奔着通用和泛化这两个角度去往前做。从训练机制上,具身智能不应该是下载个VLM模型然后加点自己的数据就搞出一个机器人模型,我们要做的、我们的DM0是一个原生机器人模型,从第一天开始就在真实世界中去理解、操作物理世界,再配合我们的训练技巧,实现跨机型多任务等等学习方式。

很多模型只针对一种机型,要拿起瓶子就只会背诵几个关节的步骤、电机该转几度,而DM0和后续要发布的升级版模型DM0.5,是要解决对运动和趋势的理解问题。

之后,我们的DM1乃至更多版本,会沿着从对象到场景,然后到任务,再到机型的路径去执行。到DM1.X时,预计分层系统能够支持小时级别的任务。

智能相对论:目标严苛、前路漫漫,是不是可以理解,原力灵机在具身智能赛道上,选择了最难的那条路?

周而进:并不对,从目标的设计来说,原力灵机的通用+泛化正交,从最底层的结构开始从头走了一条完全属于自己的道路,一步步实现目标,看起来是比那些拿着国内外大语言模型过来改一下就去使用要更加麻烦,十分有挑战性。

但是,反过来想,你拿了别人的东西过来,天花板就被它限制住了,模型的知识量、认知甚至它的缺陷,都摆在那了。短期内能够上线一些粗浅的场景应用,长期看,一旦想要能力精进,投入的时间和成本会更大。

就像一个小朋友小时候学英语虽然痛苦,但会比长大后再学效果好很多。现在业内许多团队基于开源模型(如Pi或通用VLM)能快速跑通demo,这极大地降低了行业门槛。但Pi也有着缺陷,比如没有多传感器的触觉数据,没有场景的构造、任务的构造。如果致力于打造原生具身智能,就会在多传感器融合、底层物理规律理解上存在天然的局限性。

至于VLM模型就更不用说了,模型可能根本都没见过关节电机这些东西,只有互联网数据喂养下的机械动作背诵。

大模型发展的技术路线不一定是完全可以复用到具身智能上,但大模型走过的那些坑,是能够有意去避免的。最典型的是,当大模型足够强的时候,很多个体调优的小模型应用最后发现并没有太大意义,被通吃了。

具身智能未来的发展,通用+泛化正交,会走到类似的阶段。

基础打牢了,后续广泛的场景落地会变得更快,我们是在走一条更简单的路,这也是行业应该要走的更简单的路。

*本文图片均来源于网络

×
正在为您生成精美海报...
对话原力灵机周而进:原生大模型,让具身智能“更简单”
原生大模型,让具身智能“更简单”...
希望看到您的想法,请您发表评论x