豆瓣评分高达8.6分的《元宇宙2086》一书,带领读者畅游了未来虚实共生的数字平行世界,并指引我们成为元宇宙网络的创世居民。在那个虚实相融、亦真亦幻的新社会形态中,未来的我们开启着与现在完全不同的“焕新人生”。
事实上,无论是在互联网,还是在XR时代的元宇宙,人类始终是主角。唯一发生变化的,是展现个人主体的形式大相径庭。在互联网时代,我们是以一串或简单或复杂的ID存在于网络上。而在XR时代,我们活跃在元宇宙中的方式又会变得怎样精彩纷呈?
就在6月23日,国内专注于人机交互技术的知名产品平台公司Rokid,带来了一幅引人遐想的新画卷。通过软件产品演示分享会,Rokid从XR交互引擎、XR系统框架、XR创新应用、AI算法应等层面,相继演示数字人、手势交互、YodaOS国际化、全息空间2.0、Open XR、MSpace、Light(WebXR)、AR导航、6DoF空间声场技术、全新端到端ASR算法等最新成果。
在全新前沿技术成果的支撑下,我们每个人都能在元宇宙中焕新而生,开启一场新冒险。为XR时代的交互方式画下新蓝图的Rokid技术人er们,显然在打造出通往新未来的通行证。发布3D数字人技术
让用户“捏”个活灵活现的自己
无论是在怎样的世界载体,人们追求个性的诉求始终存在。如果说互联网时代展现个性只能用头像、ID等方式,那么在元宇宙中,人们将为自己定制一个独一无二的形象。为了满足这一诉求,本次软件产品演示分享会带来了Rokid数字人最新技术成果——丰富可扩展的3D数字人模型和数字人引擎。
通过不同设计的眉毛、眼睛、鼻子、嘴巴、脸型以及装扮,Rokid 3D数字人模型支持用户通过“捏脸”和换妆的方式,定制专属自己的形象。
目前,Rokid数字人模型已基本满足亚洲用户群体,未来的数字人模型将以更多五官分类组合、肤色、发型、发色以及不同地域风格的服装等,让不同国家和地区的用户都可以拥有专属数字形象。
值得一提的是,通过音素识别解决方案打造的数字人引擎,在无需额外的摄像头捕捉面部的情况下,仅通过音频就能识别出人讲话的口型和情绪状态,实现声音和表情的高度同步,完整呈现用户的喜怒哀乐,让数字人形象更加灵活生动,可被广泛应用于游戏、社交、商超、公共场所导览等场景。
未来,Rokid数字人技术不仅将以SDK的方式向行业开发者开放,同时还将登录Rokid Air AR智能眼镜,支持用户在设置界面定制自己的专属形象,Rokid推出的多人在线协同应用——MSpace,也将接入数字人技术,让用户实现更好的交互体验。
首创单目RGB摄像头
实现2D、3D手势交互
目前主流的AR眼镜一般都用ToF或多目摄像头来实现手势交互,但Rokid为面向未来的XR设备打造的方案仅通过单颗RGB摄像头和高帧率IMU传感器的VIO方法获得稳定性好、精确度高的6DoF追踪效果,而且基于同一颗摄像头相机共享数据,还可以用于完成自然、灵动的手势交互体验。
本次软件产品演示分享会,Rokid技术团队就演示了全新升级的单目2D RGB手势交互技术,并带来了单目3D RGB手势交互技术的最新成果。其中,单目2D RGB手势交互实现了双手联动、虚空触发以及抬拉拖拽等互动,实现了更高的灵活度和更自然的交互。
单目3D RGB手势交互演示
基于深度学习算法和大量先验数据,使得使用单目RGB来重建3D Hand成为了可能。Rokid自研的单目3D手势算法能在移动端实时重建手部姿态参数,包括手部6DoF,手部关节点26DoF,以及Hand Mesh信息,为AR的手势交互提供良好的算法基础。
MSpace再升级
Light(WebXR)、AR导航原生应用发布
在打造强有力的XR交互引擎的同时,Rokid技术团队还带来了Light(WebXR)、AR导航原生应用,并对MSpace进行了重要更新。
① Light(WebXR)
实现Web端XR开发者和应用的轻松接入
市面上丰富的云游戏库,该如何通过Rokid AR玩起来?如何戴着Rokid AR看电影、看小说、逛论坛、浏览网页?轻量级内容聚合平台——Light(WebXR)重磅亮相,一站式解决用户多种需求。
未来,Light(WebXR)将登录Rokid Air应用商店,为用户带来更多Web端XR应用和资源。同时,Light(WebXR)支持了标准的WebXR API,欢迎更多Web端XR开发者参与到AR生态建设中。
② MSpace
通过虚拟化身+空间声场技术,打造更真实的临场感
作为XR时代的原生应用,MSpace具备屏幕共享、3D内容协作、虚拟分身等核心能力。在此次软件产品演示分享会中,Rokid技术团队带来了融合声场渲染、虚拟分身驱动、空间协同、全息渲染等技术的升级版MSpace,实现了实时音频驱动虚拟分身的口型、表情与动作,让虚拟分身更形象生动。同时,升级版MSpace还支持空间中公有物体同步操作、私有物体随心操作,虚拟物体准确放置并能实现身临其境的光影效果。
③AR导航
更临场感的导航体验,迷路星人再也不迷糊
手机导航不方便,传统的2D图标+单眼AR导航,不仅视角受限,提示还不够明显,AR导航急需革新!
在此次软件产品演示分享会中,Rokid技术团队就演示了围绕立体感、临场感和沉浸感为用户打造的身临其境、指哪去哪的AR导航体验。
相较于传统单眼模式,双目AR导航会让视觉在一定程度上减少和现实的割裂感,另外这款应用还采用了近大远小的空间透视关系和全局实时光照投影,能大幅度提升使用者的沉浸感。
关于导航用户最担心的精度问题,Rokid AR导航通过采用高精度的地图、GPS定位和磁力计校正来提高导航的精度。未来,Rokid AR导航还将加入SLAM技术和地理信息系统平台,为用户搭建一个真正的虚实结合的元宇宙出行平台。
高能AI算法
一场关于技术变革的深度较量
在高能体验的背后,都离不开强有力的算法支持。Rokid算法工程师的日常总是在极致中追求革新,落地人们关于元宇宙的一切畅想。此次,Rokid就公开发布包括Atauro Audio(6DoF空间声场)以及全新端到端ASR算法等最新成果,从声、形等多方面推动AR和AI技术革新。
①Atauro Audio(6DoF空间声场)
让耳朵也进入元宇宙
在眼镜之后,耳朵也要进入元宇宙啦!通过6DoF空间声场技术,Rokid正在实现关于“声临其境”的变革。6DoF空间声场是声音在三维领域的体现,不同于传统双声道、立体音带来的听觉体验,6DoF空间声场技术可以在混合现实中模拟声源与人耳之间因空间位置变化、有无遮挡物等带来的声音强弱与方向的变化,从而让AR眼镜为用户带来更具临场感的听觉体验。
6DoF空间声场技术将会集成到全新升级版的YodaOS-XR操作系统中,作为YodaOS-XR操作系统的基础能力供行业开发者们进行调用。同时,Rokid还计划推进更多应用于AR眼镜的特殊音效的开发,如环绕与微重低音的高保真音效等,以高效易用的SDK让开发者真正实现即拿即用。
②全新端到端ASR算法
实现从坐火车到乘飞机的升级
Rokid语音技术不断升级,通过全新端到端语音技术,在原有基础上实现字错率降低30%。
同时,本次升级不仅仅是传统意义上的优化,而是实现了从0到1的工业级语音识别技术革新和更简单的算法架构、更快的训练速度、更简单的接口、更容易的调试方式、更低的资源消耗,达到真正的“稳,准,快”效果。
未来,Rokid端到端语音技术还将在小语种、垂直领域定制赋能AR行业等方面不断形成新的突破,值得期待。
系统框架再升级
更国际化、更开放、更高适配性
在此次软件产品演示分享会中,Rokid技术团队还带来了全新升级的系统框架,包括多国语言、全息空间2.0、OpenXR标准等,让Rokid YodaOS-XR操作系统更加强大。
其中,Rokid YodaOS-XR操作系统国际化再进一步,中、英、德、俄、西、葡、韩、日、意、法、马来、阿拉伯语等多种语言即将发布,进一步助力Rokid全球业务的持续推进!
Rokid全息空间1.0也升级到了2.0版本。相较于1.0版本的头控3DoF、眼镜中3D展示、语音识别技术三个交互方面探索,全息空间2.0实现了统一的3D物体控制框架,能对虚拟空间中的模型进行移动、旋转和缩放操作,从而使AR全息化体验更强。这一能力,Rokid原生应用MSpace已直接移植,为MSpace远程协同空间添加更富有乐趣的全息模型。
除了3D物体控制框架,全息空间2.0的多模态交互方式还由虚拟控制器+SLAM+空间音频构成,可以为用户带来更强的临场感。值得一提的是,全息空间2.0仅通过一个RGB摄像头开发完成,实现了性能与成本的高度平衡。
在技术不断进步的同时,YodaOS-XR操作系统在宣布全面支持OpenXR标准后,行业合作和落地应用也取得了突破性进展。在不久前,Rokid与行业主流3D引擎 Cocos 达成战略合作,推动OpenXR标准全面落地。基于OpenXR标准打造的AR示例游戏《幽灵射手》也将登录Rokid Air应用商店,这也是Rokid YodaOS-XR操作系统宣布全面支持OpenXR标准以来,首款基于此标准接入的应用。
基于OpenXR标准,Rokid将与更多行业开发者、游戏引擎公司达成合作,共同催动内容创作者的产出,为用户提供更为良好的内容环境,真正实现双赢。
技术的持续革新,延续着产品的生命力。Rokid技术工程师们对极致技术的追求,正在让更自然的AR交互体验变成现实。未来,Rokid将持续把最新的交互和技术融入操作系统YodaOS-XR中,打造全新的AR体验。在奔向AR未来的旅途中,让我们一起期待Rokider为行业开发者以及用户创造的惊喜!