专栏观察

数据密集型超算技术,如何让多中心实现“低摩擦”互联?

文|智能相对论

作者|叶远风

数字经济大时代,超算已经不够,“超算互联网”来了。

最近,2022中国算力峰会(济南)暨超算互联网工程上线仪式在国家超级计算济南中心举办。会上,济南超算上线了“超算互联工程”,顾名思义,即多地、多中心以互联的方式协同提供计算服务。这种联动模式相比较单个计算中心,将更大程度上推动产业数字化进程并护航国家重大科研技术创新。

值得注意的是,在峰会现场,山东省科技厅、济南超算、华为还共同揭牌了一个“数据密集型超算示范基地”,表达了海量数据存储在超算互联网中的关键价值。

以往,人们对这种大型算力中心的联动的关注往往停留在计算设备与网络上,而现在,随着超算互联网的建设,数据存储的价值同样凸显出来,它们共同推动着超算互联网基础设施有效落地,取得巨大的商业价值与社会价值。

超算互联网完成“打样”,推动地区乃至全国数字经济发展进入快车道

作为国家级先进超算基础设施,超算互联网在山东、济南的落地,对地区数字经济快速发展的推动作用毋庸置疑,而其建设过程也在全国打了个样。

事实上,在本次发布超算互联网之前,山东省、济南市超算产业上持续投入了大量资源,取得了很多成果,这些成为超算互联网落地的前提。

技术层面,在华为等伙伴的共同努力下,济南超算的性能在全国乃至全球都处在领先位置。

不久前,在德国汉堡举行的ISC 2022高性能计算大会发布了第十期IO500榜单,济南超算新一代山河超级计算平台在10节点榜登顶夺冠,成绩首次跨过3000分,大幅刷新了该榜单历史最好成绩。而这个成绩的实现,离不开华为OceanStor Pacific分布式存储的底层支撑。

在产业层面,2019年,济南就建成了国家首个超算科技园区,配合一系列政策措施走出了以算力赋能高质量发展的创新之路。从数据上看,济南生产的服务器产销量位列全国第一、全球第二,AI服务器产销量也实现全球第一,超算制造全球第二,国内超过50%的AI算力来自济南。

有了这样的技术+产业的底子,出于进一步发展的需要,济南超算在国内较早提出并大力推进超算互联网建设,并不在意料之外。

现在,这项开创性工作在各方努力下终于走向落地,无疑将带动辐射地方科技、产业发展,推动济南、山东的数字经济走在全国前列。

而在全国多地,超算的建设正如火如荼,长期耕耘下,许多与济南有着同样愿景的地区也客观上具备超算互联网建设的资源和能力,市场上出现一个成功实践的样板,无疑会带来重要的借鉴价值。

总的看来,济南超算与华为此次深度合作推动超算互联网的落地,为中国超算、超算互联网的发展提供可借鉴的“济南样板”,为超算互联网领域产、学、研的合作树立了榜样,将推动提升我国超算的应用水平,让超算这一“国之重器”显示出强大的力量。

超算互联网落地面临数据挑战,华为超算互联数据一体化方案破局

具备地区乃至全国的重要意义,但回过头来看,超算互联网也面临过诸多挑战,只有解决了这些挑战,才能将超算互联网更好地落地,这也是“数据密集型超算示范基地”揭牌的重要背景——华为带来的技术创新有效应对了超算互联网建设中关键的数据存储挑战。

首先,来看数据存储对超算互联网为何关键。

一方面,超算本身发展对数据存储的要求在变强。

随着超算产业与行业场景、新兴技术的融合持续加深,高性能数据分析HPDA取代传统HPC成为新的发展热点,简单来说,即计算的过程对数据存储和利用要求更高,需要进行大量数据的计算处理,而非单单只看计算能力。

另一方面,超算互联网的日常应用更多聚焦到数据上。

在超算互联网中,算力、网络固然重要,但它们都是可以提前布局的,实际上真正调度和流动的其实只有数据以及数据支撑上的应用。

普遍认为,超算互联网一定会走向“数据密集型”的道路。

然后,再来看数据存储在超算互联网中面临着什么挑战。

“互联”带来算力资源统筹协同的正面价值,而硬币都有两面——多中心互联也带来了数据流动的“摩擦”。

这种“摩擦”,举几个例子:

数据管理上,各超算中心本身就是一个个数据孤岛,且资源利用能力各异,不同厂商的管理技术各不相同又加剧了管理的复杂性;

在数据流动上,很多应用需求的数据量庞大(如大型天文射电望远镜数据量都是PB级),远远超过运营商网络的带宽上限,即便1Gb/s带宽传输也需要数月才能传输;

在数据安全方面,跨中心大规模的数据流动相对单个中心,免不了存在更多安全隐忧,等等。

可以说,解决不了这些问题,超算互联网很难有效落地。

最后,再来看华为的技术创新是如何应对这些挑战的。

既然数据存储的挑战往往都来自多中心“互联”带来的摩擦,那么通过技术创新不断降低这种摩擦、实现一体化,让互联模式下的数据管理、流动等与本地数据存储一样高效,甚至让数据应用方感受不到“互联”模式的存在,就成为解题的关键。

由此,也就不难理解华为存储将自己为超算互联网提供的支持定义为基于OceanStor Pacific分布式存储的“超算互联数据一体化方案”了。

这个方案,从四个方面消弭由于数据跨中心流动带来的“负面”摩擦。

1、一盘棋:纵览全局、心中有“数”

华为存储构建了一个全局文件系统,把多地超算中心以一张图的方式管理起来,这就如同看待单一超算中心的各存储资源一样。

为了实现这样的效果,华为存储进行了多方面的技术创新,例如,表化、流化的统一元数据屏蔽设备差异,实现跨设备、跨异构互联互通等等。

2、高效率:畅通无阻的同时拥有智能向导

跨中心的数据流动面临带宽瓶颈,以及数据的发送、接收、利用过程中的各种技术摩擦,这些都是数据流动所难以避免的。

华为存储针对不同场景下不同数据类型采用不同的数据压缩算法,此外叠加热温冷数据智能分级,可有效节约数据存储空间和网络传输带宽,而做到上层的应用对这一切“无感知”。

这种做法,让数据的流动最大程度接近单一数据中心,也极大地助力了超算互联网的绿色低碳建设,与双碳这样的宏观战略相契合。

3、撑场景:最大化对应用的支撑能力

最终到应用支持层面,华为存储可以实现跨域数据协同分析,提升业务数据分析效率,从而让超算互联网最大程度发挥潜力、支撑起场景,落地超算互联网应有的商业价值、社会价值。

这其中的存储技术创新包括跨域协同分析、断点续传等。在过去,华为这些存储技术创新已经有过实践,例如支撑分别部署于广东、贵州的大数据集群协同完成了整个大数据业务分析。

4、有保障:为数据流动加装虚拟屏障

数据安全问题在数字经济时代越发敏感,超算互联网牵扯的数据面更深、更广,在“互联”过程中对数据安全的要求更加严苛。

这方面,华为存储提供集中化的数据安全管理,通过传输加密并支持数据跨域等级保护,实现数据策略风险分析和监控等等。这些做法就如同打造了一个虚拟屏障,让跨域数据共享和安全流动实现了如同物理隔离一样的安全效果。

总的看来,随着“互联”的“负面”不断消弭,超算互联网落地面临的数据存储障碍已经被扫清。

结语

数字经济磅礴而来,无论是产业数字化转型升级,还是城市治理能力的全面提升,亦或是高校科研院所突破重大研究课题,甚至公益环保组织推动社会的发展,超算中心都显示出强大的商业价值、社会价值推动力。

现在,从超算到超算互联网,计算的力量、数据的力量进一步显现,华为存储所推动形成的数据密集型超算模式,正在成为数字经济坚实的底座,让社会经济生活的进化更加剧烈而积极。

有理由相信,在数据存储创新推动下,超算互联网将成为数字经济发展的引擎,成为社会全面进步的驱动力之一。

*本文图片均来源于网络

 

希望看到您的想法,请您发表评论x