大模型混合云，到了系统性创新突围的关键时刻

文 | 智能相对论

作者 | 陈泊丞

亚马逊与Anthropic、微软与OpenAI以及华为云提出的大模型混合云概念等等种种信号都在表明，云计算与大模型深度融合发展的趋势已是业内共识。

目前，以生成式AI为导向，越来越多的公司开始加速大模型技术在云计算平台上的部署和应用，而又反向推动云计算产业的迭代与升级。

从底层的基础设施到中间层的平台服务再到顶层的场景应用，云计算正经历着显著变革。以亚马逊云科技为例，作为全球云计算巨头，他家的云产品正全面为大模型的部署与应用做好技术层面的铺垫。

一、在底层，打造以GPU和自研芯片为代表的基础设施，用于基础模型的训练以及在生产环境中运行推理。

二、在中间层，推出Amazon Bedrock，基于完全托管的服务，允许用户轻松接入经过严格筛选的第三方品牌大模型，如AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI等，以及亚马逊自有品牌的大模型Amazon Titan。

三、在顶层，通过基础模型构建开箱即用的生成式AI应用程序如Amazon Q等，让用户无需任何专业知识即可快速上手生成式AI。

由此来看，生成式AI的发展正在改变云计算本身的产业格局，整个市场的竞争也到了前所未有的变革阶段。

生成式AI，重构了云

秉持着亚马逊云科技类似观点和行动的，还有本土的云厂商们。

百度集团副总裁侯震宇此前便提出，大模型将驱动云计算的创新，并重塑云计算的产业格局，在驱动了底层IT基础设施的重构，也带来了上层应用开发模式的变革。

而华为云发布的国内业界首个大模型混合云——华为云Stack 8.3，则是把混合云与大模型相结合，更具体地反馈出了云服务发展的新方向——通过提供算力平台、云服务、开发套件和专业服务等完整的AI生产链，打通了从基础设施到应用开发的技术路径，帮助政企客户一站式建立专属大模型能力，成了云服务的进阶能力。

而这种能力的进阶，基于大模型混合云的技术发展而言，其本质是一种应用场景的特化。

比如，云边协同技术在大模型混合云上的延续应用与创新，其目的是为了解决AI大模型逐步应用到煤矿生产、电力巡检、工业质检等工业场景中所暴露出来的边缘实时推理需求。

一方面，工业场景对AI应用的需求比其他场景更多，且效率要求也更高，低延时、高敏捷、广泛部署都需要做好边缘管理和应用工作。另一方面，当AI大模型走向工业场景应用，其版本迭代、功能升级就不可避免地进入边用边学、边升级边应用的阶段。

由此，云边协同成为关键，需平衡计算资源、优化数据流动、提升处理效率和增强服务质量，支撑了多样化、高要求的AI应用场景。

华为混合云提出的云边协同方案基于混合云的ModelArts AI开发平台和盘古大模型，形成了一站式的场景化模型训练工作流。再通过采集原始生产样本数据和模型运行中产生的存疑样本数据，使用工作流高效训练模型，并统一管理模型版本，有效实现了AI模型边用边学、快速迭代、持续升级、能适应新的工况和数据变化。

再说数据问题，其中数据存储就困扰着AI大模型训练效率。随着AI大模型参数量的增加，训练集群规模也不断扩大，而传统存储从架构上就已经难以应对超大规模AI集群数据快读、Checkpoint快存、故障快速恢复的需求。

面对这样的特定需求，华为云不得不在存储架构上来寻求突破，基于于OBS数据湖、SFS Turbo高性能并行文件系统和AI Turbo加速的创新三层架构，从而系统地应对大模型训练场景的挑战。

总的来说，只是为了应对AI大模型的各类场景问题，云服务就需要从底层基础设施到顶层应用来全面创新，提出对应的解决方案以进一步推动AI大模型的发展。那么，摆在大模型混合云面前的技术难点并不会太少，近年来华为云一直在通过系统性的创新解决大模型应用的关键堵点，其发布的大模型混合云十大创新技术就包括了除云边协同、数据存储之外还有增强AI网络、算子加速、统一数据编码、多样性算力调度等等。

事实上，抛开华为云提出的大模型混合云这样系统的概念不谈，业内对于云与大模型的结合已经达成共识，并致力于提供各类技术方案，来解决大模型在云上的各种训练、推理、应用等需求。

像京东云推出了一套大模型的完整工具，包括支撑大模型应用的基础设施——言犀AI开发计算平台、向量数据库、混合多云操作系统云舰、高性能存储平台云海、软硬一体虚拟化引擎京刚等核心产品，对应的就是在云的基础上推动大模型的产业化发展。

大模型混合云的系统性突围

亚马逊云科技、华为云、京东云、百度智能云等诸多厂商面向今天爆发的大模型时代，无一不在致力于打造完整的技术解决方案，把底层、中间层、顶层等一系列的流程和服务包办，从而让大模型能在云上持续部署和应用，释放价值。

大模型混合云这一概念的提出，更是把云厂商的这种综合解决方案带向了更加系统的阶段。而这种系统性的形成，不仅要求云厂商要在技术上聚力，还要面向场景进行广泛探索。

“对政府来说，他们关心的可能并不是简单解决内部节约一个客服人员、运维人员的问题，而是更多站在产业布局角度，通过大模型带动整个产业的发展。”众数信科创始人兼CEO吴炳坤在接受媒体采访时说道。

基于云服务行业的发展趋势，这种产业的系统性发展实际上就需要借助云技术的系统性升级来实现——这是一种大格局的体现。对此，从传统的多云策略来看，大模型混合云的提出更能展现出未来云服务的大格局。

多云策略侧重于使用多个云服务提供商的服务，以避免供应商锁定，同时优化成本或利用各服务商的优势。而大模型混合云虽然也可能涉及多个云环境，但其核心在于构建一个高度整合、优化的大规模数据处理和AI模型运行环境，不单纯为了分散服务来源，而是为了实现特定的技术和业务目标。

比如，华为云Stack的多云协同架构，就允许行业大模型在公有云上进行训练，同时还能结合企业本地数据在混合云中微调，然后在边缘云进行推理，从而满足不同场景下的计算需求。

这样做的本质不是为了分散“云”，而是基于原生混合云能力，让用户可以将大模型从本地延伸到边缘和公有云，实现全场景跨云部署，达到应用效率、安全性能等结果的最优化。

因此，总结来说，大模型混合云是针对特定领域（特别是需要处理大规模数据和复杂AI模型的场景）优化的混合云架构，它集成了公有云的弹性与私有云的安全控制，以及可能的多云服务，以满足高性能计算和AI应用的特殊需求。

这种集成实现的技术系统性将在接下来的时间内成就产业的系统性发展，也就是“不是简单解决内部节约一个客服人员、运维人员的问题，而是更多站在产业布局角度，通过大模型带动整个产业的发展。”

因此，基于这样的系统性发展，接下来大模型+混合云的发展将形成了较为显著的几大趋势。

一、在算力调度上，大模型的训练和推理通常需要大量的计算资源。随着模型规模的增长，对算力的需求也在增加。混合云环境下的算力调度和优化技术会持续发展，以支持更高效的大模型训练和推理。

二、在云边协同上，随着物联网（IoT）设备的普及，边缘计算变得越来越重要。混合云架构将支持更紧密的云边协同，使大模型能够在边缘进行实时推理，减少延迟并提高响应速度。

三、在基础设施上，AI-Native存储和网络技术将继续演进，以支持更高效的模型训练和推理过程。例如，高性能存储支持多级缓存机制，实现Checkpoint秒级存取，以及训练故障分钟级恢复。

四、在模型应用上，企业可以通过混合云环境中的本地数据对预训练的大模型进行微调，以适应特定业务场景的需求，同时保持数据的私密性。

五、在业务部署上，不同行业（如金融、医疗、制造等）将利用混合云上的大模型来解决特定的业务挑战，促进业务创新和流程自动化。同时，大模型在混合云环境中更容易实现规模化部署，特别是在那些分布广泛的企业和行业中，如能源、交通、制造等领域。

六、在生态建设上，大模型和混合云的结合将促进更多生态合作伙伴的加入，共同开发解决方案和服务，扩大整个生态系统。同时，随着大模型混合云应用的增多，相关标准和协议也将逐步制定和完善，以提高不同系统间的互操作性和兼容性。

写在最后

现如今，大模型拥有了数亿乃至数十亿的参数量，这为生成式AI的发展提供了前所未有的计算规模和复杂度。更多的参数意味着模型可以学习到更深层次、更精细的数据特征，从而在文本生成、图像合成、音频创作等多个领域生成更高质量和多样性的内容，很好地推动了生成式AI的高质量发展。

而这样的能力对于产业而言，正是未来产业转型升级的一大关键。云计算同样作为产业升级的底层技术，与生成式AI的协同将以更全面、完整的形态来实现这一目标。但是，在这个过程中，云如何与生成式AI背后的大模型进行结合，将是关键性问题。

生成式AI这趟“顺风车”，亚马逊云科技、华为云、京东云、百度智能云等云厂商都想搭，但是搭起来却是得费些心思咯。

*本文图片均来源于网络