专栏观察

三类不同身份的“开发者”,在昇腾CANN的土壤上种下了繁荣之花

开发者苦“封闭生态”久矣。

在大模型行业快速演进的当下,一些厂商仍在继续搞围墙之内的“封闭游戏”,看似提升了用户体验,却在技术、数据和生态协同上筑起了高墙,不断抬高创新门槛,为开发者套上了隐形的枷锁。

同一时间,一场开放对抗封闭的运动也进入了高潮期。

就在鲲鹏昇腾开发者大会2025期间,坚持深度开放的昇腾异构计算架构CANN,向外界公布了一组新数据:

深度贡献的开发者数量已经从1000多人迅速增长到6000多人,涉及操作系统、算子算法、整图优化、加速库等各个层面的创新;来自互联网、运营商、金融等领域的30多个伙伴,开发了260多个高性能算子,大幅提升了大模型在业务场景中的性能表现......

为何在宣布深度开放的短短两年时间里,昇腾CANN即已成为中国AI创新的新阵地?我们从三类开发者的故事中找到了答案。

01 以需求牵引生态:科大讯飞把业务问题变成生态能力

检验一个开放生态的价值,场景落地永远是最直观的指标。

身处创新第一线的企业开发者,起到了不可或缺的作用,他们从开放生态中汲取养分,又不断用实践经验反哺生态,通过深度融入生态、与场景紧密结合,赋予了昇腾CANN生态自我生长、自我造血的能力。

其中的代表就有科大讯飞。

科大讯飞副总裁、AI工程院院长潘青华,将科大讯飞与昇腾平台的深度合作总结成了四个阶段:

第一个阶段是敢用,2023年国内还没有超大规模集群的成熟方案时,科大讯飞和昇腾联合打造了国内首个自主创新的超大规模集群;

第二个阶段是真用,2023年到2024年的一年时间里,科大讯飞在昇腾超大规模集群上训练了星火大模型,性能从开箱只有业界的30%提升到了90%,印证了自主创新算力完全可以支撑大模型研发达到世界领先水平;

第三个阶段是会用,科大讯飞和昇腾的联合攻关团队在2024年实现了多种大模型在昇腾平台上的长稳训练,断点续训的恢复时间从业界平均的30分钟,下降到了5分钟以内;

第四个阶段是用好,科大讯飞在2025年3月基于昇腾算力率先实现了MoE模型的大规模跨节点并行集群的推理,性能提升了3倍。

其中CANN作为昇腾AI的核心基础软件平台,搭起了AI框架与昇腾硬件的桥梁,是充分释放处理器极致性能的关键。针对MoE大模型训练场景的”卡脖子”难题,科大讯飞和昇腾进行了一场场联合攻坚。

在算子方面,双方联合开发和优化了50+算子,科大讯飞自主开发的自定义关键算子就超过10个。其中包括优化了MoE特有的关键算子,让计算效率提升了15%以上;对部分融合算子进行加速,端到端实现了5%的提升。

针对不可忽视的通信问题,科大讯飞和昇腾团队通过采用多种通信掩藏的技术,将端到端通信压缩到了20%以内,最终让星火MoE大模型的训练性能提升了2倍,进一步释放了昇腾在计算、带宽和通信上的潜力。

昇腾CANN也将在计算、内存、通信三个维度加速创新,其中包括超级算子MLAPO、多重地址映射技术、NPUDirect通信算法等等。科大讯飞和昇腾在真实场景中打磨出的核心能力,将开放给所有开发者。

确切的说,科大讯飞代表的是中国企业合作创新的群像,同类的“开发者“还包括智谱、字节跳动、面壁智能、蚂蚁金服、美团等20多家头部企业,作为CANN生态落地的关键合作者,一同重塑了AI产业的创新范式。

02 以技术筑牢生态:他们用工程化创新重构了性能边界

大模型应用是个系统工程,工程创新的价值同样不可小觑。

从单卡到集群,从算子到调度,从通信范式到内存布局,每一次性能的跃迁背后,都源自技术层面的极致打磨。正是这些“看不见的功夫”,让AI模型跑得起、跑得快、跑得稳,走向真实世界的每一个场景。

在昇腾CANN生态中,一个个擅长软硬件协同、系统调优、通信机制重构等“硬活儿”的技术团队,用工程创新撬动了生态演进。

比如清华系AI独角兽无问芯穹,基于CANN深度优化创新,有效降低了大模型推理的算力资源消耗。

2025年是AI应用大规模落地的元年,当推理算力需求激增的背景下,算力成本控制已然成为大模型落地的关键。为了解决这个问题,无问芯穹与昇腾针对大模型推理集群部署中的通信开销展开了深度协同创新,通过全新的计算和通信重叠范式,对昇腾硬件的多元通信语义进行专项优化,单算子性能提升最高达20%,有效降低了算力资源消耗。

比如AI Infra创业团队清昴智能,基于昇腾CANN构建起了从单卡效能到多卡集群的全局优化方案。

围绕很多企业遇到的性能释放不足问题,清昴智能通过基于CANN的专项优化,进行算子融合、调度策略改进、并行计算模式调整等等,显著提升了昇腾Duo卡的推理性能表现,让Duo卡也能跑起DeepSeek满血版大模型。同时构建了从单卡效能打磨到多卡集群调度优化的全链路方案,为AIGC、自动驾驶等场景提供优质自主创新的选择。

再比如清华大学计图(Jittor)团队,围绕前沿大模型,基于CANN生态构建了自主创新的推理框架。

DeepSeek R1“出圈”后,清华大学计图团队迅速集结核心骨干分析适配方案,联合昇腾研发团队,在历经三个月、数十次架构迭代、数百次功能更新后,构建了MoE专用算子体系,采用INT4量化技术、MLA矩阵吸收、多维度混合并行等技术,实现了性能与内存的双重突破,率先在昇腾单台Atlas 800 服务器上部署了满血版DeepSeek R1模型。

对应的技术团队还有很多。

作为生态系统中的技术支点,他们不站在舞台中央,却用一行行代码、一次次迭代,为大模型应用打下了可落地、可扩展的技术基础。

从推理性能的每一次提升,到部署成本的一次次降低,这些工程创新不仅重构了模型能力的边界,不断拓展昇腾CANN生态的价值,让AI真正走进产业,走向现实。

03 以热爱点燃生态:两位教授刻画了昇腾开发者的群像

一个开放生态的繁荣,不仅需要聚集开发者的力量,还需要用生态驱动商业闭环,形成持续的创新动能。

这就要提到第三类开发者,他们从开放生态中汲取养分,又不断用实践经验反哺生态,通过深度融入生态、与场景紧密结合,赋予了昇腾生态自我生长、自我造血的能力。

昇腾CANN生态的繁荣,离不开每一位因热爱而加入的开发者。

他们不是“最亮的光”,却是一束束点亮中国AI未来的星火;他们可能不为人所熟知,却始终在关键的工程节点上默默耕耘。我们无法细细讲述6000位开发者的故事,但可以从两位教授身上看到他们的群像。

第一位是来自华南理工大学的陆璐教授。

2022年刚接触昇腾CANN时,陆璐教授也曾感慨“不够亲和,用起来比较难受”。但不同于纯粹的吐槽,陆璐教授团队在了解了昇腾的软硬件体系后,开始逐步进行优化,让算子性能从50%提升到了100%,甚至在某些场景中从200%提高到了500%。

作为开源开放的忠实拥趸,陆璐教授并未止步于性能上的优化,希望通过开源项目帮助更多的开发者降低门槛,用更少的时间、更少的代码,实现更高的性能,最终和昇腾算子模板库CATLASS结下了不解之缘。

正如陆璐教授在鲲鹏昇腾开发者大会2025的演讲中所提到的:和国外友商对比,CATLASS模板库在FP32精度下达到了2.78倍的加速效率,BF16是1.23倍、FP16是1.17倍、INT8达到了1.21倍。并表示接下来会做进一步的迭代,计划开发MoE算力、通算融合算力、以及卷积类的算子。

第二位是西北工业大学的徐韬教授。

故事还要从2020年说起,西北工业大学成为首批加入“昇腾众智计划”的高校。徐韬教授迅速意识到了合作的价值:过去深度学习课程总是陷入“纸上谈兵”的困境,学生们只能对着理论公式空想;昇腾平台与资源池的引入,学生们可以在云端进行完整的建模、调参、部署等流程,真正实现“手脑并用”。

徐韬教授第一时间组建了项目小组,和学生一起打磨每一个算子,同时积极参加昇腾社区的高校挑战赛、社区论坛、布道师等活动,学生们在解决实际问题的过程中,系统地掌握从算法设计到硬件适配的全链条技能。

两个月前上线Gitee社区的CANN-Ops算子共建仓,是国内首个面向昇腾开发者的算子共建平台。其中徐韬教授团队已经自主开发并贡献了近30个高性能算子,成为国内最早向昇腾CANN平台提供多项核心支持的高校团队之一,也是首个在CANN-Ops算子仓库中完成算子合入的开发团队。

陆璐和徐韬团队所撬动的,不单单是算子开发效率的倍增,还是开发者之间交流经验、沉淀最佳实践、共建共创的平台。

算子的每一次被使用、被改写、被反馈,都将把个体的力量变成集体的势能,把工具的价值转化为生态的共振。生态,不只是技术堆叠,更是一群人共同选择走的路。

04 写在最后

从活跃在开源社区的一线开发者,到深耕底层优化的工程团队,再到探索技术边界的领军企业,昇腾CANN已成为中国开发者生态最活跃、技术迭代最迅猛的AI创新平台。

当不同背景与层级的开发者聚集在一起,当科研理论到产业应用的链条被打通,当全栈自主创新能力成为行业共识,当一个多元、开放、协同的CANN生态开出繁荣之花,将以前所未有的速度引领AI开发范式的变革,托举起中国在智能时代的关键竞争力。

正在生成海报, 请稍候
三类不同身份的“开发者”,在昇腾CANN的土壤上种下了繁荣之花
2025-06-10 16:25:34
当不同背景与层级的开发者聚集在一起,当科研理论到产业应用的链条被打通,当自主创新能力成为行业共识,一个多元、开放、协同的CANN生态开出了繁荣之花。
长按识别二维码
Techsir.com
希望看到您的想法,请您发表评论x