华为鸿蒙-HarmonyOS

苹果性能最强 M1 Ultra 芯片解密:业内首个 GPU 裸片集成,如何实现?

这颗采用 2.5D 封装的芯片十分符合其“Ultra”的名头:通过硅中介层将两个 M1 Max 裸片集成在一起,带来了惊人的 2.5TB / 秒的带宽。但亮点却在于,M1 Ultra 首次实现了两颗 GPU 裸片的集成。这是过去的几年来,AMD、英伟达、英特尔都宣称要做,却至今未能做到的成就。

凭借这一突破,苹果终于如愿以偿地在 GPU 领域对英伟达构成了挑战。据苹果所说,M1 Ultra 的 GPU 性能超过了英伟达的 GeForce RTX 3090,后者是目前市面上速度最快的 GPU。

踏入自研芯片领域不过几年的苹果,究竟是如何做到业内首个 GPU 裸片集成的?而这一技术的实现,又将为巨头争霸的 GPU 市场,带来什么样的变局?

图源:苹果

AMD、英伟达纷纷折戟 GPU 裸片集成难在哪?

自 MCM(Multi Chip Module,多芯片模组)技术诞生以来,像搭建乐高一样,在单一芯片中实现不同技术节点、不同功能的裸片的集成堆叠,成为了摩尔定律之外,半导体技术发展的另一路径,其本质在于将多个裸芯片和其它元器件组装在同一块多层互连基板上。

随着台积电、三星、英特尔的 2.5D / 3D 封装逐渐成熟、商业化,在高端处理器领域,单颗芯片中 CPU 与 Memory、GPU 与 memory 的裸片集成,已不再是新鲜事。然而,两颗 GPU 裸片的集成,在苹果 M1 Ultra 发布之前,只存在于英伟达、AMD、英特尔的 PPT 中。

2017 年,英伟达发表论文详细解释了一种名为可组合封装 GPU(Composable On-Package Architecture GPU,COPA GPU)的架构,核心在于将多个 GPU 模块和内存系统模块集成。同年,AMD 对外展示了由四个 GPU 裸片集成的 MCM 设计,宣称其性能将比当时最大的单片 GPU 的性能高 45.5%。

COPA GPU;来源:英伟达

然而,直到后来者英特尔在今年年初提出了一种 GPU 裸片集成解决方案,英伟达和 AMD 的多裸片集成 GPU 仍未问世。当然,AMD、英伟达的 Instinct MI200 系列和 Hopper 系列据称均有望在今年年底前姗姗来迟,但显然,拖延症让他们在“业内首个”上输给了苹果。

这种“拖延症”背后的无奈,是市场和技术两个方面的。厦门云天董事长于大全教授对笔者表示,过去对处理器的要求不那么高,一颗 GPU 裸片就够了,两颗集成的成本过高。这也与此前一些业内观点一致。有评论甚至认为,对 GPU 需求最大的游戏领域,这样的设计并无价值。

2020 年初,时任 AMD Radeon 技术事业部工程研发高级副总裁的 David Wang 在接受外媒采访时就表示,多裸片集成的 GPU 几乎不可能出现在 2021 年发布的 Navi 系列产品中,“我们正在研究 MCM 架构,”他说,“但我们尚未得出结论,这是一种可以应用于传统游戏 GPU 的架构。”

市场未成气候外,技术难点则是 GPU 裸片集成的最大痛点。据于大全介绍,与 CPU+Memory 或 GPU+Memory 的裸片集成相比,GPU+GPU 的裸片集成最大的难点在于线路更细更密,就需要更多的接口(I / O),为此,就需要将用于引出裸片信号的凸点间距缩小到 50/40um 规格以下。

红框标注为凸点;图源:英特尔

后来者苹果弯道超车 台积电无凸点技术帮了大忙?

从目前业内最前沿技术来看,凸点间距缩小到 20um 以下已成为 2.5D / 3D 封装的一大门槛,英特尔、台积电均已将此作为先进封装的研发重点,例如英特尔的 Foveros 就将凸点间距缩小到 10um,而台积电的想法更加跳跃,提出了“无凸点”互连方法 SoIC,而这或许正是帮助苹果弯道超车的利器。

从 C4 凸点到无凸点;图源:台积电

根据台积电此前介绍,SoIC 是对前道芯片堆叠技术的统称,主要特征是不再使用后道集成所用的凸点技术,转而直接将裸片堆叠到一起。这种方法除了没有“凸点间距”这一紧箍咒外,还能大大降低热阻,不过缺点是必须在芯片最开始设计时就要一起被确定,技术要求自然更高。

据于大全介绍,苹果很早就开始与台积电共同研究无凸点连接方法,因此其也推测,正是这种技术,帮助苹果 M1 Ultra 实现了 GPU 裸片集成。“(裸片与裸片间互联)最终的解决方案就是无凸点,就是上下裸片之间铜对铜、介质层对介质层的这种键合。”于大全说。

这种推论是有理由成立的。虽然苹果在通稿中仅透露使用了在 2.5D 封装常用的硅中介层,但结合苹果官方给出的宣传视频和动画模型来看,似乎使用了某种小型 Si 桥,在生产中实际上与英特尔的 EMIB 或 AMD 的 Elevated Fanout Bridge (EFB)相似,两者均无凸点设计。

除此之外,苹果是否为其 GPU 裸片集成设计了新的接口 IP 也让人浮想。这一点在苹果的新闻通稿中未置一词,但从技术实现上来看,接口 IP 的重要性几乎仅次于微凸点和 TSV 技术。于大全也表示,接口 I / O 变多,必须要采用新的解决方案。这也是英伟达、AMD 此前的重要发力点。

AMD 于 2020 年初宣布,将 Infinity Fabric 总线互联技术升级至 Infinity Architecture,除了支持 CPU-CPU 集成外,还支持最多 8 个 GPU 芯片的连接以及 CPU-GPU 集成。同时表示,其新一代 El Capitan 超级计算机将搭载 Infinity Architecture,Genoa EPYC 基于 Zen 4 架构,1 个 CPU 与 4 个 GPU 裸片集成。

英伟达早在 2014 年即推出了 NVLINK,实现了芯片层级的 GPU 的高速互联,2016 年,发布了搭载 NVLINK 的第一款产品 P100,此后不断进行更新换代,并在 NVLINK 的基础上推出了 NVIDIA NVSwitch,可在单个服务器节点中支持 8-16 个全互联的 GPU,实现更高速度的通信。

需要指出的是,在这一层面上,苹果方面的进展目前只能停留在猜测阶段,但苹果从来不会在技术不成熟的时候就推出产品,可以试图推断,苹果虽然并未在新闻稿中提到接口 IP,但并不代表其在此方面并无突破,更大的可能是其对关键技术仍然有所保留。

写在最后

无论如何,M1 Ultra 的推出,除了再次拔高外界对苹果芯片能力的预期之外,还将 GPU 能力的扩展真正与先进封装绑定了起来,虽然 GPU 进入多裸片集成时代是早就被预测的,但被产品搭载进入商业化量产是完全不同的概念,且实现这一目标的是这一市场的新入者苹果,就更加耐人寻味。

这或许将意味着,在 GPU 领域,先进封装有望成为 X 因素,打破当前英特尔、AMD、英伟达三强争霸的格局,而掌握最高端先进封装技术的台积电亦或是英特尔,将拥有更大的话语权。

希望看到您的想法,请您发表评论x