互联网

天数智芯首款AI芯片,能效比提高10倍,却担心盈亏失衡?

 

  编辑 | 谢治贤

  出品 | 于见(ID:mpyujian)

  由于数据的海量激增以及计算能力的不断提高,人工智能产业的发展呈现出激荡的趋势。但无论是数据采集、存储还是计算能力的提高都离不开芯片。在当前人工智能产业的激烈竞争中,人工智能芯片成为最具有战略意义的一部分。

  前不久,天数智芯在杭州召开新品发布会,发布了首款高性能边缘端人工智能推理芯片Iluvatar CoreX I,并正式上线。芯片作为智能产业发展的核心灵魂。芯片产品的发布自然是行业进程中的“高光时刻”。

  这一面向边缘人工智能推理的芯片具有高精度的特点,据发布会介绍,其峰值计算能力效率是主流竞争对手的10倍,应用迁移只需1-2周(其他芯片需要1-3个月)。这些技术和性能特征显然很有吸引力,但智能核心将带来的变化不能仅来自硬件。

  作为传统产业生命周期较长的产品,硬件芯片不仅要支持以人工智能为代表的当今数据驱动应用,还要承载过去长期商业智能的大规模需求,以及应用未来可能出现的算法变化,提供通用计算支持,这给天数智芯产品战略和软硬件结合综合能力出了一道难题。

  芯片提升之处

  像大多数公司一样,天数智芯推出AI芯片以满足数据时代的需要为目的。然而,天数智芯对边缘AI芯片的理解是不同的。天数智芯副总裁梁斌在新产品发布会上说:我们发现目前的边缘端芯片产品解决方案有四个痛点:第一,大多数产品关注的是低精度、低功耗、低计算能力的应用场景。为了追求性价比,在一定程度上牺牲了对精度的要求;第二,人工智能芯片产品大多以消费类产品为主,不能满足部分工业产品的要求;第三,由于大部分芯片产品采用了自行开发的硬件架构,只能用软件编译工具与主流框架兼容,现有的应用迁移成本非常高且耗时较长;第四,由于芯片的架构和开发系统都是自主研发的,用户开发门槛很高,很多端到端的需求无法满足。

  针对这些痛点,天数智芯提出了解决方案。Iluvatar CoreX I芯片采用16nm技术和完全自主开发的数据流架构。核心可提供32路数据并行处理能力,具有良好的可扩展性和五大亮点:一是可以提供FP16的高精度,提高准确率;二是在功耗小于5瓦的情况下,每片芯片可提供高达4.8TFLOPS的运算能力和每秒1000帧的图像处理能力;三是可以提供本机TensorFlow和透明迁移的兼容性;四是能以高稳定性满足工业需求,以高性价比满足消费需求;五是能提供一站式、端到端的解决方案,为开发用户提供软硬件结合的开发环境。这是Iluvatar CoreX I在芯片上的五个亮点。

  此外,CPU灵活性和计算能力可扩展性也得到了提高。所谓CPU的灵活性是CoreX I AI加速芯片可以适应x86 CPU、ARM CPU和国内自主开发的CPU,如龙芯CPU。可扩展性是指与PCIE 4.0的完全集成。通过单卡、双卡和四卡的配置,可以有效地线性扩展计算能力,控制延时。据悉,在8卡配置中,单机可提供38TFLOPS以上的计算能力。

  梁斌指出,通过对主流算法的优化,基于数据流的高能高效运行、高带宽和大容量的本地存储器,Iluvatar CoreX I进一步弥补了目前主流竞争对手计算能力不足的核心问题。根据梁斌给出的数据,目前市面上的15瓦AI芯片提供的计算能力为1.5TFLOPS,能效比约为0.1。天数智芯片Iluvatar CoreX I在功耗低于4.7W的情况下能提供4.8TFLOPS的计算能力,与主流竞争对手相比,提供了10倍以上的能效比。

  用户场景应用受限

  不过,客户对计算能力的需求是为过去、现在和未来的负载都能提供很好的支撑。用户并不关注峰值数据,他们更关心实际场景中的性能改进。因此,虽然Iluvatar CoreX I能效比数据让人眼前一亮,但在注重用户的使用上,上面提到的CPU灵活性和可扩展性,以及透明迁移必须落到实际应用场景才能见效。

  人工智能应用通常包括几个方面,芯片、软件库、TensorFlow操作符、TensorFlow API函数。要实现多样的场景应用性,需通过与成熟的开发生态系统进行原生兼容,客户无需任何代码更改,以实现应用程序迁移。市面上大多数人工智能芯片产品都是基于底层软件库和自主开发的编译器SDK。通过耗时的代码转换,大多数客户的应用程序需要很长的时间才能适应,而这也对天数智芯造成了不少困难。

  为了更好地满足客户的需求,天数智芯基于新的人工智能芯片提供了两大解决方案:边缘端计算系统板和PCIe加速卡。边缘计算系统板主要针对边缘端应用的嵌入式集成解决方案的应用场景,如智能垃圾分类、智能零售、智能监控等。同时,也可以在边缘服务器上直接配置PCIe边缘加速卡,单卡配置可以支持一颗芯片,或两到四颗芯片。

  还需要注意的是,天数智芯必须进一步优化解决边缘端、边缘云和中心云三大系列芯片,因为这些芯片的设计是为了更好地满足人工智能和5G的需求。

  天数智芯负责人也意识到:“我们下一个要发布的芯片是高端云训练GPGPU芯片。基于7nm工艺,采用自主研发的GPGPU芯片架构,提供混合计算能力和CUDA本机兼容性。第三款芯片是中端GPGPU芯片,该芯片还将采用先进工艺,提供混合精度计算能力和CUDA本机兼容性。它也是一个完全自主开发的GPGPU架构,专注于图形和图像的边缘云推理场景。”

  可见,Iluvatar CoreX I在场景应用上还有待补充,无论是适配其它系列芯片还是场景迁移能力,需在实际应用中进一步研发完善。

  软硬件集成困难

  从软件上看,天数智芯推出了四代SkyDiscovery,即人工智能软件平台,提供一站式服务,用于数据集成、智能数据存储、模型评估服务部署等一站式服务。SkyDiscovery的作用是连接开源生态系统。该工具可以在开源生态系统中实现应用程序的移植,并使现有的开源系统解决方案的扩展性、可用性、可靠性和性能提升。

  但这种开源系统的衔接也更容易让顾客离开。为此,在连接开源生态系统后,必须根据客户的需求提供一些特殊的支持。一旦企业这样部署后,用户会在撤离的时候思考可替代性的问题,于是就给客户的离开多设置了一层关口。

  从计算能力的角度来看,这个平台应该为数据应用提供一个接口集线器。天数智芯需要做的是一个通用架构处理器,支持通用的同时并行计算。未来,随着市场的成熟,人工智能可以集成到架构中。

  显然,天数智芯目前只是单纯盯着软硬件通用标准。其负责人认为:很难预测三到五年后会出现什么样的算法,以及提取数据价值的最有效方法是什么。现在只能着重于它的通用性,而对于其未来的生命周期,是很难预估的。

  天数智芯方面称,希望用20年时间,使我们自主知识产权的芯片和软件成为世界一流的入门级产品。这意味着天数智芯正在做一件大事,但是大事是困难的。

  目前,天数智芯提供了边缘计算系统板卡和PCIe加速卡,但在软硬件集成上还没有切实解决中国客户的痛点。中国客户的特点重在落到实处的解决方案和应用场景。这需要天数智芯在芯片的基础上,进一步通过软件积累新的价值,在商业上也实现更好的利用。

  据了解,天数智芯以往的软硬件结合方案已被客户应用于医疗、安保监控等行业,但在智能制造、智能新零售、智能医疗、智能园区、智能垃圾分类等多行业还未开展部署。

  在发布会上,天数智芯展示了软硬件产品在药物识别、垃圾分类、人脸识别等方面的应用。以此希望与更多合作伙伴合作,在实际应用中弥补缺漏,推动石油、天然气勘探、交通运输、风电等为代表的能源产业以及船舶制造等大型装备制造业的智能化解决方案落地,最终推动智能制造业互联网的发展。

  天数智芯智能核心刚刚开完务虚会,公司希望用3年左右的时间,在中国整个工业制造领域建立一个基于天数智芯的工业互联网产业联盟。也希望在三年左右的时间里,既能收支平衡,又能有足够的利润扩大基础投资队伍,使产品有机地发展20年,达到国际一流的入门水平。

  此前,天数智芯刚刚完成了B轮融资,金额达数亿元,由大钲资本、Princeville Capital领投,上海电气香港有限公司、邦盛资本等跟投。经历了创业期的无知、野蛮成长和颠簸,天数智芯经历了一个完整的创业闭环。但如何形成软硬件协同,突破用户场景落地困难等局面,成了天数智芯短期内绕不开的难题,这也是天数智芯实现计划愿景的必经路径。

[!--page.stats—]