深度学习的历史并不算长,却呈现出了清晰的代际变迁。
在深度学习框架出现前,开发者需要进行很多繁重的工作,包括算法、算力和数据,基本处于石器时代的阶段;
深度学习框架在2012年萌芽后,陆续出现了 Caffe、Chainer 、Theano等框架,深度学习开始进入到青铜时代;
谷歌、百度、Facebook等互联网巨头进场后,凭借强大的应用场景和底层能力,深度学习正式迈入了铁器时代。
之后深度学习框架越来越多,训练能力和可用性也越来越强,特别是TensorFlow、PyTorch、飞桨几乎占据深度学习框架95%以上市场份额的局面下,业界陆续出现了这样一种声音:人工智能何时进入大规模产业化应用的工业大生产时代?
日前结束的Wave Summit 2021深度学习开发者峰会上,持续进化的飞桨已经给出了确切的答案。
01 逼近产业爆发的临界点
百度的AI布局始于2010年,但2016年是个特殊的时间节点,这一年百度正式开源了自家的深度学习框架飞桨,不仅填补了国内深度学习框架的市场空白,也为中国开源力量的崛起埋下了伏笔。
有别于一些学术性质的开源框架,飞桨身上有着典型的产业标签,为了让深度学习从一门技术走进千行万业的产业世界,飞桨的每一次进化都在尝试降低深度学习的开发门槛,让技术可以顺畅的转化为社会生产力。而每年两次的Wave Summit深度学习开发者峰会,可以说是洞察飞桨产业化进程的风向标。
2019年冬天,飞桨一口气带来了21项全新发布和重要升级,其中端到端开发套件成为开发者们讨论的核心焦点。涵盖语义理解、目标检测、图像分割和点击率预估的四大端到端开发套件,旨在通过模块化的设计和端到端的体验,满足企业低成本开发和快速集成需求,进一步推动深度学习的产业落地。
2021年的Wave Summit 深度学习开发者峰会期间,飞桨在稳定性、兼容性和成熟度的基础上,再次为产业智能化开足马力,不断逼近AI在产业深处爆发的临界点:
全新发布飞桨开源框架V2.1,对自动混合精度、动态图、高层API等进行了优化和增强。尤其是自定义算子功能的全面升级,进一步降低了开发者自定义算子的学习与开发成本,并大幅提升了开发的灵活性;
分布式训练方面,发布大规模图检索引擎,支持万亿边的图存储和检索,大规模图模型训练架构支持网易云音乐等企业大规模应用落地。
模型套件方面,文心ERNIE全新开源发布 4大预训练模型,知识与深度学习相结合实现知识增强的语义理解,不仅仅能理解语言,还可以理解图像,实现统一的跨模态语义理解。
部署方面,飞桨提供全面的推理部署工具链,重磅发布推理部署导航图,其中已验证300多条部署通路,助力开发者打通AI应用的“最后一公里”。
飞桨企业版在EasyDL、BML“两翼”升级的同时,还开放了飞桨企业版的“核”——PaddleFlow,以云原生、高性能、轻量易用的特色,专为AI平台开发者提供核心能力并赋能更多细分场景和深度定制的AI平台。
飞桨的进化历程无疑印证了百度CTO王海峰对于人工智能技术和产业发展的思考:一是融合创新,多技术融合创新、深度学习平台与芯片软硬一体优化、人工智能技术与应用场景融合创新发展的趋势愈加明显;二是降低门槛,随着人工智能技术在各行业的渗透,面向不同应用场景,高效满足不同的开发者需求,持续降低门槛非常关键。
门槛的大幅降低,加快了人工智能应用的多样化和规模化,也加快了产业智能化进程。
02 抹平算法和算力的鸿沟
对于深度学习框架的价值,百度CTO王海峰曾经有过一个恰当的比喻:“深度学习框架起到承上启下的作用,下接芯片和大型计算机系统,上承各种业务模型与行业应用,是智能时代的操作系统”。
单单只有开源深度学习框架的进化,恐怕还不足以将百万计的开发者们“摆渡”到工业大生产的彼岸。毕竟人工智能的三要素包括算法、算力和数据,仅仅是跨越算法和算力之间的鸿沟,就足以将不少开发者拒之门外。
目前英伟达主导的GPU在神经网络训练中有着举足轻重的地位,可英伟达等硬件厂商并没有能力对所有的框架进行适配,只能选择TensorFlow、PyTorch和飞桨三个最成熟的框架进行优化。
结果就是,倘若深度学习框架不对芯片进行适配优化,再好的芯片也只是一堆废铁;假如芯片和深度学习框架间的桥梁不打通,“智能时代操作系统”的实用价值无疑要大打折扣。
飞桨给出的答案是主动担当起打造硬件生态的重任。
根据百度集团副总裁吴甜在Wave Summit 2021上披露的数据,飞桨已经和22家硬件厂商合作,完成和正在适配的芯片或IP达到31款,名单包括百度昆仑、英特尔、英伟达、华为、曙光、瑞芯微、安霸等等。
目前飞桨在硬件生态方面已经处于业界领先地位,不仅涵盖了从训练到部署、从通用型计算硬件到专用的AI加速硬件、从服务端到移动端的硬件适配和优化,还和一些企业达成了深度合作。比如飞桨通过和英特尔OneAPI的合作,为开发者提供了跨平台集成的开发路径;通过集成TensorRT的加速能力,协助英伟达在GPU领域实现了高效推理。
值得一提的是,身为深度学习国产之光的飞桨,和飞腾、海光、鲲鹏等国内芯片厂商进行了深入合作,仅在海光DCU上适配的模型就已经超过50个,中国自主可控的“操作系统+芯片”生态已逐步成型。
其实个中原因并不难理解,人工智能的大规模落地已经步入快车道,而飞桨恰恰是各行各业走向智能化的重要驱动力。
躬身构建软硬件生态,抹平算法和算力之间的鸿沟,进一步打破深度学习的应用壁垒,既是百度作为人工智能头雁的应有之义,也是飞桨重塑生产力与生产关系的初心。
03 为产业智能化全面护航
每一次工业革命都不是纯粹的技术革命,正在进行的第四次工业革命自然也不例外,产业智能化的过程中仍存在诸多隐形制约,诸如专业人才的匮乏、产业氛围的缺失、市场链条的不完善等等。
百度俨然意识到了这些问题,WAVE SUMMIT 2021深度学习开发者峰会除了主论坛外,百度还设置了5个平行论坛,除了前面提到的飞桨框架的创新升级、智能硬件生态,将不小的篇幅留给了开源项目分享、产业实践案例和融合人才培养,正在从多个维度强化飞桨的合作生态。
首先是开源生态的建设。
繁荣的开源社区离不开优秀的开源项目,飞桨深谙其中的道理,不仅在平行论坛中邀请到知名开源项目的技术负责人各抒己见,还顺势推出了面向核心开发者的领航计划,以PPDE、PPSIG特殊兴趣小组、飞桨领航团等组织形式,进行开源社区和开源项目合作。
然后是产业氛围的培养。
针对产业应用落地中遇到的种种挑战,飞桨选择和企业负责人、开发者一同探索产业智能化的有效路径,并在全新升级的《飞桨企业案例精选》中囊括了9大行业、34个企业智能化案例的技术思路。同时飞桨还在3月份启动技术伙伴计划,基于百度已有的AI产业落地经验深度赋能行业智能化企业,实现行业AI技术方案的输出、研讨和共创,短短两个月的时间里就有130多家企业报名。
最后是产教融合的探索。
AI人才的不足已然成了社会的常态问题,在AICA首席架构师培养计划,AI快车道,以赛促学等人才培养机制外,飞桨还将目光瞄向了产教融合。比如飞桨和清华大学、吉林大学、郑州大学进行了创新创业实验室的合作签约,一同打造产业智能化的预备军;此外百度已经累计培训570所高校的2000多名教师,其中226所高校已经基于飞桨开设学分课程,以实际行动点燃了中国AI人才培养的星星之火。
除此之外,飞桨还将陆续投入15亿元资金和资源,全面开启飞桨“大航海”计划,涵盖启航、护航、领航三大生态航道。其中“大航海”护航计划,将在未来三年投入10亿元资金,支持10万家企业智能化升级,与产业界一起培育百万AI人才。
做一个总结的话,飞桨已经在一定范围内验证了人工智能的落地价值,下一阶段的目标正是形成以社会化协作为特征的AI大生产。所以飞桨并未固守深度学习框架的角色,而是在正确的方向上笃定与坚持,深入到产业的细枝末节,从多个维度为产业智能化护航,为中国的新一轮工业革命护航。
04 写在最后
百度集团副总裁吴甜在演讲中讲述了百度对于人工智能进入工业大生产阶段的路径分析:
第一阶段是企业中有少数先行人员尝试引入AI进行原型验证,称之为AI先行者探路阶段;当进行了验证产生效益后,会从个人实践转变成建设团队来学习和应用AI,称之为AI工作坊应用阶段;当企业进行大量的AI应用,几百、几千人一起工作,多人多任务协同生产,就进入了AI工业大生产阶段,更长期看,还会实现社会化协同大生产。
“AI先行者探路”阶段,需要有适配场景的模型、调优工具以及部署支持,实现AI算法的快速验证落地,解决实际问题。飞桨提供了在工业场景中实践打磨过的丰富模型库,多端多平台的推理部署工具链,全面灵活的硬件适配架构和生态基础,保障AI先行者探路成功。
从个人实践到带领团队的“AI工作坊应用”阶段,面临的是团队里专业AI研发人数少,不同专业背景的成员要一起快速学习AI模型研发的问题。飞桨丰富且多层次的产品结构,涵盖可视化界面、场景类套件、算法类套件、模型库、核心框架,非常适用于这个阶段的团队应用AI创新,同时这个过程中团队成员也会持续成长,实现AI能力研发的进阶。
到了“AI工业大生产”阶段,多人多任务协同生产,算力机器和开发人员的效能提升是关键。飞桨企业级AI开发平台提供高效的算力管理与调度、全流程的集成开发环境,平台化赋能AI大生产。再进一步发展,从企业内部的多人多任务分工协同,还会走向全社会的AI大生产协同。
从飞桨平台的数据可以看到,随着人工智能和产业的融合,飞桨已经聚集了320万开发者,服务了12万企业,创建了36万模型,覆盖到了工业、能源、金融、医疗、农业、城市管理、交通、信息技术等各种各样的行业和场景。而且,这组数据还在持续增长。相信未来繁荣的社会化AI大生产协同一定能实现。
这大抵就是飞桨持续进化的内部节奏,折射到整个产业层面上,飞桨正在携手各行各业生态伙伴和开发者,促进产业链与创新链的深度融合,加速人工智能进入到规模化应用的工业大生产时代。