专栏观察

文心大模型踏上新征程:读懂产业刚需,摸清落地路径

作为深度学习领域最大规模的开发者盛会,Wave Summit深度学习开发者峰会已经进入到第四个年头。

和2019年首届峰会时的情形做个对比的话,人工智能的产业应用落地有着肉眼可见的进步:正在从部分场景渗透到千行百业,由局部探索升级为全面落地,人工智能技术的通用性越来越强,不再是少数几家科技巨头的专属,而是一步步向普惠AI演进,同时中国的产业智能化进程也从破局阶段进入了深水区。

当一个行业进入“深水区”的时候,往往也伴随着新的瓶颈:算力、算法、数据等要素应如何满足;人工智能技术如何快速下沉到碎片化的场景;百万级的人才缺口如何填补……这些繁琐且迫切的挑战直接关系着AI产业化的成色。

2019年就锚定“工业大生产”的飞桨,自然也在思索上述问题的解法,并在Wave Summit 2022上给出了自己的思路。

01 被寄予厚望的“大模型”

自从GPT-3在人工智能研究领域“出圈”后,谷歌、微软、英伟达、百度等科技巨头迅速掀起了一场比拼资金和人才的“军备竞赛”。

OpenAI在2020年发布的NLP预训练模型GPT-3,模型参数达到了1750亿个;谷歌在2021年初发布的Switch Transformer,对外宣称是万亿级的模型;微软和英伟达在当年11月完成了5300亿参数的MT-NLG,为此烧坏了4480块CPU……

中国的科技企业同样下场参战。百度在2019年就开始深耕预训练模型,当年3月发布了中国首个正式开放的预训练模型ERNIE1.0,并在2021年12月联合鹏城实验室发布了全球首个知识增强的千亿大模型——2600亿参数规模的鹏城-百度·文心大模型。华为、阿里、浪潮等也纷纷发力大模型,平均的模型参数超过百亿级。

为何科技巨头们对预训练大模型寄予厚望?其中的原因离不开预训练技术的诱人前景:可以用自监督学习的方法让模型对海量无标注数据中的规律和知识进行提炼、学习,当面向任务和场景应用时,只需要少量的任务标注数据,就能通过持续微调得到在应用场景中非常好用的模型。

预训练大模型就像是找到了从“原油”中提炼“成品油”的方法。意味着开发者可以将天然存在的大量数据利用起来,摆脱了对精标数据的深度依赖,有望彻底解决应用场景碎片化的困扰。

不过,“大模型”在落地过程中的痛点也很直接。

随着“大模型”越变越大,对计算和存储成本的消耗自然也越来越大;当大模型训练好去使用时,模型太“大”会让推理过程变得十分缓慢;倘若只是调整大模型中的一些参数,下游任务的适配也是一件复杂的事。所以现阶段很多科研机构只是在训练大模型,应用却处于非常低的水平。

但文心大模型让外界看到了另一种可能:

某大型保险公司基于文心大模型中的文心ERNIE大模型的能力,实现了对保险合同中条款文本的自动解析识别,可以智能提取39个维度的关键信息,工作效率提升了30倍;化合物表征大模型文心HELIX-GEM被应用于医药研发,可以一次性预测50多种药物代谢动力学相关的指标,且综合效果超过其他机器学习方法4%以上;基于文心ERNIE的搜索召回和排序大模型上线后,为百度的搜索召回模块带来了3.96%的效果提升,排序模块带来了6.00%的效果提升……

02 业界首发行业大模型

对于文心大模型在“实用性”方面远超同类产品的秘密,飞桨在Wave Summit 2022深度学习开发者峰会上公布了答案。

按照百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜的说法,大模型技术与真实场景需求的有效匹配是落地要解决的关键问题,并给出支撑大模型产业落地的三个关键路径:建设更适配场景需求的大模型体系,提供全流程支持应用落地的工具和方法,营造激发创新的开放生态。

大模型体系涵盖基础大模型、任务大模型和行业大模型。飞桨在Wave Summit 2022深度学习开发者峰会上一口气发布了10个大模型,再次刷新了文心全景图,模型体系格局初现。

其中的焦点莫过于业内首发的行业大模型,核心特色是“行业知识增强”,即基于通用数据训练的文心大模型,加上挖掘行业应用场景中,大量存在的行业特有大数据和知识,进一步提升大模型对行业应用的适配性。

在能源电力行业,百度和国家电网探索出了行业大模型机制。基于通用的文心大模型,百度在海量数据中挖掘了电力行业数据,引入电力业务积累的样本数据和特有知识,并且在训练中结合双方在预训练算法和电力领域业务与算法的经验,设计了电力领域实体判别、电力领域文档判别等算法作为预训练任务,让文心大模型深入学习电力专业知识,打造出了国网-百度.文心大模型。

相似的思路被应用在金融领域,百度和浦发银行联合研发了金融行业大模型——浦发-百度.文心大模型。基于文心大模型进行行业数据挖掘,结合浦发场景积累的行业数据与知识,双方技术和业务专家一起设计了针对性的财报领域判别、金融客服问答匹配等预训练任务,让文心大模型学习到金融行业的知识,并在浦发典型任务应用效果显著提升。

不夸张地说,文心大模型与伙伴联合探索出的行业大模型方法,让大模型向行业场景走进了一大步。

工具和平台包括多种数据预处理工具、多样化的精调工具、高性能的部署方案、丰富的预制任务构成的大模型套件,大模型API服务和面向不同能力开发者的EasyDL和BML开发平台。目前EasyDL和BML上有超过1万名开发者基于文心大模型开发,创建了超过3万个任务,应用到输电通路巡检、零部件瑕疵检测、农业病虫害识别等场景中。

同时为了进一步拉近大模型和开发者的距离,飞桨上线了基于文心大模型的旸谷大模型创意与探索社区,试图让用户零距离感受文心大模型的魅力和应用创新潜力。《淮南子》一书中将“旸谷”解释为“日出的地方”,或许也承载了百度对于大模型的寄托,大模型的价值不在于有多少量级的模型参数,在于能否让开发者方便地将智能化能力带到千行百业。

如果说文心大模型的三个关键路径扫清了大模型的落地障碍,让路径得以跑通并规模化服务工业大生产的力量,还要归功于飞桨的训练推理一体化技术。

在训练层面,飞桨自主研发了端到端自适应分布式架构,既包含了并行训练策略的创新,也包含针对异构硬件的自适应并行训练支持,打造了框架与算力、算法相结合三位一体的大模型训练解决方案,实现了端到端的极致性能优化;在推理层面,飞桨推出了针对大模型的压缩、推理、服务化全流程部署方案,拥有业内领先性能,并已支撑自然语言理解、对话、跨模态生成等各类大模型的在线应用。

做一个总结的话,文心大模型所考量的不单单是大模型的优良特性,还在打通规模化部署的最后一公里,让强大的AI能力走出实验室、走进场景中。

03 “护航”中国产业智能化

飞桨围绕文心大模型产业级应用的探索,似乎并不让人感到意外,甚至说是一种可以预见的必然结果。

2019年的首届Wave Summit深度学习开发者峰会上,百度CTO王海峰博士就前瞻性地提出“深度学习正在推动人工智能进入工业大生产阶段”,并确立了飞桨“源于产业实践,服务于产业应用”的建设思路。

三年时间里,这一观点已经在飞桨的实践中得到验证。百度CTO、深度学习技术及应用国家工程研究中心主任在王海峰Wave Summit 2022上介绍,在AI工业大生产阶段,深度学习技术的通用性越来越强、深度学习平台的标准化、自动化和模块化特征越来越显著、深度学习应用越来越广泛且深入,已经遍地开花。

文心大模型折射出的仅仅是飞桨“护航”产业智能化的一个侧面,为了降低人工智能的产业应用门槛,飞桨在技术、场景、生态上的深化远不止于此。

比如在技术维度上,飞桨在V2.3的版本中升级了定制开发、高性能训练、自动化压缩、高性能推理等核心能力。

为了满足高阶开发者的深度定制开发需求,飞桨推出了高复用性算子库,典型算子内核的代码量降低到了行业内的领先水平;通过对通用异构参数服务器架构升级,适配新硬件代码量从万行减少到了千行。同时针对开发者性能调优的困难,推出了业内首个全流程性能自动调优方案,实现了关键环节感知硬件特性自动调优。

而在模型的推理部署方面,飞桨推出了业内首个自动化压缩功能,通过蒸馏微调解除了对模型训练代码的依赖,可以自动选择最优的压缩方案;特别是对于多算力中心数据、算力共享的场景,飞桨推出了业内首个异构多云自适应分布式训练架构,帮助客户利用多个算力中心联合训练进行算力共享和知识共享。

比如在场景维度上,飞桨深入结合场景需要发布了训推一体导航图、产业模型选型工具、飞桨移动工作站,为AI应用落地提供了“快速直达目的地的智能导航”和一站式便携方案;发布PaddleScience赛桨,促进了数据驱动和理论推演两大科研范式的深度融合,加速前沿技术创新和应用落地;以及深度学习实践教辅书,助力AI人才的培养。

站在开发者的视角上,飞桨在场景落地方面不可谓不贴心:可以利用训推一体导航图,实现开发、训练到推理部署的全流程智能导航;可以根据产业模型选型工具的推荐选择模型,配合使用产业实践范例,照着流程实施就能进行模型落地;飞桨的产业级开源算法已经超过500个,其中被誉为“神器”的PP系列模型已经从13个增加到23个,由于PP系列模型对精度和速度的平衡做到了极致,可以省去大量的人力开发成本……

再比如飞桨大航海2.0新增了面向三个领域的共创计划,包括飞桨产业实践范例库、飞桨AI for Science,以及飞桨硬件生态共创计划。

值得一提的是,飞桨和硬件伙伴的合作也在逐渐深入。2020年“共聚”,飞桨与13家硬件伙伴联合发起了飞桨硬件生态圈,促进AI产业链的适配升级;2021年“共研”,飞桨与硬件伙伴软硬一体联合优化,适配飞桨的芯片/IP超过30种。有理由相信,随着飞桨与合作伙伴在厂商版飞桨框架、建设模型库、开发课程等方面的通力合作,将更好地服务开发者。

隐藏在这些新动作背后的,恰恰是飞桨对中国产业刚需的深刻洞察,既在解决人工智能在应用时的一系列棘手问题,也为千行百业的智能化升级指明了方向,中国的产业界正在进入“普惠AI”的时代。

04 写在最后

每一次工业革命的爆发,都离不开通用性技术的普及。

人工智能是否是第四次工业革命的通用性技术?至少在飞桨的示范下,答案已经越来越确定。无论是大模型的产业化落地,还是深度学习框架本身的朝着产业级、低门槛的持续演变,都诠释了人工智能作为通用性技术的潜力。

飞桨的征程还在继续,但智能化的未来已经触手可及。

希望看到您的想法,请您发表评论x