文/陈纪英
茨威格说,“世间一切伟大的壮举总是默默完成的,世间一切智者总是深谋远略的。”
那些闪耀的群星,往往深藏功名——支持全球208亿次互动、每分钟峰值高达10亿次的春晚红包活动不宕机的算力功臣、亚洲单体规模最大的数据中心,潜伏在山西小城阳泉。
当云计算与大数据、人工智能汇合,世界就发生了翻天覆地的智变:流水线上的质检女工因为AI质检机获得了解放,被智能安防追踪的罪犯再也逃不出恢恢法网;一条重新清澈起来的河流,一片被绿植再次覆盖的荒漠;自动驾驶汽车开始自由奔驰,拥堵的道路变得通畅无阻;高清视频不再卡顿,人脸识别开始普及;等等。
01
春晚不宕机和30万座图书馆
从阳泉上空往下俯瞰,会看到一片形似熊掌的楼群,这就是百度阳泉云计算中心。
在这座以深邃的煤层和苍凉的高原为底色的山西小城,一座亚洲单体规模最大、技术最先进的数据中心潜伏七年,多少有点类似扫地僧一般的荒诞感,就连阳泉本地人,往往也很难知晓它的价值和能量。
7亿百度APP用户每一次搜索,百度地图的每一次导航,小度音箱与主人的每次互动,由Apollo系统驱动的自动驾驶汽车的每一次转弯,可能都与阳泉云计算中心息息相关。
百度阳泉云计算中心,也在支持百度智能云对内对外提供覆盖内容、能源、金融、工业等领域的外部服务等等。在二手车领域,帮助优信实现了在线VR看车,让二手车的全国购落地;在金融领域,联手农业银行打造的农行金融大脑,成为业内智能金融的探索典范;在旅游领域,帮助携程率先实现在线旅游市场的智能化升级;在短视频领域,助力百度旗下好看视频提升运营效率,降低成本,依托AI能力赋能作者,实现火箭速度的高增长;等等。
在常态服务之外,如同惊涛骇浪一般的百度春晚红包活动,则是阳泉云计算中心的高光时刻。
今年春节,百度APP的全球观众互动次数达到208亿次,春晚数据流量为每秒峰值5000万次,每分钟峰值10亿次——互联网巨头都曾先后冠名春晚红包活动,但唯一不宕机的,只有百度。
这当然要依赖于人力:阳泉云计算中心的百度员工们,几乎全部值守;贵州籍高工黄同学,退掉了提前一个月抢来的机票;暖通高工李同学,离家只有三公里,但除夕和初一连续加班30多个小时,不入家门;20多家供应商的代表也在春节期间,从全国各地汇集阳泉,等等。
更依赖的是技术和规模。“百度成为扛住春晚流量的第一家互联网公司。看似偶然,其实是必然,背后依靠的其实就是百度深厚的技术底蕴,强大的技术硬核以及高效的工程能力。”百度系统部总监张炳华说。
百度系统部总监张炳华
第一,在规模上。
作为百度自建的第一个超大规模数据中心项目,阳泉云计算中心规划建筑面积超过20万平米,服务器装机能力超过28万台。
现已建成投产12万平方米,上线服务器超过15万台,有超过300万个CPU核,存储容量超过了6EB,可存储的信息量相当于30多万个中国国家图书馆的藏书总量——后者是亚洲最大、全球第三的图书馆。
这15万台服务器,通过大带宽、低时延、无损网络,连接成为一个一键运行、智能控制、远程操控的超级计算机。
AI 计算集群
第二,在速度上。
全球观众一块抢红包时,如何保证同步进行,一致体验?
在数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过30ms(毫秒),从POP点覆盖用户的时延不超过10ms,从CDN覆盖用户的时延不超过2ms,确保用户全面覆盖和就近接入。
第三,在技术上。
作为数据中心的操盘手,张炳华很笃定也很自信,“阳泉云计算中心在国内是最大的,在全球也是领先的”。
在支持整机柜服务器的设计上,阳泉云计算中心领先了行业五六年。
行业内的惯常做法是架空地板下送风,其短板在于,服务器送到之后,需要现场一台一台上架安装,交付速度慢。但阳泉云计算中心早在2012年设计时,就全部按照整机柜交付模式设计,从卸货平台、走廊、电梯到机房全程实现无障碍交付设计。整机柜的交付效率,相比传统做法提升了20倍,春晚项目中,北京顺义机房创造了8小时安装1万台服务器的世界纪录。
而百度自主研发的“冰山”冷存储服务器,作为百度自研的高密度存储技术,实现单U18个大盘的存储密度,在业界单U存储密度最高——这是百度网盘实现大规模高速存储的基础。
而以X战警命名的X-MAN 组成的AI超级计算平台,理论算力比肩IBM研发的全球最强超算Summit——一台X-MAN服务器的计算性能,相当于几百台通用CPU服务器的算力。2016年X-MAN1.0发布以来,经历了3次架构升级,创造6项业界第一。
X-MAN构建的百度超级AI计算平台,是百度AI业务不断进化和领先的基石,如搜索、语音、图像、自然语言翻译、无人驾驶等AI场景的训练、加速、提升等等,预测准确率及训练耗时成倍级优化,图像搜索线性加速比倍级增长。
基于上述优势组成的金三角,百度才能扛出春晚红包数据带来的海啸一般的强大冲击。
春晚红包的荣耀已经结束,结束就是新的开始,春晚的新纪录,未来也不过是明天的新常态。
某种程度上,云计算中心的迭代,与信息时代向AI时代的进化同频共振,阳泉云计算中心,就是百度AI的基石。
以最普遍的图像识别为例,如何在几百上千种水果中识别出一个苹果?这背后需要基于算力,用人工智能深度神经网络进行持续训练20万次,AI就能精准识别出“苹果”。
正如百度智能云产业智能化业务负责人李硕所说,“有了百度阳泉等数据中心超大规模的计算能力,不断降低的存储成本,加上人工智能的算法和行业的知识,这三者共同促进了人工智能的变革。”
百度智能云产业智能化业务负责人李硕
02
1.09的PUE和没有空调的机房
作为开国煤都的阳泉,2018年空气质量全国倒数第五——脆弱的生态面前,阳泉云计算中心必须绿色环保,衡量这一指标的关键标准就是PUE。
这个拗口的词汇意为电力使用效率,即数据中心总能耗与IT能耗之比,PUE值越接近于1,表示效率越高。
2018年,百度阳泉云计算中心年均PUE突破了1.10,达到1.09,能源效率国内第一,比全国数据中心平均1.73的水平,提升了88%,达到国际领先水平。
这意味着该数据中心每年节省电量可达2.5亿度,相当于13万户居民一年的用电量,加上利用的风能、太阳能,每年可减少二氧化碳减排约30万吨,相当于1600万棵树一年的二氧化碳吸收量。
而从成本维度来看,电能消耗在云计算中心的运营成本中,占比高达六七成,更高的能效,更低的耗电,也意味着成本可持续的大幅下降。
阳泉中心是怎么做到的?
如果你走进阳泉云计算中心,你会发现,它不太像互联网企业的基地,更像实体企业,穿着海蓝色工服的工程师穿梭其中,他们和智能调度中心,以及高性能服务器人机耦合,在保证安全、稳定、性能的基础上,不断把PUE值逼近1。
日夜不停运转的服务器,会产生大量热量——进入机房,一股热浪就会扑面而来,传统数据中心,通常依靠空调进行散热。
但你能想到吗,在阳泉云计算中心的机房,全年大部分时间几乎不用开冷水机组,而是利用室外冷源进行免费冷却。
对于一个数据中心来说,安全永远是第一位的,阳泉云计算中心的故障预警与定位系统,可以提前故障预判(硬盘、水泵),快速精准定位,缩短故障维修时间(比如网络,故障处理时间由30min减少到5min),而可自动迭代的故障预测系统,支持硬盘故障预测,准确率超过98%。
当然,尽管系统稳定,但为了确保万无一失,“N+1”的容灾备灾机制仍然必要,“你关掉任何一个数据中心,用户端都不会受影响”,李硕说。
由于系统运转良好,除了春晚等特殊活动,数据中心技术人员几乎很少加班,“截至4月8日,阳泉云计算中心已经安全运行了1744天。”
智能控制系统,还大幅降低了人力成本,未来,阳泉中心的服务器将提升到28万台,但人员编制不会增加,硕大的园区里,除了保洁保安等物业人员外,专业工程师和7*24值班工程师一共只有几十人。
负责运维管理和招聘的林经理开玩笑说,“我们这里的人很值钱,人均管理几亿资产”。
03
从煤都到AI之城
当算力成为AI时代的水电煤后,阳泉这所位于黄土高原东部边缘的煤都,也被反哺而“智变”。
阳泉云计算中心有三成员工来自阳泉本地,还有另外三成来自山西其他区域。
林经理还记得,2012年阳泉云计算中心筹建时,数据中心人才奇缺,“不论是阳泉、还是整个山西,甚至北京,都找不到多少合适的人,我们倾向于本地化校招,自主培养”。
年近30岁的阳泉人、高工李同学,就是2012年是林经理校招的第一批应届生。刚毕业时,李高工的职业选择,曾是同学中的异类,在这里,煤矿集团、电力系统才是更稳妥的优选项。
不过,现在,他比他的同学的成长更快、收入更高,让他成为了众人羡慕的对象。已经有不少李高工的同学,来到数据中心,或者打探如何跳槽到数据中心了,数据中心的职位,成为了阳泉高收入的标杆。
其实,刚毕业时,李高工并不想留在阳泉工作。他应聘百度,是希望能到北京工作——这种以煤矿立身的小城,对于年轻人,确实并无吸引力。
选择阳泉总要付出或大或小的代价,比如分离,比如孤独。
2012年进入百度时,林经理从没预想过要付出常年分居的代价。入职7年,孩子从两岁到上小学二年级了,如今,他每月依然有十几天呆在阳泉。
而李高工有时会感到孤独,在阳泉,技术人员还是太少,没地方线下交流,而随他定居阳泉的妻子,因为找不到就业机会,只能做全职主妇。
但林经理不后悔,“媳妇很支持,我也不后悔,我们各项指标都是国内是第一了”。百度的平台成就了自己。
一度对家乡有点失望的李高工,现在颇感自豪。连续五年春节值守加班,守护机房的绝对安全,保障用户的流畅体验,李高工觉得很值得。
孤注一掷、初心不悔,如同圣经中的使徒保罗,“那美好的仗我已经打过了;当跑的路我已经跑尽了;所信的道我已经守住了”,一切代价都因参与其中而变得可以接受了。
数据中心的落地,也在改变“煤都”,阳泉逐渐走入云端,变身为智慧城市。
去年12月,百度与阳泉签署了战略合作协议,双方进一步加深合作。未来,阳泉将成为西部首个AI之城,交通、环保、城管、医疗、旅游、物流、工业制造等领域,基于百度大脑、自动驾驶、智能交通等技术赋能,都要逐渐实现AI智变。
未来,类似李高工这样的AI就业新职人,在阳泉也会越来越多,百度正在帮助阳泉孵化一大批AI数据标注企业,带动一批AI解决方案企业落地阳泉——他或许不会再感到孤独了。
百度之于阳泉,也许就像亚马逊之于西雅图,后者得以成就全球的云计算之城——早在2013年,阳泉市就被住建部评为首批国家智慧城市试点。
如同不可见的黑洞,吸引力之大连光都无法逃离,ABC(AI、Big Data、Cloud Computing)的汹汹大势,也是无法逃逸的潮流,而存储、传输、运算着浩瀚数据的云计算中心,就如同隐藏着AI时代全部数据秘密的黑洞。我们在阳泉云计算中心,管窥到了中国步入ABC时代的宏大远景。