admin管理员组

文章数量:1530517

2024年6月5日发(作者:)

百度:面对海量数据的绿巨人

作者:暂无

来源:《新经济导刊》 2013年第6期

文/ 本刊记者 阮晓东

面对巨大的数据处理量,百度如何通过绿色高效数据中心,在大数据时代应对节能环保要

互联网时代是一个巨人涌现的时代,如果要对中国的互联网企业做一个严谨的判断,那么

百度绝对可以说已经成长为一个巨人。百度的活力,既表现在其内部活力弥久的创新能力,也

在于其对外界强大的渗透能力。作为全球最大的中文搜索引擎,百度每天响应来自138 个国家

和地区的数十亿次请求,百度每日新增数据10TB,要处理超过100PB(1PB=1024TB)的数据,

从浩如烟海的信息中精确抓取约10 亿网页,同时索引库还拥有千亿级在线索引能力,以帮助

用户完成搜索过程。过去10 年,百度网页搜索库已从500 万猛增到了500 亿。

百度新首页上线一年以来,已经累积用户1.2 亿,增长速度达到400%。那么,面对如此

巨大的数据处理量,百度是如何通过绿色高效数据中心在大数据时代应对节能环保的要求的呢?

M1 云数据中心:PUE 第一如何取得?

2013 年4 月,在云计算发展与政策论坛召开的第三次高端会议上,百度M1云数据中心以

PUE( 数据中心的能耗指标) 2012 年平均PUE 达1.37,近12 个月平均PUE为1.36,最佳PUE

达到1.18,取得了国内PUE 第一的最佳成绩(PUE 越接近1 越好,业界的平均PUE 为2.5)。

该评估由工业和信息化部电信研究院联合国内的主流电信运营商、互联网服务提供商和设备制

造商及有关科研院所共同发起,代表着国内数据中心评估工作的最高水平。那么,M1 云数据中

心的PUE 值国内第一是如何取得的呢?

M1 云数据中心位于朝阳区酒仙桥北路9 号,原建筑为北京松下彩管厂区301 号建筑,后

由北京捷通公司改建而成。在向记者展示的幻灯片中,可以看到M1 云数据中心的主体结构:

M1 数据中心总面积为6320 平米,一层面积为5370 平米,包括机房及动力、配电等辅助区域;

二层面积为878 平米,包括办公用房;地下一层水泵房面积为72 平米。

百度云首席架构师林仕鼎说,百度云数据中心计算的主要技术领域涵盖了数据中心体系结

构、存储、计算 、超大规模系统等。

M1 数据中心由厂房改造而成,在改造过程中,采用外墙保温技术,最大限度减少室内外温

度传导。

在机房平面布局时,设置环形走廊,将机房区域设置在建筑环廊内区,最大程度减少冷量

损失;外沿为走廊区域,充分利用自然条件,减少空调开启时间,实现节能运行。

在软件架构优化方面,百度M1 数据中心,部署了百度自主开发的在线离线业务混布系统,

以及自主研发的服务器流量调度系统,在大幅提高在线机器的利用率的同时,极大限度地降低

业务为应对突发事件而预留的冗余服务器资源,大大提高了能效。

在硬件方面,服务器的能耗是数据中心能耗的主要部分。M1 数据中心采用了绿色节能部件

定制、固态硬盘(SSD) 应用、电源效率优化、主板改造、去除冗余、与IDC 环境结合的风扇优

化策略等多个手段,使单节点降低能耗25%,整个数据中心的计算及处理能力大幅提升。此外,

数据中心还率先使用了ARM 采用精简指令集(RISC) 的解决方案,使每台服务器的CPU 功耗降

低到原来的十分之一。

在针对另外一块主要的能耗——空调系统的改造中,M1 数据中心采用高效的冷冻水空调系

统,并结合一系列先进技术以提高制冷及空调系统能效。例如,采用水侧Freecooling 系统设

计,充分利用室外自然冷源,尽量减少冷水机组运行负荷和时间,大大降低了数据中心能耗。

另外,M1 数据中心项目中引入先进的气流优化设计手段,采用CFD(Computational Fluid

Dynamics) 辅助进行机房气流组织方案设计,优化机房设备布局、细部规格尺寸、参数设置和

维护维修策略等。在市电供电架构方面,M1 数据中心提出简化供电系统结构大胆构想,在国内

首次大规模采用市电主供,冗余电源作备份的新型供电架构,UPS 系统整体损耗降低近10%。

自行设计,打造绿色之路

目前,百度已经在多个领域展开了基于公共数据的搜索服务。2013 年2 月,国家药监局

三大数据库向百度开放,包括具有18 万余种国产和进口药品信息的药品数据库,6000 余种非

处方药(OTC) 化学药品说明书范本及中药说明书范本的药品说明书范本数据库,以及经过认证

的可向个人售药的网站的数据库信息。

2013 年4 月末,百度知道推出了知识搜索服务,针对相关领域的关键词检索提供满足用

户需求的特型展示,目前已上线的有口碑搜索、医疗搜索、答案聚合及数据图谱等功能,并同

时覆盖到PC 端与无线端。

在百度已相继引入国家药监局、中国家电维修协会、中国航空协会、中国银行业协会、北

京市卫生局等权威机构的核心数据后,2013 年5 月,全国组织机构代码管理中心又和百度公

司达成战略合作,以便为社会提供安全、准确的搜索结果。网友在百度搜索“组织机构代码查

询”可以进入专业核查工具,只要输入组织机构名称、代码、登记证号中的任意一项,就可以

了解机构类型、地址、有效期、颁发单位等重要信息,迅速判断这家组织机构是否真实、可靠。

那么,这些海量的数据,在云时代的背景下,百度如何通过有效的组织管理以及在设计理

念上来实现几十座数据中心的节能呢?在走访中记者逐渐了解到,百度除了采用一系列节能的

方法和技术,比如优化电源结构、引入变频技术,优化服务器的气流式冷水机组及使用CFD 软

件等方式来实现服务器技术的优化外,更通过一系列定制化、高效的部件方面的自我的创新来

建立中国最节能高效的云计算数据中心。

自建绿色高效数据中心

“数据中心是百度业务的载体,它支撑着海量数据存储、云平台和搜索社区等,所以百度

更加关注建设云数据中心,用云的核心驱动力来支撑业务规模发展。”百度公司技术委员会理

事长陈尚义介绍说,“百度的单体十万台服务器的数据中心,PUE 每降低0.1,一年就可为百

度节省上千万的成本,所以,打造自我的绿色高效数据中心,在大数据时代将能很好应对节能

环保、低碳的要求。”

目前,面对海量的大数据,百度正在通过自建数据中心,开发了自己的大数据存储系统,

并使用了多项新技术。目前,计划投资47.08 亿元的百度云计算(阳泉)中心已于2012 年8

月奠基,该项目预计2015 年完工。建成后的百度云计算(阳泉)中心数据存储量将超过

4000PB,可存储的信息量相当于20 多万个中国国家图书馆的藏书总量。2013 年4 月15 日,

成都市高新区与百度云签署协议,中国最大的云开发服务平台——“成都百度云开发者技术中

心”正式入驻成都高新区移动互联网大厦。此外,南京、广州、天津的百度云数据中心也都在

建设之中。

陈尚义介绍说,百度数据中心从设计之初就开始体现绿色节能的理念。在解决设备散热问

题中,百度数据中心采用集中散热、集中供电、高效部件等方法来降低能耗;在解决服务器能

耗问题中,采用SSD 解决服务器的瓶颈,降低服务器数量等方式来节约服务器耗电量。此外,

一些数据中心采取白天以商业业务为主、数据处理为辅,夜晚侧重数据处理为主的原则,来很

好分配大数据量的工作时间,进而实现了节能高效。

除了这些技术,百度最让人叹服的还有数量众多的“看家本领”,更显示其“自制”的能

力。

能力1:自制固态硬盘(SSD)。据估计,百度的数据中心存储了数百PB 的数据,其日常的

数据处理能力达到数十个PB。为了解决海量数据实时存储的巨大挑战,百度自行开发了SSD 产

品,其研发的SSD 的性能比SATA SSD 要好六倍,而且其成本只是它的10%。在南京的云计算

数据中心也进行了大规模的行业内的固态硬盘(SSD) 部署。

能力2:自行设计10Gb TOR 交换机。百度自2011 年开始研究和开发TOR 交换机的设计,

并于2012 年推出第一代10Gb 的TOR 交换机。通过使用自行设计的硬件和软件,设计制造模

块,以及DAC( 直接连接电缆),百度的10Gb TOR 的成本只相当于同样的1GB TOR 商业交换机。

目前百度的10Gb TOR 交换机能承载超过5000 台的服务器,部署在其云计算数据中心里。

能力3: 定制机架服务器。百度正在与Facebook 合作,促进和优化开源的机架服务器的

探索,这也是中国自主设计机架服务器的开源项目。定制的机架式服务器解决了百度许多问题,

如传统的主机托管数据中心空间和功率密度的限制,电缆的混乱和部署的效率低下,有助于提

高智能化管理和资产精度。在南京的云计算数据中心,百度大规模部署了ARM 服务器。据百度

说,基于ARM 的服务器使数据中心的总拥有成本(TCO) 降低了25%,提高存储密度70%。百度

已经获得开发基于ARM的服务器的10 项专利。ARM 服务器的应用,使南京的云计算数据中心

能够降低服务器总体拥有成本的10%,业务高峰时运转效率提高近10 倍。

如今,百度已经成为中国最具价值的品牌之一,英国《金融时报》将百度列为“中国十大

世界级品牌”。目前百度已经面向开发者全面开放了包括云存储、大数据智能和云计算在内的

核心云能力,为开发者提供强大的技术运营支持与推广变现保障。

作为互联网搜索的入口,百度承载着数亿网民检索需求,满足海量计算的数据中心规模将

日益庞大。

百度从软件架构、IT 设备、数据管理效率等多方面入手,致力于绿色IT 建设,将对产业

链上下游的参与起到良好的示范和带动作用。

本文标签: 百度数据中心服务器技术数据