数据机房断电危害及机房动力设备监控解决方案

虽然Google确实使用可再生能源来给许多设备供电,但这些设备目前没有任何迹象表明这些设备是大量用在Google的数据中心里的。即使是最先
进的太阳能设计也只能给数据中心提供16%的小部分电力,而且使用太阳能还要面对太阳下山的问题。

企业数据中心建设涉及建筑施工、强电、弱电、暖通制冷、网络、消防、监控、机柜微环境和装饰装修等多个工序,几十个关键环节,上千种产品和型号,这些基础设施还要与上层服务器、存储和网络等IT系统进行有机的配合,其复杂性已经远远超出了一般企业IT技术人员的能力范围,没有高水平的技术人员以及丰富的实践经验是没有办法应对数据中心高可靠性运营需要的。与此同时,居高不下的运维成本,也使得企业数据中心很难依靠自身的力量管理发展。在这种情况下,越来越多的企业开始把目光投向了那些具有高可用等级的公共数据中心服务,为了与现有IDC数据中心业务进行区分,人们将具有高可用等级的公共数据中心服务称为EDC。

虽然Google的内容交付数据中心在执行任务时的表现非常好,但它们与一个运行关键业务的企业数据中心是截然不同的。管理好你的团队以及员工做好沟通是更重要的,因为这时候谈论“我的PUE比你更低”或者“我的PUE和Google相同”是最没有意义的,因为你提供的服务和Google所提供的完全不同。

1、 市电
常规的数据机房会采用380v的电压供电,普通的监控机房会采用220v供电。机房监控系统主要对三相电压、三相电流、有功功率、无功功率、缺相的等数据进行采集分析。当市电停断后,系统通过短信、语音、声光等方式对机房维护人员进行告警。

让我们来看看,Google的内容交付数据中心在完全一样的物理架构上运行着单一应用。但你的数据中心中运行的是ERP、CRM、HR、交易和网络应用。这些应用具有不同的架构以及在服务、可用性与性能上的不同要求。

对于用户而言,也需要挑选哪些真正具有高可用等级保障的公共数据中心服务,有些数据中心对外宣传具有高效可靠供电的保障,设计了2(N+1)外加柴油发电机的
安全保障,但实际上,仅是在某一个特定区域按照2(N+1)设计,用作样板工程和对外宣传,这就需要用户在柴油发电机配置台数和总功率方面认真加以核算,挑选哪些真正具有高水平的保障的数据中心。

当Bloom Energy拿出小型的电池盒Bloom
Box时,他们称Google已经测试了18个月,测试是在Google山景城的总部进行的,而且他们说已经Bloom
Box是98%可靠的。虽然这是燃料电池在扩展性和可靠性的伟大一步,但目前的可靠性还不足以支撑任何数据中心。当许多记者发现Google是他们的客户时他们立即得出结论说Google的数据中心已经在使用了。不,这不是真的,他们只是测试而已。

2、 UPS
UPS又称之为后备电源,当市电停电后,UPS自动启动对机房或者是一些不可断电区域进行继续供电。然而,UPS供电只能是应急处理供电,无法长时间提供电能;供电时间根据蓄电池的容量来定。UPS监控常规监控数据一般包括:输入电压的监测、输出电压的监测、旁路电压监测、电池电流、电池温度、电池剩余时间等。(UPS只能进行监测一般不进行控制;监控的数据根据厂家提供的协议)

神话4:Google
battery-on-Server技术提供了一个更强大的能源备份解决方案。

但真的是这样吗?我们不幸地看到,不断有高等级数据中心宕机事件见诸报端,如2011年12月13日,亚马逊旗下英国、法国、德国和西班牙数据中心宕机超过一个半小时,在过去的几年时间内,全球最大的支付平台PayPal、Google
gmail系统、微软数据中心、iWeb CL数据中心、Chase.com网上银行、knocked
Intuit网站数据中心均发生过严重的宕机事件,有些宕机时间甚至超过了24小时。国内的高等级数据中心也不能够幸免,有些具有2(N+1)外加柴油发电机的可靠供电保障的数据中心,也一度发生了电力中断的事件。

神话2:Google使用PUE作为管理数据中心的主要指标。

如今企业的信息系统已经更多的集中到以数据中心为核心的系统平台。与此同时,全球化令企业业务规模快速发展,也使得系统平台更加庞大,所需要处理的数据规模呈现爆炸性增长的需求,企业业务对系统平台的依赖性与日俱增,这就对以数据中心为核心的系统平台的可靠性提出了非常高的要求,一旦数据中心有任何闪失,随之而来的将是收入损失、停产、生产力降低、处罚/诉讼、客户丢失等有形损失,以及会产生负面效应、客户不满、企业信誉降低等无形损失,可谓是牵一发动全身,确保企业业务连续性已经是当今企业最重要的课题。

这大概是最大的神话。Google运行着两种类型的IT系统:内容交付和关键业务服务。让我们来看看Google这两种类型的数据中心各有什么目标。

4、 蓄电池
蓄电池的监控可分为电池组监控和单节电池监控。参数一般包括:电池总电压、电池电流、电池温度等。

虽然PUE的确是Google的一个重要指标,但它更多是充当衡量怎样把成本降到最低的手段,Google的工程师们告诉我他们还是根据“业务单
位”的单位收益率来衡量的。当然我很赞赏Google纳入PUE这个指标,但希望他们会公开承认管理IT底层架构的真实方法。

在机房监控系统里面,为机房供电的设备我们都称之为动力设备。动力设备是机房监控系统里面非常重要的一部分,通常会对市电、UPS、发电机、蓄电池进行以下参数监控:

原文:Top 5 myths about Google data centers 作者:Joe Polastre

企业数据中心建设涉及建筑施工、强电、弱电、暖通制冷、网络、消防、监控、机柜微环境和装饰装修等多个工序,几十个关键环节,上千种产品和型号,这些基础设施还要与上层服务器、存储和网络等IT系统进行有机的配合,其复杂性已经远远超出了一般企业IT技术人员的能力范围,没有高水平的技术人员以及丰富的实践经验是没有办法应对数据中心高可靠性运营需要的。 

神话5:你的数据中心应该准备与Google同样的标准。

数据机房的正常运行的保障就是供电能够得到保障,而供电设备包括了配电(220v、380v或者高压电)、UPS、蓄电池、发电机等,而市电是机房主要供电方式,当市电停止之后,机房能够自动切换到UPS或者是发电机,由这些设备继续为机房供电。

Win7之家:神话TOP5揭秘——Google数据中心

谈到数据中心高可用性,万国数据副总裁梁艳表示:“数据中心高可靠性并不仅仅是高等级数据中心设计以及产品设备的简单堆砌,高投入并不一定带来高可靠。数据中心的高可用性需要一整套管理的方法论和指标体系,其中,很多需要进行量化。为此,万国数据创造性地提出了适用性的概念,强调可用性的建设应该围绕业务发展的需求,通过整合ISO20000、ISO27001、BS25999标准在可用性方面的要求,结合自身多年的实践,创造了业界首套IT高可用管理体系方法论,从评估、规划、实施、运行与监控等5个层面实现。同时,通过引入制造业
SOP的管理方式,对数据中心的标准作业进行管理,从而为用户提供专业化的指导和安全高可用的保障。”

相关文章

Comment ()
评论是一种美德,说点什么吧,否则我会恨你的。。。