最近,最大的国际新闻莫过于巴黎圣母院大火了,大火是由于意外导致的。一个意外,致使800多年历史的人类文明遗迹付之一炬。由此可见,在灾害面前,人类的历史和所谓的瑰宝,是多么的脆弱。
众所周知这场大火的关键词“意外”,却让我联想到了数据中心最基础,却最重要的东西,那就是运维。所有人都希望在自己的工作当中作出成绩,在公司获得地位和利益,但是作为数据中心的运维团队来说,这却也是最难的。因为这是一份隐藏在后台的工作,他们的工作鲜有人注意,甚至外行都不明白他们的存在。但假如没有他们兢兢业业的工作,不知道有多少数据中心将会变成付之一炬的巴黎圣母院,而由此带来的现实经济和业务损失,甚至要远甚于后者。
对于一个占地动辄几万平米的数据中心来说,相关设备的巡检、检修、维护等都必须在保证效率的同时,把业务的影响降低到最小。现在新技术的发展可谓是日新月异,系统的复杂程度也慢慢变得高。这就使得数据中心对系统运行安全,效率的要求也更为苛刻。如果出现丝毫纰漏,轻则影响业务,重则造成社会和经济的重大损失。
一般人总认为数据中心都配有完善的消防器材、设施,并备有温感、烟感等报警器。若遇到火灾隐患,会在第一时间被发现并处理。但其实这种想法是非常错误的,因为一旦数据中心失火,往往意味着事发地点的所有设备都要受到牵连,后面的影响将是巨大的。
数据中心火灾的主要特征是: 散热困难、烟气量大、用电量大、电气火灾居多、火灾损失大、扑救难度大、节点易燃烧。在数据机房发生的各类事故中,火灾事故约占80%左右。最重要的包含电子计算机本身起火;配套设备或附属装置起火;空调设备或电气设备起火;外来火灾侵扰等。
数据中心,这里主要服务的对象是IT系统。虽然数据中心的生命周期长达十几年,甚至几十年。但是其中IT系统的变革却日新月异,而且每一次的变革,都会要求运维人员一定接受新的,更为严格的培训。他们必随便什么时候都可以了解业界最新的动态、技术。并应用这些技术处理问题,以减小风险。还是以最基础的IT设备上架为例,运维人员一定要提前检查腾空的容量,夏季必须关注通风和冷凝系统,防止高压报警灯。冬季则要着重关注空调加湿系统,防止相关故障报警。虽然现在的绿色技术层出不穷,甚至前段时间阿里数据中心还用替代了30%的人工重复劳动,但这并不代表基础运维可以懈怠了。
作为最基础,最容易被忽视,却又无比关键的运维岗位首先必须要注意,建立完善的巡查和维护、保养、应急处理等机制。其次,采用与时俱进的动环监控、报警系统。以减少误报、漏报的发生。最后,将有关人员的责任心、行动力作为基石。
微信扫一扫
手机官网