夏季机房,it经理如何确保安全运维? 【百科全说】-凯发k8官方旗舰厅

腾讯视频/爱奇艺/优酷/外卖 充值4折起

据新华社电,近期暴雨侵袭全国,21个省份遭遇洪涝灾害,已致33人死亡、14人失踪。昨日6时,河北省气象台继续发布暴雨蓝色预警,预计承德中南部、唐山、秦皇岛、廊坊等多地区有大雨,局部有暴雨,为防止城市内涝、中小河流洪水和山洪地质灾害,提醒相关部门及广大群众做好防御工作。显然,进入盛夏极端多变性的天气,已向人们拉响了预警。

面对多变性天气,企业it机房和数据中心同样面临管理、安全等多方面考验。而随着信息化技术迅猛发展,中国已经成为全球数据中心。4月17日,亚马逊cloud drive云存储河北廊坊数据中心提前完工,该项目总投资98亿元,将为亚马逊购物网站提供数据存储和云计算服务;6月6日,戴尔宣布其在成都的全球运营基地正式投产,占地面积达3万平方米,总产能可达每年700万台(戴尔台式机产品),助力戴尔为本地和欧洲及美国等海外客户提供产品和服务,而如此庞大的生产流程,背后的英雄却是数据中心。

it机房和数据中心对企业业务发展尤为重要,由于国内气候环境的多变性,为it运维管理带来了巨大挑战。夏季机房,it经理不仅要解决机房温度湿度、保障服务器设备稳定运行及确保数据安全等问题,还要承受降低企业总体拥有成本的压力。

我们知道大多数机房都建有制冷系统,来保证内部温度在22℃的安全线以内。但是,夏季持续性高温会多引发系统、硬件异常工作,甚至是瘫痪罢工,且机房和数据中心的内部温度比平均水平每升高10度,数据中心“融化”的风险就会提高5%。如何确保机房或数据中心在高温多雨天气下安全、稳定的运维,成为众多it经理当下迫切希望解决的问题。

作为企业的cio或it管理者如何解决这些“热”烦恼、“雨”担忧,不妨从以下几方面着手做起。

强化数据中心制冷系统

数据中心,支撑整个企业it系统正常运转的后台架构,其包含计算、存储、网络等多种高性能、高密度硬件设备。如服务器、存储设备在作为动力源同时也成为热源的生产者,再加之夏季温度一再攀升,it经理不得不采取措施,强化制冷系统,确保内部温度在安全线以内。

第一,结合企业自身数据中心架构布局,建设可随负荷变化的管理制冷系统。在满负载工作情况下,可提供足够的冷量和风量;不满负荷情况下,制冷系统可提供恰当的风量,在保证精确调节同时,也能更好的绿色节能,节约成本。

第二,根据数据中心不同密度区域,采用不同的制冷形式。例如,可在刀片服务器高密度区域采用水冷机柜等。

第三,可选用气流送风技术,但要做到非常均匀的送风,实际操作则具有一定难度,在此不建议中小企业采用。

小结:数据中心制冷系统强化,需cio依据内部设施布局进行慎重建设。



选择合适的服务器设备

除了通过强化数据中心制冷系统外,从硬件基础设施出发同样能做到节能降耗、平台正常运转功效。面对极端环境或特殊应用的需求,设备生产商精益求精,针对高温环境推出耐高温服务器或自带降温技术设备的整体凯发app官网登录的解决方案,例如戴尔poweredge服务器就可在-5℃到45℃之间正常运行。

戴尔为了确保企业数据中心的服务器、存储等设备能够在高温环境正常运行,降低额外的维护和基础设施成本,在研制耐高温服务器同时,为企业数据中心打造新风冷却凯发app官网登录的解决方案。借助该凯发app官网登录的解决方案组合不仅具备高散热能力和可靠性等优势,还使得方案中的服务器、存储和网络设备允许在更高温度条件下安全、稳定的运行,避免因高温宕机“罢工”现象。

小结:it机房或数据中心拥有良好的服务器、存储设备不仅能降低it故障率,更重要的是降低了企业tco。

建立设备实时监控机制

企业it机房设备(服务器、存储、交换机等)绝大部分是24×7小时运行,面对高温、多雨季节,企业应建立设备实时监控机制。监控机制包括两部分:员工实时检查和网络实时监测。

企业部署相关员工对服务器设备运行数据进行按日分析,并整理出服务器工作日志,以便第一时间处理异常现象;同时对服务器机房进行按日检查,避免人为诸如机房乱堆放杂物、有灰尘等情况干扰服务器正常运行。另一方面,企业选择一套服务器监控凯发app官网登录的解决方案,对服务器进行实时监控,一旦出现宕机、存储硬盘受损及时发出警报,第一时间安排相关技术人员进行整修。

服务器、存储提供商在保障产品品质外,还会为其定制或添加多功能工具和软件,以应对企业多方面需求。而戴尔作为中国服务器第一大提供商,在产品日常维护方面更是行业第一。戴尔12g服务器内置硬件诊断工具diagnostics,且无需依赖操作系统,若诊断出硬件不能正常工作,会自动发出警报;同时,戴尔为用户提供openmange essentials系统管理软件,提供免代理监控服务。

除戴尔服务器外,ibm、hp、华为等服务器均有类似诊断工具或管理软件。

小结:人无远虑,必有近忧。企业亦如此,单纯依靠人工进行设备实时监控,必将投入大量人力物力。因此,选择成套的服务器监控凯发app官网登录的解决方案才是最佳监控措施。

制定灾难备份修复方案

夏季机房突发情况有许多,诸如机房断电、服务器宕机、存储硬盘损坏等等,为保证机房正常运行,防患于未然,企业在夏季做好相应的灾备措施具有重大意义。

既然设备故障问题(服务器宕机等)不可避免, it经理就需在购买设备时与相关it专家进行讨论,分析企业可能会出现故障的情况,并将这些情况分析结果形成意见,制定一套灾备修复方案,以减少因故障而带来的损失。具体方案有:

加强设备维护检查,制定设备在夏季运行方案;储备或协调后备应急水源及燃料,保证在断电、断水情况发生时有足够的备用资源;以主动措施应对被动状况,例如储备应急冰块、购置通风用轴流风机、水喷淋措施等。

小结:做好灾备修复方案对企业来讲至关重要,不仅保证了平台正常运行,还进一步确保了数据的安全性。

做好防水、防雷安全措施

it机房或数据中心做好上述几点就万无一失了吗?答案显然是否定的,企业机房还需做好防水、防雷等安全措施。

机房内摆放着大量的精密、贵重计算机及网络设备,其均具备高密度、高速度、低电压和低功耗等特性,不仅怕水,还对各种诸如雷电过电压、电力系统操作过电压、静电放电、电磁辐射等电磁干扰非常敏感。如果防护措施不力,企业随时可能遭受重大损失。

夏季多雨,机房更应防止漏水事故发生。it经理可直接通过降低机房空调供水管道的压强来解决漏水隐患。通过对机房专用空调加湿器的供水系统的分析,专家认为机房专用空调加湿罐补水时并不需要过高的供水压力,相反降低了机房空调供水管道的压强,可使供水管道中的阀门、接头、弯头、管壁所承受的压力降低,安全系数提高,有利于机房空调安全供水的实现。

有雨必有雷。为了保护建筑物和建筑物内各项电子网络设备不受雷电损害或使雷击损害降低到最低程度,应从整体防雷的角度来进行防雷措施的设计。it机房主要应从ups电源系统防雷保护、通讯系统的防雷与过电压保护及防雷器的安装与接线着手做起。

小结:尽管it机房在建设之初已经做过防水、防雷、防震等突发灾难措施,但在夏季多雨时节,仍需做好检查和防御措施,防患于未然。

随着大数据崛起、云计算渐成企业宠儿,各类计算越来越依赖数据中心;业务的多样化,也对it机房的设备管理、运维以及安全等多方面提出了更高要求。面对故障多发期,夏季对机房和数据中心来讲均是一个严峻的考验。因此,it经理做好夏季机房故障防御措施十分重要。

写在最后

面对夏季对机房多方面影响,it经理除了采取一定有效措施防御故障发生外,更希望在保证平台正常运维下降低企业tco,来提升整体能效。据datacenterusersgroup调查显示,数据中心能效已迅速成为业界优先考虑事项。绝大多数受调查者认为,数据中心在制冷设备(49%)、服务器(46%)、电源设备(39%)和存储设备(21%)等方面存在巨大的能效改善机会。由此可见,企业迫切降低投入、运维等成本。而最直接、最有效做到这一点的方案就是,企业在为机房采购设备时,从一开始就选择具备低能耗、耐高温等特性设备或成套凯发app官网登录的解决方案,不仅可以有效减少故障率,亦能够降低企业整体拥有成本。

07/10 18:33
云计算时代给大家带了很多机遇,同时也带来了很多挑战,有人就认为随着云的普及,运维人员将会最终消失。当然,这个论点不免有些偏激,但云时代的确给运维带来了很多不同,也让运维从业人员开始思考很多问题。在近日举办的中国运维和安全大会上,我们就欣喜地看到了很多乐意迎接挑战的同学,也有很多大牛分享了自己的经验与心得。 中国的第一代黑客,现任ucloud ceo的季昕华为大家分析了云计算时代为运维与安全带来的挑战和机会。首先,运维人员要有一些基本的素质要求,其中包括懂风水,在机房选址时是否处于地震带,吹的什么
09/19 08:57
一、锁定系统重要文件 系统运维人员有时候可能会遇到通过root用户都不能修改或者删除某个文件的情况,产生这种情况的大部分原因可能是这个文件被锁定了。在linux下锁定文件的命令是chattr,通过这个命令可以修改ext2、ext3、ext4文件系统下文件属性,但是这个命令必须有超级用户root来执行。和这个命令对应的命令是lsattr,这个命令用来查询文件属性。 通过chattr命令修改文件或者目录的文件属性能够提高系统的安全性,下面简单介绍下chattr和lsattr两个命令的用法
09/25 13:36
1、错误现象 运维的监控系统发来通知,报告一台服务器空间满了,登陆服务器查看,根分区确实没有空间了,如下图所示: 这里首先说明一下服务器的一些删除策略,由于linux没有回收站功能,我们的线上服务器所有要删除的文件都会首先移动到系统/tmp目录下,然后定期清除/tmp目录下的数据。这个策略本身没有问题,但是通过检查发现这台服务器的系统分区中并没有单独划分/tmp分区,这样/tmp下的数据其实是占用了根分区的空间。既然找到了问题,那么删除/tmp目录下一些大数据即可,执行如下命令,检查/tmp下最
12/20 07:52
对于一个需要长期维护的网站来说,如何让网站长久稳定运行是件很有意义的事情。有些在开发阶段没有暴露的问题很有可能就在运维阶段出现了,这也是很正常的。还有些时候,我们希望不断地优化网站,让网站更快速的响应用户请求,这些事情都发生在开发之后的运维阶段。 与开发阶段不同的,运维阶段不可能让你去调试程序,发现各类问题,我们只能通过各种系统日志来分析网站的运行状况,对于部署在iis上的网站来说,iis日志提供了最有价值的信息,我们可以通过它来分析网站的响应情况,来判断网站是否有性能问题,或者存在哪些需要改进

自动化运维之 puppet 实战

04/16 19:23
随着it行业的迅猛发展,传统的运维方式靠大量人力比较吃力,近几年自动化运维管理快速的发展,得到了很多it运维人员的青睐,一个完整的自动化运维包括系统安装、配置管理、服务监控三个方面。那今天咱们大家一起来学习一下puppet实际运维中的案例。仅供参考,欢迎大家提更多的意见! 一、应用背景 某公司新到500台服务器,需要安装linux系统,并部署上线以及后期的管理配置。对于系统安装,这个时候肯定得采用批量安装的,常见批量安装方式有大家熟知的kickstart和cobbler,具体配置方法,网上也有很
05/10 22:18
这篇文章的标题确实有点high,但对于从事运维及其相关开发的你来说,当告诉别人你从事的是运维领域的工作,对方的回复是“哦”时,你又该怎么解释呢?那么运维派在这里给大家整理汇总如下: 一、简述: 运维(operation and maintenance)一般是指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维(it运维)。所谓it运维管理,是指单位 it 部门采用相关的方法、手段、技术、制度、流程和文档 等,对it 运行环境(如软硬件环境、网络环境等)、it 业务系统和 it
01/15 08:43
最近经常有同行的朋友或者linux初学者问我: 运维人员是否需要学一门语言,那么该学哪种语言呢? 对于这个问题,我分两个方面回答: 首选,在大数据.云计算发展迅猛的今天,系统运维人员如果不懂一点开发语言的话,确实会举步维艰,因为在运维工作中,业务系统的繁多,线上服务器规 模很大时,只能通过写脚本的方式(自动化也是脚本一种哦)自动化完成,不然,如此重复和繁琐的工作,靠人力是无法负担的,所以,学习一门可以让运维工作批 量完成的语言,就显得很重要了. 那么应该学习一门什么语言呢? 对于linux系统运
12/08 09:36
老鸟谈生产场景如何对linux系统进行分区? 前言: 我们买房子时,会考虑1室1厅,2室1厅,或3室2厅......!那么具体如何选,是要看 手中的money和家庭的人口数量. 同理,服务器操作系统在分区时也是如此,到底分3个区,4个区,要不要分/home/ /var,这也要看我们的业务需求,和运维规范或者说运维领导的喜好. 分多了,分少了,在不同的业务场景都可能会有一些麻烦问题(lvm可以解决这个问题,不过有他的弊端,或者说,某些场景是画蛇添足). 在阐述这个问题之前我们先来简单说下基础分区/
03/19 23:47
随着it运维的不断发展,尤其的linux的飞速发展,越来越多的企业开始使用linux操作系统平台,例如centos.redhat.ubuntu.fedora等等,成千上亿个网站涌现在当今互联网,互联网已经成为必不可少的工具,那今天我们跟大家一起来分享讨论目前用的最多的linux下主流网站架构: lvs keepalived(heartbeat) squid nginx/apache java/php mysql/mariadb等,分享一个简单的拓扑图,供各位同学实验参考 一般网站总体分为四层,
网站地图