公文素材库 首页

IDC运维、监控工程师简章

时间:2019-05-29 14:05:32 网站:公文素材库

IDC运维、监控工程师简章

金石飞拓(EZSERVICE),是一家专业从事IT领域技术研发、面向全球客户提供优质网络系统服务和外包增值服务的服务提供商。

以“客户至上、质量第一、诚信求实、创新进取”的经营宗旨,通过专业的定制服务,金石竭诚为客户提供安全可靠的IT服务,以解决运维难题,提高运维效率,降低管理风险,减轻管理负担,增加投资回报。

金石已经建立了以北京为核心,以华中武汉、华东杭州和华南深圳三大运营中心为支点面向全国及亚太地区进行业务辐射的庞大网络服务体系。同时,金石也已成功进入中国台湾、香港、日本、北美等海外市场成立日期:201*年3月员工总数:近300人全球总部:北京

集服务规划、设计、实施、运维等整个生命周期为一体的,跨领域、跨平台、异构IT环境下的IT综合运营服务提供商团队逐年壮大,销售额逐年30%增幅IDC运维工程师招聘要求:

岗位职责:

1、负责机房基础设施及机器设备的日常维护巡检,保持机房运行环境的良好状态,记录环境数据,总结成报表定期提交;

2、配合客户方对IDC机房服务器、存储、网络及其他运营设备进行安装、系统调试、维护、故障处理等工作;

3、负责IDC机房设备上/下架,服务器的系统安装,如windows/Linux操作系统等;4、作为监控人员和硬件厂商的接口,及时响应保修并解决故障;5、IDC机房公司所署网络设备的备上/下架、安装及调试;

6、对IDC机房所有服务器及备件坏件定期检查、检修、替换和保修,建立数据中心例行检查和维护文档;

7、及时按要求撰写工作及技术文档;

8、配合资产管理,遵照流程进行设备调动,提供IDC设备信息;职位要求:1、大专以上学历

2、熟悉Windows、Linux服务器操作系统的管理维护shell、Perl、python等脚本语言的一种

3、熟悉主流网络产品配置(如:ciscohuawei)

4、有相关工作经验;具有ccnaccnp资格证书或其他网络厂商认证证书;5、有强烈的责任心,能够认真负责的完成任务

6、语言表达能力优秀,有一定的动手能力,为人踏实,能吃苦耐劳7、能适应白班,夜班轮班工作及节假日值班9、熟练使用wordexclevisio等办公文档者优先考虑

10、熟练掌握服务器(Dell和HP)、网络设备的故障排查、备件更换及报修流程11、能够吃苦耐劳,接受7*24的轮班制度

12、了解Apache,Jboss等Web应用服务器的基本维护13、学习能力强的优秀应届毕业生也可考虑

监控工程师招聘要求:

岗位职责

1、负责IDC机房的服务器、路由器、交换机、网络管理维护、网络安全管理及技术支撑;2、对IDC机房设备做上下架、配置变更、网络线路调试等工作;3、对IDC机房托管设备进行日常巡检、故障记录等工作;4、对IDC设备及网络进行调整、维护、故障处理等工作;

5、负责IDC机房容量规划,并且前瞻性的解决IDC机房网络、服务器可能发生的问题;6、对外负责与IDC运营商沟通等,解决相关问题;任职要求

1.有一定的IDC运维、服务器/网络设备运维经验;

2.具备CCNA/H3CNA证书或CCNP/H3CNE相关技能水品,具备RHCE或类似技能水品;3、5*8或7*24岗位运维工作,工作态度认真、细致、负责,能承受较大工作压力;4、学习能力强的应届毕业生也可考虑;专业技能

1、对IDC基础设施,动力环境(空调,电力,温度,湿度等方面)均有较为直观的认识,能识别和读取设备数据,能配合客户与IDC运维人员完成现场问题的协调、跟踪与处理;

2、熟练掌握服务器(DELL、HP及IBM其他品牌存储服务器)、网络设备的基础故障排查、维修、更换及报修;

3、对类linux操作系统有一定的了解,能对常用服务和系统配置进行配置和修改(包括但不限于修改Linux系统配置文件,文件扫描,修改系统gateway、route,网络连通性问题排查,ssh服务,服务器远程控制带外管理等linux系统调试操作);

4、熟悉掌握二三层网络的常用技术,比如vlan、stp、acl、ospf;5、熟练掌握网络设备测量仪表的使用方法,能独立进行参数测量;

6、熟悉主流网络设备的操作命令,能在网络设备上进行简单的配置和状态查询,根据网络设备指示灯的状态确定网络设备运行状态是否正常;

扩展阅读:IDC日常运维操作

IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:目录

一IDC日常运维操作...............................................................................................................................................3

1服务器及设备日常维护与故障诊断处理....................................................................................................3

1.1硬盘故障............................................................................................................................................31.2内存故障:........................................................................................................................................31.3Flash卡故障:................................................................................................................................31.4服务器重启........................................................................................................................................31.5服务器其它硬件故障,如CPU故障、主板、电源.......................................................................42服务器上线...................................................................................................................................................4

2.1自动安装............................................................................................................................................42.2手动安装(光盘安装、保留/home分区安装).............................................................................83.服务器迁移操作流程...................................................................................................................................94.服务器配置变更.........................................................................................................................................10

4.1改变内存配置...................................................................................................................................104.2改变硬盘配置...................................................................................................................................105.增加/去除外网(对网线及设备连通性进行操作和排查).................................................................116.接收和发送服务器,设备及配件.............................................................................................................117.根据百度需求进行操作.............................................................................................................................128.根据百度需求增加操作的内容.................................................................................................................12二.日常网络操作.................................................................................................................................................13

1.常见模块或交换机端口故障.....................................................................................................................132.光纤或链路故障.......................................................................................................................................133.外网边缘交换机整机...............................................................................................................................134.交换机板卡、引擎、电源故障...............................................................................................................14

...........................................................................................................................................144.1板卡故障

4.2光口板卡故障..................................................................................................................................144.3电口板卡故障..................................................................................................................................144.4没有相应型号的板卡......................................................................................................................14

...............................................................................................................................154.5引擎、电源故障

5操作规范说明..............................................................................................................................................15

5.1模块的拆卸与安装过程说明:......................................................................................................155.2板卡的拆卸与安装过程说明:......................................................................................................16

三.机房巡检及通报机制.....................................................................................................................................17

1.服务器故障巡检.....................................................................................................................................172.动力环境巡检.........................................................................................................................................17

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:2.1电力情况巡检...................................................................................................................................172.2温度情况巡检...................................................................................................................................172.3湿度情况巡检...................................................................................................................................173.IDC机架使用规范巡检.........................................................................................................................174.IDC基础设施故障情况的通报和响应机制.........................................................................................17

4.1机架掉电...........................................................................................................................................174.2空调故障...........................................................................................................................................184.3温度异常...........................................................................................................................................184.4其他IDC异常情况..........................................................................................................................18

四附录...................................................................................................................................................................18

1.IDC机房环境巡检记录模板......................................................................................................................182.IDC在线服务器故障巡检记录模板..........................................................................................................193.百度服务器坏件报修统计模板.................................................................................................................19

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:

一IDC日常运维操作

1服务器及设备日常维护与故障诊断处理1.1硬盘故障

《IDC在线服务器巡检故障表》》,信息如下:百度根据第三方提供的《服务器机架位:xxx-xxx-xxxx服务器SN号:XXXXXXX服务器型号:xxxx故障类型:硬盘百度工程师根据周五的第三方巡检信息在星期一对硬盘故障进行处理。

处理过程,百度通过AOS发起外包任务,第三方在备件放置地点取出相应型号硬盘备件进行更换。IDC的备件和坏件放置地点详见《IDC备件&坏件放置地点》,将换下来的坏件统一在每周四进行报修。

将处理结果反馈给发起的百度工程师,并回复完成邮件。百度确认无误以后,结束任务。

1.2内存故障:

第三方根据巡检报告提供给百度给内存故障的服务器信息,要素如下:服务器机架位:xxx-xxx-xxxx服务器SN号:XXXXXXX服务器型号:xxxx故障类型:内存百度工程师根据第三方巡检信息来判断是否可以对硬盘故障进行处理。如果可以处理,在备件放置地点取出相应型号内存备件进行更换,不同型号的机器有不同,如:DELL2850更换故障内存后需要用光盘清楚错误日志信息。

启动服务器,将结果反馈给发起任务的百度工程师,结束任务。百度确认无误以后,结束外包任务

第三方内存更换时间约定:第三方更换内存过程所需时间(如30分钟),和工作区间时间(早上9点到晚上7点),如有特殊时间百度优先通知第三方。

1.3Flash卡故障:

百度发起更换flash卡外包任务给第三方

第三方根据任务单提供的详细信息进行确认停机

从备件库取出新Flash卡进行更换,更换完毕将处理结果反馈给发起的百度工程师,并回复完成邮件。

百度确认无误以后,结束外包任务

注:故障Flash卡和新Flash卡需要记录SN号并提供给百度

1.4服务器重启

第三方接到百度重启服务器任务单

根据任务单提供的SN、主机名、机架位、IP进行核对

找到机器进行重启操作,直到服务器进入系统登陆界面,将结果反馈给发起任务的百度工程师,结束任务,过程中有异常情况应及时反馈给百度工程师,

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:百度确认无误以后,结束外包任务

1.5服务器其它硬件故障,如CPU故障、主板、电源需要第三方严格按照如下操作步骤进行操作

第三方CPU更换时间约定:第三方更换CPU过程所需时间(如30分钟),和工作区间时间(早上9点到晚上7点)

百度给第三方提供存在CPU故障的服务器信息,要素如下:故障服务器机架位:故障服务器SN号:XXXXXXXxxx-xxx-xxxx服务器型号:xxx

第三方确认故障服务器已经停机,拔出电源线,按照顺序取出故障服务器里的硬盘

将指定备机替换故障机器,并取出备机中的硬盘,清掉备机的raid卡里的raid信息(该操作步骤只限于DELL2850服务器)

按顺序在备机中插入故障机中硬盘启动服务器

将处理结果回复给发起的百度工程师

主板故障:同CPU故障处理电源故障:同内存故障

硬盘rebuild时间标准

73G硬盘在线rebuild-3个小时,离线rebuild-1个小时;146G硬盘在线rebuild-6个小时,离线rebuild-2个小时;300G硬盘在线rebuild-9个小时,离线rebuild-3个小时;

2服务器上线

第三方根据百度要求把服务器上架到指定位置并反馈服务器SN

2.1自动安装

百度配置安装文件

仅限百度在线内部使用

备用服务器机架位:备用服务器SN号:XXXXXXXxxx-xxx-xxxx开始操作时间:18:00第三方根据巡检报告给百度提供存在CPU故障的服务器信息,第三方联系厂家报修,通报百度上面维修时间百度根据上门维修时间联系停机

第三方确认停机以后由厂商来维修直至修好。IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:第三方用指定的安装服务器进行安装,安装完成后进入到login状态,如下面

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:

中途如有安装存在问题的情况,联系发起人。发起人远程进行单独安装安装完毕以后邮件反馈百度工程师百度确认完成以后,结束外包任务

2.2手动安装(光盘安装、保留/home分区安装)光盘安装

根据任务单要求安装指定的光盘系统

根据任务单要求配置IP和安装指定的工具包确认安装完成后反馈信息,等百度方确认百度确认无误后,结束任务

手动安装

用网线直接连接被安装机器和安装服务器的eth0端口(标记为NIC1)

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:注意:DELL2950,引导时需要用NIC1连接安装服务器的eth0端口,引导完之后换到NIC2。pxe引导如有问题,需要检查机器的BIOS设置中的网卡设置。

引导服务器,当出现PXE引导时,按F12进行pxe引导,引导过程中会看到加载linux.1linux.2引导结束,会出现-bash提示符输入命令

install-i172.18.250.xxx-nfs172.18.250.10-nbaidu-123如果记不住可以通过install-h获取帮助命令行解释:

install是一个安装脚本,他会自动通过NFS方式连接到安装服务器上获取配置信息以及安装包共有6个参数,其中-i-nfs-n固定

例子中的172.18.250.xxx为本机临时IP,目的是与安装服务器建立连接,必需为安装服务器eth0IP的同网段IP

172.18.250.1为安装服务器eth0IP

baidu-123为被安装机器的主机名,install脚本会根据这个主机名在install.conf里面取配置信回车执行命令开始安装.

当再次出现bash提示符后,安装完毕。

3.服务器迁移操作流程

由发起人发邮件确认可以迁移,并电话联系第三方现场人员确认开始迁移

第三方现场人员接显示器确认系统已经关闭并进行迁移,把服务器迁移到指定机架位。如果是跨机房迁移需把设备交给百度指定接收人(需出示有效证件证明身份),送达目的地点。运送过程中需保证设备的物理完整性,不得随意拆开机箱并插拔或变更硬盘位置,如果有系统的,以能够进入grub界面为准.见图1

将服务器接上电源线、网线,异地迁移需要根据新机架位的ip重新配置远程控制口的ip。按电源按钮,启动服务器,确保进入如下类似界面:见图1

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:

图1

如果遇到异常情况,需立即通知发起人,由发起人决定处理方式第三方操作完毕回复

发起人或指定复查人员进行检查,确保没有问题后,结束操作任务。

4.服务器配置变更4.1改变内存配置

第三方在接到发起人停机通知后,将服务器电源线、网线、控制线拔掉并从机架上拿下放置在地上

取得要更换或添加的备件。

内存容量、大小、数量信息请查看发起人发出的任务单

参照《服务器硬件更换方法》来对内存进行添加、减少、更换把替换下来的内存放回指定位置

把服务器放回原位置,接好电源线、网线、控制线,按电源按钮启动服务器

4.2改变硬盘配置

第三方在接到发起人任务后,参照《IDC备件&坏件放置地点》取得要更换或添加的硬盘。

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:

硬盘容量、大小、数量信息请查看发起人发出的任务单参照《服务器硬件更换方法》按指定要求更换硬盘。具体要求请查看任务发起人发出的任务单

如果需要重装系统,参照《服务器上线方法》安装系统

参照《IDC备件&坏件放置地点》把替换下来的硬盘放回指定位置

操作完毕回复

第三方操作完毕后,需马上通过邮件或电话通知任务发起人(如果电话通知的需要在之后补充邮件通知)

检查

由发起人或指定复查人员进行检查,确保没有问题后,向第三方邮件确认操作完毕,结束任务。

注:换下配件不算成备件,需要单独记录并通报。发起外包出库流程。

5.增加/去除外网(对网线及设备连通性进行操作和排查)5.1外网变内网

在得到百度工程师确认后,第三方按任务中的接线方法,拔掉指定外网网线,插上指定内网网线

5.2.内网变外网

在得到百度工程师确认后,第三方按任务中的接线方法,拔掉指定内网网线,插上指定内外网线

注:FEX424外网边缘交换机的1、2、3、4、24不能连接网线

操作完毕回复

第三方操作完毕后,需马上通过邮件、电话通知发起人(如果电话通知的需要在之后补充邮件通知),

检查

由发起人或指定复查人员进行检查,确保没有问题后,第三方邮件向百度确认操作完毕,结束任务。

6.接收和发送服务器,设备及配件6.1接收设备

外包将收到的服务器、设备及配件清点以后,将信息反馈给百度方并更新外包资产数据库,信息如下:

接收时间设备名称09.01.12xxxx

6.2发送设备

序列号xxxxxxx存放位置xxx-xxx-xxx

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:外包方根据任务单要求发送服务器及配件联系物流

百度办理设备出入手续

发出设备及配件,结束任务更新外包资产数据

7.根据百度需求进行操作7.1根据需求反馈信息

百度发起外包任务,如:查看机器状态、SN、IP等第三方将查看信息反馈给百度方百度方确认以后,结束任务

7.2重启服务器等

百度发起重启服务器的任务单

第三方根据任务单提供的信息进行确认

确认无误重启服务器,有异常情况及时反馈信息,重启以后通知百度方百度确认无误,结束任务

8.根据百度需求增加操作的内容

根据百度需求增加IDC操作的内容

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:

二.日常网络操作

1.常见模块或交换机端口故障

网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人

员相关机架位、网络设备名称、板卡槽位、端口号及模块型号,外包人员按照操作要求进行更换故障处理时间(10分钟-20分钟)

2.光纤或链路故障

网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供外包人

员故障光纤的类型,两端机架位,对应网络设备名称,板卡槽位、端口号,外包人员在进行光纤更换时应该优先选用冗余光纤资源,如果没有冗余光纤资源则应立即按照【百度IDC布线标准】进行部署,并根据发起人要求进行标签标记。

(10分钟-20分钟)本机房光纤部署,故障处理时间,

(15分钟-30分钟)跨机房光纤部署,故障处理时间,

3.外网边缘交换机整机

外网边缘交换机(FoundryFEX424)故障被定位属于这个范围后发起人根据【故障处理流程】发

起操作,并必须提供外包人员故障交换的机架位,之后外包人员根据如下步骤进行更换:

1)记录以下信息:

A.交换机的5端口至23端口的网线标签;B.交换机的24口管理网线标签;C.25口、26口对应的光纤标签;2)初始化欲使用的FoundryFEX424配置;

初始化FoundryFEX424配置过程

A.通过Console接入交换机B.enable进入#号提示符下

C.Erasestartup-config清除配置

D.Reload重启交换机,选择不保存配置文件3)根据操作发起人提供的管理IP进行配置;

配置管理IP

A.使用enable进入#号提示符下;使用configureterminal进入配置模式B.使用如下命令配置管理IP

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:interfaceethernet24port-namenetadminroute-only

ipaddress255.255.255.0(管理IP由发起人提供)4)经发起人确认后进行更换;

A.将故障交换机断电,并去掉所有光纤及网线,B.将新的交换机上架加电,并先接好网管网线。

5)外包人员经操作发起人同意后,依据要求进行光纤及网线互联;

A.接入光纤时,光纤与端口对应关系必须与之前相同;B.原网线接入5口至23口时没有顺序要求,

故障处理时间(20分钟-40分钟)

本节中的故障处理时间指的是外包人员完成指定操作的时间,不包括发起人的故障定位时间,以确认开始操作计算时间。

4.交换机板卡、引擎、电源故障4.1板卡故障

说明:网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供

外包人员对应网络设备名称,板卡槽位,外包工作人员应首先记录故障板卡上的网线和光纤标签及端口的对应关系,具体,然后将板卡更换后检查板卡是否有自检闪烁,最后按照之前的记录恢复所有网线或光纤。

常见情况及处理时间如下:4.2光口板卡故障

一般互联光纤数量不超过六条,更换前必须正确记录所有光纤与端口的对应关系。板卡更换后,

必须按照之前的记录顺序进行恢复。故障处理时间:(10分钟-30分钟)4.3电口板卡故障

一般互联网线的数量比较多,更换前必须正确记录所有网线与基于端口划分的VLAN的对应关系

,板卡更换后必须按照之前记录的网线与基于端口划分的VLAN对应关系进行恢复。

如板卡的前24个端口属于VLAN100,后24个端口属于VLAN200,板卡更换后根据端口和VLAN

的对应关系进行恢复。

故障处理时间:(20分钟-40分钟)4.4没有相应型号的板卡

需要使用多台FoundryFEX424用万兆口级联后再互联至该交换机的指定端口(由发起人提供)

A.外包人员初始化FoundryFEX424配置,并通过万兆端口进行级联,级联的数量由发起人给出;

B.根据发起人提供的指定端口,将已经级联的FoundryFEX424与这个指定端口进行

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:互联;

C.经发起人同意后,将故障板卡的网线迁移到FoundryFEX424上。D.最多级联两台FEX424。如果超过2台FEX424,时间可以合理延长。

故障处理时间:(20分钟-60分钟)4.5引擎、电源故障

说明:网络故障被定位属于这个范围后发起人根据【故障处理流程】发起操作,并通过邮件提供

外包人员故障网络设备名称,引擎或电源槽位。故障处理时间:(20分钟-40分钟)5操作规范说明

5.1模块的拆卸与安装过程说明:

1.确定需要卸载的模块。

2.若卸载业务模块,请注意先拔下模块拉手条上的以太网电缆、串口电缆或者光纤接头并放置在安全的地方并做好标记以便复原。操作有光口的线路接口模块时,请不要直视光模块的TX端口和光纤线缆末端,以免激光烧伤眼睛。3.平行方向取出或插入模块,参加下图3-1。

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:图3-1

版本号:1.0有效期至:签发日期:备注:业务部门:

5.2板卡的拆卸与安装过程说明:板卡拆卸过程:

1.确定需要卸载的业务板卡。

2.若卸载业务板卡,请注意先拔下模块拉手条上的以太网电缆、串口电缆或者光纤接头并放置在安全的地方并做好标记以便复原。操作有光口的线路接口模块时,请不要直视光模块的TX端口和光纤线缆末端,以免激光烧伤眼睛。3.用螺丝刀松开拉手条两端的紧固螺丝。

4.双手抓住拉手条两端的扳手,朝相反的方向用力,模块会自动脱出机箱少许。5.双手抓住扳手将模块垂直拉出大约10cm。

6.右手抓住模块拉手条的中上部,左手托住模块下边缘将模块从机箱中完全拉出并放置在安全的地方。

7.如果需要重新装入包装盒,请首先将业务模块装入防静电袋,再装入外包装盒。

板卡安装过程与拆卸过程相反,参考下图3-2。

图3-2

6、板卡槽位及端口顺序

6.1FoundryFEX424,参加下图4-1

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:图3-2

版本号:1.0有效期至:签发日期:备注:业务部门:

三.机房巡检及通报机制

1.服务器故障巡检

巡检范围:IDC内所有的服务器;

报警设备包括:服务器、交换机、路由器、传输设备等。

完成时间:在每天上午11点前整理出当天《百度**IDC每日巡检报告》发到指定邮件组

巡检频率:每天

2.动力环境巡检2.1电力情况巡检

对各个IDC的用电情况,精确到每个机架进行巡检记录,需要区别单路用电量(安培)双路用电量(安培)。并将超过用电预警值(见日报模板)的机架做好记录。巡检频率:1天1次。2.2温度情况巡检

对各个IDC温度情况,精确到每个温度采集点进行巡检记录。将超过温度预警值的机架做好记录。巡检频率:4小时1次,每天至少2次。并巡检时间由百度根据季节情况进行制定。2.3湿度情况巡检

对各个IDC湿度情况,精确到每个湿度采集点进行巡检记录。并将超过温度预警值的机架做好记录。巡检频率:4个小时,每天至少两次。

注:在日报中对超出警戒值的记录用其他颜色区别展示;温度警戒值默认为33摄氏度,并由百度ARP根据季节情况进行调整;

3.IDC机架使用规范巡检

确保设备的摆放正确;

确保服务器的上架符合规范;

确保网线,电源线的布放符合规范;

确保IDC内没有纸质,技术文档及其他易燃物品;

4.IDC基础设施故障情况的通报和响应机制4.1机架掉电

仅限百度在线内部使用IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:在发现机架单路掉电或双路掉电情况后立即联系营运商现场值班人员进行处理,并在10

分钟内通报百度第一紧急响应人;无法联系到第一紧急响应人立即联系第二紧急响应人;4.2空调故障

并将处理的过程或结果15在发现空调故障情况后立即联系营运商现场值班人员进行处理,

分钟通报百度第一紧急响应人;无法联系到第一紧急响应人立即联系第二紧急响应人;4.3温度异常

在发现温度采集点实测温度达到温度警戒值的情况后,15分钟内通报当天百度该机房负责

人,并联系营运商现场值班人员进行处理。该内容需要在日&周报告中体现;4.4其他IDC异常情况

其他可能影响百度业务正常工作的IDC基础设施故障问题,需要及时进行通报;

注:紧急响应人:第一紧急响应人:第二紧急响应人:

四附录

1.IDC机房环境巡检记录模板

IDC机房环境巡检记录模板城市提交人北京IDC名称提交日期201*-12-16巡检内容机房号前日15时巡检人本日10时

仅限百度在线内部使用

编号联系电话单路最高/机架双路最高/机架温度最高/空调湿度/空调巡检时间空调是否正常[√]是[]否[√]是[]否201*-12-1515:00空调是否正常机房号单路最高/机架双路最高/机架温度最高/空调湿度/空调IDC现场运维手册文件编号:生效日期:201*年02月25日签发人:保密级别:版本号:1.0有效期至:签发日期:备注:业务部门:巡检人备注巡检时间[√]是[]否[√]是[]否201*-12-1610:002.IDC在线服务器故障巡检记录模板

IDC在线服务器故障巡检记录模板服务器型号故障核查人故障发现时间机架机器的SN号IP故障类型具体报警信息故障发现人

3.百度服务器坏件报修统计模板服务器型号xxxxx

坏件名称硬盘坏件件型号XXX-300GB-00K坏件序列号XX-XXX-1253-7X-0296数量1对应的服务器SNxxxxx

仅限百度在线内部使用

友情提示:本文中关于《IDC运维、监控工程师简章》给出的范例仅供您参考拓展思维使用,IDC运维、监控工程师简章:该篇文章建议您自主创作。

  来源:网络整理 免责声明:本文仅限学习分享,如产生版权问题,请联系我们及时删除。


IDC运维、监控工程师简章
由互联网用户整理提供,转载分享请保留原作者信息,谢谢!
http://m.bsmz.net/gongwen/706853.html
相关阅读
最近更新
推荐专题