极端环境下的IT运维案例

译文
运维 系统运维 新闻
本文是极端环境下的IT运维案例分享,文中提到的几位CIO都深谙快速建立IT运维的真谛,并能以同样的惊人速度将其解散。通过与他们的对话,运转如飞的IT将不再是梦。

  【2013年5月23日 51CTO外电头条】去年秋天,随着飓风桑迪的步步紧逼,整个美国东海岸都开始严阵以待;Robertory自然也不能例外,他正盘算着如何建立并运行一整套IT体系。但时间紧迫,从组织技术团队到让系统投付运行,他只剩下几个小时可以支配。

  这时候,尽快选择正确方向就成了他的第一要务。

  Robertory是美国红十字会灾难服务技术组的负责人。他的工作是确保红十字会的急救人员在现场工作中拥有必要的技术支持,即使是在飓风肆虐之时也不例外。

  "大多数IT人士在谈到自然灾害时,第一反应都是赶紧卷服务器跑路。但我们的选择正好相反。我们关注的是如何在基础设施陷入一团糟时将设备带入灾难现场,"他解释道。

  作为一位在设施部署领域浸淫多年的老手,Robertory拥有一种异于常人的天赋:他能够在很短的时间内建立并解散一整套IT部门。

  "我们先假定现场已经不存在基础设施,接下来要回答的问题是:我们怎样才能让一切恢复正常?"他表示。

  Robertory与其他几位同样身处极端环境下的IT管理者都认为,由于自己的工作属于临时性质,因此必须将注意力集中在主干身上--即只为组织提供最需要的系统方案,以尽可能提高部署效率与效果。他们的经验同样能够帮助处于其它特殊情况下的IT组织获得成功,甚至在日常条件中也依然适用。

  打包与准备

  对Robertory来说,专注于主干意味着快速为援助工作者提供工作所必需的设备及连接机制。有时候,例如飓风桑迪来袭的情况,他能在一周之前就得到消息并着手准备,虽然灾难的具体发生地点尚不明确。但在其它一些情况下,灾难则出现得更加突然。

  无论哪种情况,他都能及时把需要交付的设备准备就绪,从Windows笔记本到网络装置一应俱全。"大家在普通办公环境下能看到的一切设备都会被打包整理,牢固的保护措施使其能第一时间被送往条件恶劣的灾害现场。"

  Robertory还将多种技术整合起来以确保自己的团队能立即投入工作并快速执行任务。举例来说,如果地面电话线路无法接通,他们就能采用蜂窝或者卫星线路。在这套模块化方案当中,他不仅将各类新技术添加进来,同时也保留那些在过去一直表现良好的传统机制。

  这些包装箱将被发往灾区,并在那里成为由志愿者组成的现场IT团队手中的利器。在努力对抗飓风桑迪的过程中,志愿者们在纽约州的怀特普莱恩斯的集合地建立起IT基础设施,并利用卫星通信成功实现数据接入。设置工作后来转移到了曼哈顿的一栋空置大楼当中,在那里红十字会终于可以使用现有网络基础设施进行通信。

  每台设备都附有详细说明,帮助志愿者们快速了解其使用方法。Robertory表示应急工作的目标需要非常明确,这样才能防止志愿者们陷入越忙越乱的窘境。"我们制定了一条十五分钟原则--如果某项任务令执行者十五分钟还搞不清状况,要么立刻需求帮助、要么干脆放弃。我们需要始终进行有意义的尝试,而不能把时间浪费在结果未定的工作中,这是我们获得成功的秘诀,"他解释道。

  最高诉求--速度

  这并不奇怪,速度已经成为大多数临时IT组织的共同优先目标。如果大家心中还有怀疑,那请听听Michael Slaby的故事。

  Slaby曾担任奥巴马2008年总统竞选团队的CTO,并在2012年奥巴马争取连任的竞选中担任团队CIO。在这场为连任而奋斗的战争中,他负责整个团队的IT运营,从分析到安全事务无所不包。早在2011年他就已经投入工作,且整个2012年几乎都在为此努力。他建立起一个在两年间为成千上万工作者提供服务的IT部门--但他知道这一切都将最终散去。

  "挑战在于,我们需要优化的对象与永久化企业组织有着显著区别,"他表示。"这类机构很难提前规划,不知道什么时候会突然需要扩展规模,但有一点是肯定的--机构会逐步庞大且所有目标需要快速实现,因此我们必须在速度提升方面绞尽脑汁。"

  虽然速度如此重要,但Slbay仍然需要严格控制开销。他还需要保证机构中的每个环节都运转良好,并为整体组织的任务提供支持。"这能帮助我们赢得选举吗?这是我们衡量一切的重要标准,"他告诉我们。

  Slaby指出,深入理解这些指标能帮助他在制定决策时始终以组织需求为第一考量。他建立起自己的工程与基础设施团队,确保双方顺利协作并按照需求快速将系统加以整合。他将以云应用为代表的各类应用推广到几乎全部Web基础设施当中,因为它们能提供他所需要的速度与稳定性。

  这些准则还能帮助他决定哪些步骤可以跳过,即使这与标准化IT最佳实践有所冲突--毕竟对于临时机构而言,具体执行标准应当有所变动。举例来说,Slaby虽然关注安全事务,"但并没有执着于拿出一套完美的工具。"他并没有设置全面的灾难恢复计划,只是为某些关键性系统配备了冗余机制。另外,他也没有为工作人员或志愿者提供培训及发展规划。"我们没有时间处理这些事务,"他表示。他同时指出,具备广泛知识储备的人才往往比只精通某一方面的专家更具潜力,这是因为后者无法根据需求随时变换角色。

  技术团队需要具备精深的专业知识,Slaby与其他几位领导者达成了共识,因为临时性IT机构同样需要像永久性机构一样处理运营事务。尽管基础设施在寿命周期上有所妥协,但在临时情况下使其顺畅运作同样非常重要。

  举办奥运会

  在担任伦敦2012年奥运会及残奥会CIO的四年任期当中,Gerry Pennell手下汇聚了四百位全职员工、两千五百位临时员工以及三千位志愿者,如此庞大的团队共同在他的负责下为这场体育盛事提供IT支持。

  2008年11月,他所领导的团队刚刚完成北京夏季奥运会的IT服务工作。当时他手下只有十几名成员以及一部分由国际奥委会提供的人力支持。2012年11月,他终于胜利完成这场紧张激烈的技术攻坚战。卸任之后,他一手建立起来的团队将继续为2016年在里约热内卢举办的夏季奥运会服务。

  与其他CIO一样,Pennell需要建立一套典型的办公基础设施,其中包括会计、电子邮件以及知识管理系统等项目。他还负责在运动赛事中实际使用的系统,并为来自世界各地的运动员代表团、记者、参与者以及狂热粉丝提供技术支持。

  除此之外,Pennell也贯彻了CIO的通行思路,即根据丰富经验决定何时将新技术与更加成熟的应用相结合、何时购置现成设备以及何时自主开发任务工具。

  "我的出发点是尽个人所能将风险降到最低,因此只要没有特殊的理由,我们肯定会优先选择成熟可靠的技术方案,"他表示。Pennell还补充道,他可不想在全世界的注视之下闹出大规模故障。

  然而Pennell也并非一味抗拒新技术。他的团队在移动系统方面就吸纳了大量新生方案,借以在伦敦的奥林匹克公园内建立起全世界密度最高的Wi-Fi服务网络。

  Pennell还指出,鉴于临时性IT基础设施短暂的寿命周期,他们几乎没有考虑为其搭配安全系统。"如果一项技术能够顺利工作一天,也就证明它有能力继续工作一年--反过来更是如此,"他解释称。

  然而寿命周期的缩短也影响到了项目的实施进度。与Slaby与Robertory相同,他所能支配的时间也并不充裕。"大多数机构都能按部就班进行设施部署与调整,"他表示。"但奥运会却要求我们在开幕式当天将所有系统都准备万全,这样的要求显然更难实现。"

  为此,他从终端开始逆向实施部署,并通过实时测试确保一切组件都能在2011年夏季的初步执行中顺畅工作。这样的时间压力即使对于最有经验的IT部门也堪称巨大,Pennell坦言紧张的时间安排是他所面临的最大挑战之一。

  "大多数IT部门都拥有长期配合经验,了解自己该如何完成任务并具备可资指导的书面方案。我们则是一穷二白,团队中的成员也拥有非常复杂的从业背景--包括零售、银行以及公共事业部门--完全没有真正分享过处理问题的方法。另外,我们也没时间在实施办法上慢慢斟酌,由于周期紧迫、我们只能把时间用在管理与沟通等更重要的方面。"

  Pennell告诉我们,在奥运会项目的进展过程中,管理工作涵盖了阶段性进展控制、为相关工作制定严格时限并需要确保每位参与者都真正理解自己的任务目标与角色定位。

  在他看来,为奥运会服务是一段无比光荣的重要经历,因此他团队中的全职员工、临时员工以及志愿者都充满干劲。不过他仍然需要通过管理机制保证IT部门拥有明确的角色及职责划分,并以岗位描述与年度审查作为辅助。他们忽略了远期目标设定,这一点完全可以理解,但Pennell和他的团队的努力昭示了宏大项目如何在四年的执行周期中由理论规划逐步走向现实,并最终为全世界观众呈现出异彩纷呈的梦幻赛事。

  即使是在团队解散之后,当初的参与者们也得到了有力支持。租赁来的设备被送还给供应商,采购的物品也回到当初的卖家手中,以备日后转售或捐赠之用。机构还专门雇用了人力资源专家,帮助团队成员将奥运会服务经历写入简历以找到理想的工作。

  对于习惯了紧张充实工作氛围的团队成员来说,突然回归平静可能有点难以接受;但Pennell表示在奥运会中的出色表现证明了他们的强大潜能。在经历了这样高强度的工作之后,标准IT部门的日常运维任务将变得不再艰巨。

  领导者箴言


  来自第一线的建议:

  "奥运会最伟大的力量之一在于帮助参与者建立起统一的目标,并共同追寻最终结果。这是一种精神层面的动力,而不像其它项目那样仅仅是份工作。另外:由于必须简明扼要处理问题,我们顺利避开了很多纠缠IT部门多年的陷阱,不必再为花里胡哨的无用事物浪费资金和精力。这是值得学习的重要方面。"

  -- Gerry Pennell, 伦敦2012年奥运会及残奥会CIO

  "我们必须为自己的机构找到平衡点,即在敏捷性与稳定性之间折衷考量。我们倾向于在稳定性方面多做努力,并不得不在创新领域做出妥协。如何找到平衡点?这可没有什么神奇的指导公式,不同的机构与不同的企业文化将引出完全不同的结论,因此大家需要在实践中找到自己的理想方案。"

  -- Michael Slaby, 奥巴马2008年竞选团队CTO、奥巴马2012年竞选团队CIO

  "找到一种能帮助技术人员理解并切实完成任务的途径。在灾难应对工作中,我让企业中的技术团队感受到了前所未有的使命感与工作热情。日复一日,他们把精力倾注在计算机维修等平淡小事上;但一旦进入灾难环境,他们将与自己的救助对象面对面、并直观了解自己的工作为他人带来何等重要的帮助。相信每个人都能从中找到自豪感,并迸发出对工作的强烈热爱。"

  -- Keith Robertory, 美国红十字会灾害应对紧急通信经理

原文链接:点击此处查看

责任编辑:黄丹 来源: 51CTO.com
相关推荐

2010-10-18 14:51:17

IT运维

2010-01-22 16:08:11

IT运维管理

2018-01-25 10:56:17

双态运维IT运维新华三

2013-06-19 14:50:14

云计算

2013-01-11 15:42:40

IT运维云计算

2018-10-24 05:14:11

2012-08-17 14:07:21

2013-08-06 09:50:12

科学实验室太阳能

2009-07-01 11:55:00

国家部委IT运维管理体系

2019-03-15 10:13:10

运维云计算运营

2009-06-30 09:37:00

数据运维管理建设

2013-03-29 09:15:08

IT运维运维人员运维工程师

2013-02-21 10:27:26

极端环境新型服务器NCS

2016-12-13 13:15:49

运维

2017-12-15 09:20:20

IT运维顺丰

2012-03-07 11:37:48

IT运维管理

2018-05-10 08:18:12

无服务器运维服务器

2019-03-19 08:41:38

Linux运维变更

2016-11-11 15:00:08

2011-10-24 09:34:33

黑盒白盒运维
点赞
收藏

51CTO技术栈公众号