主页(http://www.kuwanit.com):来自冰雪盛会的启示:大型赛事如何保障 IT 系统安全有效?
文 | 曾响铃
来源 | 科技向令说
因为进入技术工作间要跨过一段雪道,IT 工程师化身就地取材的搬运工,用桌子当作雪橇在冰天雪地里搬运重要的设备;
不巧遇上缆车停运,原本要去一个重要场馆进行 IT 检查维护的工程师不敢耽搁,选择了在零下 10 度的严寒中冒着寒风徒步爬上高达 160 米的陡坡;
出现了突发的设备部署问题,而时间已经越来越紧迫,工程师们共同协商、行动,直到隆冬的深夜彻底解决问题后,才各自散去……
最近,凤凰网发布一支关于冰雪盛会背后的数字建设者的视频,引发广泛关注,而这些不断克服困难、忘我工作的 IT 运维场景就来自于凤凰网这支视频,来自于背后的这个隐形工程,一个看不见的赛场。
冰雪盛会无疑成为当下主要的舆论热点,无数运动员和教练团的梦想要在这里找一个答案,而作为一种大型赛事,其背后的 IT 运维同样值得业界关注,在大型赛事的 IT 支撑如何有效进行的问题上,这场冰雪盛会或许也在给出自己的答案。
急、难、变,国际大型赛事的 IT 运营面临三大挑战
普通人对大型赛事的直观印象,往往停留在艺术大师设计的钢筋水泥恢弘建筑以及紧张刺激的运动员比赛当中,而事实上,在建筑物之下、在运动员之外,一个能够提供 IT 支撑保障赛事顺利进行、让信息及时有效传播的技术系统更可以看作是一场赛事的血液和骨架。
作为不为多数人所能直接察觉而又不可或缺、时刻存在的工程,信息传播让赛事精彩在发生的同时能够同步传递到全世界、为全球观众所共享,在很多类似规模和级别的赛事中,IT 运维保障往往面临急、难、变三大挑战:
一是急,一般大型赛事给予 IT 系统筹备的时间并不算长,而 IT 系统往往囊括方方面面,像历届奥运会、亚运会都包括注册系统,住宿系统,工作人员志愿者管理系统,医疗管理系统,抵离系统,物流系统,火炬传递系统等复杂系统,要在不长的时间内完成搭建——在这场冰雪盛会的前 45 天,北京和张家口地区每个场馆都还在紧张地进行着最后的技术调试。
而更不用说在赛事进行期间,由于实时性要求,IT 运维必须能在出现问题时做到快速响应甚至即时响应。
二是难,大型赛事对 IT 系统的要求是洪峰式的,复杂赛事情况、庞大的 IT 基础设施系统对 IT 运营提出了各种难题,很多任务超出通常的 IT 运维所面临的状况。
以世界杯为例,仅判定进球的准确性,就涉及复杂的 IT 要素,包括门线摄像头、有线及无线通讯、智能电网、裁判的智能手表、网络安全,太阳能发电等,要进行十分精密的设计(本次冰雪赛事上,追踪短道速滑的快速移动摄像机也成为帮助判罚的功臣)。而在对外传播上,从 2014 年起,随着通信技术和移动终端的快速发展,每界世界杯的全球观众都超过 30 亿人,给 IT 系统提出了极高的稳定性要求。
三是变,与通常的企业、政务机构 IT 系统在一个较为标准化的场景中设置不同的是,大型赛事的实际场景多变、个性化强,面临更复杂的自然条件和更多基础设施方面的困难,系统方案只能因地制宜,很多经验无法复用,每一次 IT 系统的建设和运维,都是一次全新的挑战。
这次赛事就十分典型,场馆设置分为永久建筑与临时建筑,现场情况也较为复杂,IT 系统在每个场馆都需要单独考虑,连遇到情况要赶往现场处理也面临各种变数,开篇提到的工程师自己爬长坡便是如此。
快、准、狠——冰雪盛会的 IT 运营是怎么做的?
在凤凰网的视频中,为本次赛事提供 IT 运维服务的团队,其做法与大型赛事所面临的 IT 运维挑战相对比,可以说主要表现出快、准、狠三大特征,而这些特征一方面固然可以说是联想团队发挥长期以来 IT 服务能力的展现,而另一方面,也不得不说是这种大型赛事倒逼 IT 运维的结果。
首先,在出现任何状况时,IT 运维要做到 " 快 "。
在视频中,张家口地区场馆出现了技术故障,必须立刻处理。按通常的 IT 运维过程,这种设备测试是一种常态,但对赛事来说 " 常态 " 却并不意味着就是小事,出现任何问题和故障,不仅需要尽快消除故障、恢复服务,更要找到问题出现的根本原因。
此时,崇礼地区场馆的 IT 负责人没有耽搁,马上连同其中一位场馆技术运维负责人前去查看,在必须到场馆顶部现场查看时,就出现了开篇一行人在零下 10 摄氏度的寒风中徒步爬上 160 米狭窄陡坡的一幕。
而当天出现的问题,在最终在深夜得到了圆满解决。在有限的准备时间里,每一天的耽误积压到下一天,试错空间越来越小,最终会造成 IT 系统无法在开赛前圆满搭设完成," 当日事当日毕 " 这种个人励志的箴言,在赛事 IT 运维这里同样适用。
然后,是在复杂系统的工作中能够运筹帷幄、找 " 准 " 核心目标克服困难。
在通常的政企 IT 系统运维中,一个设备调试问题可能不算很复杂,但在这里,由于场馆众多、设备体系庞杂,每一个小问题往往都可能要层层传递到技术运维项目组的各个部门,这时候,系统化调用来自各方的资源、准确识别问题就变得十分重要。
在凤凰网的视频记录中,面对张家口地区机房内设备网络调试问题,一位技术运行中心的高级顾问开始了技术团队人员调配、协同各方力量资源 " 会诊 " 的工作,让联想设备相关技术问题得到及时有效的处理和解决。
在汇聚不同组织和公司人员的共同参与下,这个 " 临时团队 " 明确问题、确切原因,进一步优化技术方案,在复杂的 IT 系统之下,不能联网的问题得到了准确的认知并最终圆满解决,两台机器最终连上了网络——这个看似简单的故障,在大型赛事这里必须汇聚多方智力共同定位和准确认识才能得到有效解决。
最后,是在具体执行落地方面,要求工程师们在工作理念和方式上足够 " 狠 "。
发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。