关于运维

摘要: 如果把工程师比做医生,运维工程师倒有点像外科医生。需要知道系统的一来二去,可以在问题突发时迅速地做出正确的处理,并且致力于对系统或流程作出持续的改进。

10-09 16:18 首页 嘀嗒嘀嗒

题图:A Surrealist in Istanbul by Salvador Dalí


大家也都知道我和极客邦渊源深厚,今天要推荐我邦的一个运维技术盛会。所以借此机会说说我和运维工程师不多的几次亲密接触。


运维在硅谷被称为 SRE(Site Reliability Engineer)。我觉得这个名字比运维好。运维听起来更像操作员,SRE 则听起来更有一种使命感和高端感。而且现在很多公司的情况,SRE 比运维对工作的描述更准确。


硅谷很多公司公司,线上出了问题,并不一定都是运维负责,而是所有的工程师轮流 Oncall(这个词还真不知道要怎么翻译)。只有 Oncall 中遇到是和服务器相关的问题的时候,才会找专门的运维。


我刚进入 Square 的时候,对各种系统的维护和操作几乎是一窍不通。很多命令行的指令都不熟。遇到问题该去哪里看数据,查日志,几乎都是抓瞎。好在组里有一个工程师 Ken,是之前 Google 做 SRE 的。来了 Square 之后,转成普通的工程师,没有再做 SRE。


当时组里一共二十个左右的工程师,我和他两个人负责 Square Store 的 Search Backend。每次我们组的项目线上出了问题,我都会去找他。我很喜欢坐在他旁边看他处理各种问题,他特别熟练,每次命令敲得飞快,在各个界面间自如地切换着,让我羡慕不已。他人也很好,每次都很耐心细致地跟我解释,还分享给我一些他自己列出的常见的命令和链接。一来二去,一些基本的监控、排查、修复操作,我也能自己搞定了。


后来,从 Square 离开,去了 Airbnb。那个时候,Airbnb 还没有专门的 SRE,一些各个组里对系统比较有经验的人,组成了早期的全民运维,叫做 Sysops。Sysops 并不是一个单独的组,而是别的组的人的「兼职」,轮流处理各种线上问题,有点儿全民运维的味道。


我因为在 Square 的经历和积累,也有幸成为其中的一员。Square 和 Airbnb 在系统 Monitoring 和 Alerting 上用的很多开源工具都是一样的,我之前在「工程师 oncall 那点事」中提到过一些。所以也算半个老司机。当然遇到特别棘手的问题,还是要去请公司更老的司机帮忙。


再后来,Airbnb 慢慢更大了,系统组也越来越完备。就开始招全职的 SRE 了。之前的 Sysops 就变得不那么重要,主要只负责在线上有问题的时候找到对应的组的人,通知他们处理。而 Sysops 的成员不需要太多的运维技术了。


我们招前几个 SRE 的时候,我经常是面试官之一。SRE 的面试题总的说来和普通工程师差不多,但是更侧重于系统的理解,写的代码也是脚本多于算法。因为此,我和公司最早期的几个 SRE 也都认识。感觉都很牛,知道的东西都很多。


总的说来,我觉得如今的运维或 SRE,不是简单的维护,更多的是搭建更好的工具和系统,让很多重复性工作自动化、让系统更稳健。需要的知识和能力,即广且深。因为多数 SRE 会接触大量的开源工具和云平台,基于其上搭建新的工具和系统,所以总是有机会接触很多最前沿的技术。且具有这些技能的人才,不论大公司还是小公司,都是必不可少的。


那么像 Airbnb 这样的公司 SRE 一般都需要有哪些技能或背景呢?感兴趣的可以参考一下我们的职位介绍:https://www.airbnb.com/careers/departments/position/80496 :

  • Experience bringing software to production at high scale

  • The knack for writing, clean, readable, maintainable code

  • An eye for automation and instrumentation

  • The ability to decompose complex systems and find failure scenarios

  • Great communication skills

  • Knowledge of AWS services

  • Contributions to open source software





作为极客邦的名誉成员,推荐下 InfoQ 将于9月上海举办的 CNUTCon 全球运维技术盛会:大会主题是“智能时代的新运维”,将向你展示关于运维的最新技术趋势和实践,共设智能化运维、DevOps & CI/CD、SRE 与微服务最佳实践、运维监控与安全、互联网金融运维等12个专场,涵盖运维的方方面面,邀请了来自 Google、Uber、BAT 等知名互联网公司一线技术大牛现场为你解疑答惑,并特设为期两天的会前深度培训,如果不想被日新月异的运维技术所淘汰,来CNUTCon 学习一定是你的不二选择!


目前已确认讲师32位,部分精彩议题抢先看:


Uber | Uber SRE以及Cache服务在微服务环境下的演进

Uber全球业务爆发式增长,如何为超过 2000 个微服务以及无人车提供稳定可靠高性能的计算存储支持是整个 Infrastructure 部门的工作重心,而其中 SRE 部门又是守护系统稳定的最后一道防线。


本话题将为大家介绍 Uber 的 SRE 团队是如何协同和其他部门工作,对公司业务和基础Infrastructure进行监控,也将分享Uber的整个数据中心从只有一个可写到现在全美国双活乃至全球多活的历程和故事。


滴滴 | 滴滴稳定性建设实践 

滴滴现在服务近4亿+乘客、1700w+司机、覆盖400+城市,超过10个业务线提供服务。故障处理是每个系统都要面对的现实问题,但随着系统越来越复杂,故障的发现、定位、处理难度也将随之增长。


业务的高速增长对稳定性工作开展是挑战,更是难得的机会。


本话题将为大家详细介绍滴滴在故障处理方面的建设,以及各团队如何围绕星辰花稳定性技术竞赛开展稳定性工作。


宜信 |  金融运维中的AI:宜信AIOps探索

近年来,人工智能技术备受关注,将AI引入IT运维领域,AIOps的概念由此而生。


本次分享是通过宜信技术研发中心在金融运维领域中如何引入人工智能技术的探索与实践,帮助大家了解哪些痛点适合引入人工智能技术,以及AIOps的关键技术之一:任务机器人的概念和难点,希望为大家建立适合自身需求的AIOps应用场景提供思路和方法。


天猫 | DevOps转型实践 

2016年,天猫的技术完成了两件大事:Dev转型DevOps、应用的运维工作由PE交接给DevOps。天猫为什么要做出这种转型?带来了什么收益?天猫是怎么去做的?此次演讲,会从研发人员的角度进行一个展示。这个过程是不是合理?经验是不是可以复制?我们将共同探讨。


京东 | 物流系统自动化运维平台技术揭密 

物流系统会有很多分支机构, 比如仓库、分拨中心、转运中心等, 业务复杂的分支机构可能会有自己的信息系统, 这些信息系统往往分布式地部署到全国各地,如何管理好这些分支机构的服务器、 信息系统, 降低因为地域分布造成的运维维护成本问题是每一个物流系统要考虑的现实问题。


本话题将详细介绍京东物流系统自动化运维平台的实现方案, 包括仓库系统的开仓实现、应用部署方案,以及研发排查问题的运维自助工具实现等。


目前大会9折报名倒计时中,报名时输入 CNUTCon-Angela-PROMO 可享7折优惠!数量有限,先到先得!点击“阅读原文”了解更多精彩议题!




首页 - 嘀嗒嘀嗒 的更多文章: