Dormando的运维秘诀分成以下三大篇:
1、技术篇
2、交流篇
3、实践篇
在之前我们已经介绍过了技术篇的内容,讲述了有关变化、自动化、冗余、备份、监控、日志、数据库、可扩展性、缓存、以及安全方面的秘诀。今天介绍的第二篇是交流篇,讲述的是有关运维的知识积累、经验积累、协同合作、个人成长方面的内容。其中有些内容不仅是站在运维本身的角度来考虑,同时也对运维的管理者提出了建议。
交流篇
通过多种方式来学习
◆订阅一些RSS feed,每星期至少阅读几篇好文章。LWN,kerneltrap,undeadly.org。凡是相关的,或是仅仅是有点擦边的内容都应该关注。
◆阅读“达人”的博文。有时他们会投递一些有趣的主题,并且我们还可以通过评论直接和博主进行交流。
◆阅读几篇非“达人”的博文。通过他们遇到的问题,或者他们做了但没有做好的工作,我们可以找到一些感觉。(译注:这一点我个人深有体会。阅读一些新手的博文,我们常常可以得到启发,因为我们的一些做法虽然不会出问题,但是太程式化了,每天都重复同样的事情,我们无法进步,而新手由于缺乏经验,他们会不断地尝试各种做法,他们遇到的问题很可能是我们没有遇到过的,这对我们来说是一笔财富。)
◆想尽办法认识一些可以“痛扁”你的人。注意,一定要谦虚。
◆通过多种来源学习。通过多种方式吸收知识有助于找到最适合你的方式。
◆仔细研读其他公司成功或失败方面的故事。可以尝试打电话给他们的CTO,通过免费的午餐从他们那里获取一些有价值的建议。
尝试各种事情
◆如果你不断地进行尝试,你会发现你能做的事情远远超出了你的想象。以前从来没有见到过?那就试试看。
◆尽量不做一只危险的“菜鸟”。在你有把握不会把整个房间都烧掉以前,应该在“沙箱”中进行尝试。
真正地搞清楚冗余是怎么一回事
◆真正地搞清楚冗余会对哪些事情造成怎样的影响。在什么情况下它可以发挥作用,在什么情况下它无法发挥作用。
◆尝试破坏你的系统。你可以在测试实验室中尝试,有时也可以在生产系统中这样做。了解一下当你处于受限状态中的时候可以做什么。比如,拔掉电源,抽出网卡,杀死进程,拔掉几根内存,抽掉硬盘,拔掉网线。
◆在冗余存在的情况下尝试替换和升级系统。
真正地理解可扩展性
◆关于如何开发出可扩展的系统,有很多的资料可以参考。虽然你不用自己编写一个这样的系统,但是你要尽量搞清楚这方面的理论知识。
◆学习虚拟化。创建几个虚拟机,然后尝试着摆弄一下针对多台机器的应用程序。在本地的不同的端口上运行多个实例。
◆通常,运维人员要做一些系统承载量方面的计划。如果你不清楚应该把什么资源应该添加到哪里,你就不会知道应该添加些什么。