Howto构建一套完整的运维管理系统

| No Comments | No TrackBacks

一套完整的运维管理系统应该包含以下五个模块

  1. 硬件拓扑管理维护
  2. 服务监控及统计
  3. 事件与故障检测告警
  4. 性能监控统计分析
  5. 访问统计分析

1.有点偏向资产管理,但是不仅仅是资产管理,从服务器全生命周期维护到网络拓扑维护,都应该包括
2和3基本上可以用nagios来一个大一统的包含, 搜狐和网易基本上就是这么做的, 但是nagios的报表系统还很不完善, 而且实际环境中, 非纯web网页性质的服务的参数设置很需要一番实战技巧, 弄不好就是一堆告警。
4.推荐使用cacti来实现,sohu由于历史遗留原因,基本采用mrtg。cacti取代mrtg已经有很长时间了,没有很多的历史遗留问题,可以直接使用cacti, 性能分析这块,本质上来说很繁琐,需要长期的紧盯跟踪分析,基本上上线测试的时候就可以搞定,真正的线上系统不出什么大问题倒是不必太紧盯,定期看看曲线就可以了。如果是访问量过大,服务器或者带宽撑不住了老板更高兴。
5.这块的数据比较的机密, 直接和市场营销部门联系。初期可以直接使用cnzz或者yahoo!的统计,也可以使用一些开源软件。对数据分析和访问跟踪有要求的话可以考虑一些商业产品,比如cnzz的wss, 还有银杏泰克的相关产品等等。真正的大型网站,访问统计及分析系统必须自己开发了,sina内部禁止使用msn和qq进行交流就是出于很明显的原因。

当然我这里想的比较的简单,真正产品化的运维系统应该和其他产品线相结合,不论开始是否使用开源软件,最后都要形成一套自己的体系。如果说开发方面Don't Reinvent the Wheel.,那么对于一个要成长为大型互联网公司的我们而言,就是河上有现成的桥,我们也要造一座自己的桥。Yahoo, Google, sina每一个前辈都证明了这个说法。

No TrackBacks

TrackBack URL: http://blog.suchasplus.com/mt/mt-tb.cgi/193

Leave a comment

About this Entry

This page contains a single entry by suchasplus published on September 8, 2008 6:42 AM.

密码生成器的一个小细节 was the previous entry in this blog.

php定时执行任务的几个方法 is the next entry in this blog.

Find recent content on the main index or look in the archives to find all content.

Pages

OpenID accepted here Learn more about OpenID
Powered by Movable Type 5.2.7