昨天上午,blog.donews.com出现了故障,大约持续了一个小时。
下午,我要统计也停摆一个小时左右。
联系到最近3个月2次大规模断网,不禁让我的思绪回到了几年之前......
那还是互联网第一次叫春的时候,我在一家网站干着类似CTO的活,在为网站进行技术选型的时候,遇到了当时还是微软亚洲支持中心的华宏伟先生。
华先生告诉我一个简单的概念,用来评价网站服务,这就是RAS。
R-Reliability:可靠性
A- Availability:可用性
S-Scalability:可伸缩性
后来,经过我一番自学,发现在IT行业,以Sun、IBM、Intel为代表的企业,往往也采用了类似的概念。三个缩写也是RAS,只不过用可服务性--Serviceability,替代了可伸缩性。(可伸缩性一般指的是网站可以根据业务量实现轻松的升级和扩展,应对变化。可服务性一般指改进和修复服务的难易程度,例如一个模块化的系统,往往会有比较好的可服务性)
这三个概念中,容易混淆的是可靠性和可用性。因为从字面上看,他们很接近。
可靠性--指系统的运行的可靠程度,一般用平均无故障时间(MTBF)这个指标来衡量。
可用性--指系统能够提供服务的能力,一般由平均无过障时间和平均故障修复时间(MTTR)组成的公式来衡量。
这个公式:可用性=平均无故障时间/(平均无故障时间+平均故障修复时间)
因此,从极端情况上看,一个可靠性稍差的系统,如果通过缩短故障修复时间,也可以达到一定程度的可用性改进。譬如,同样的系统,如果其中一个网站雇一个人守在机房,一旦发生故障就重启一把,那么这个系统的可用性就会强于没有雇人的那个。
这个概念的深刻含义在于:
1,硬件系统的同质化和基础平台的不可控(大家都用相似的服务器,都托管在电信的IDC),你怎么改进你的网站服务?
2,网站的起步阶段,有限的硬件投资、带宽、有限的技术能力,如何提供可靠的服务?
3,更重要的是,基于指标、公式的监控和运作,很容易把你的网站运营从单一的技术改进(例如天天捉摸哪一个系统哪一个版本好?)提升到运营管理,从而实现系统的持续改进
经过长时间的摸爬滚打,互联网第一春中生存下来的公司,已经积累了足够的经验或足够的资本,他们的网站服务已经基本上可以满足用户的需要,而对第二春中正在崛起的服务商,个人希望他们少走些弯路。
就拿我常用的一些服务而言:
即使是国外的网站服务,如Bloglines、Flickr,都时不时的就要闹一点别扭。
而国内的,就眼下而言,Blog.Donews的不稳定、小故障已经快成家常便饭了,我只能盼望着,365Key不要再出什么问题,前几天在Alexa排名上看,365Key系统好像也不是很健壮,运行速度的评价是“Very Slow”,81%的站点都比它快。

Trackback: http://tb.donews.net/TrackBack.aspx?PostId=466803