Skip to main content

tplogin.cn首页 > 路由器问答 >

面对IDC机房带宽流量暴涨应该怎么办

2012-06-27 16:24 浏览:

 

【实际案例一】

凌晨3:00点某公司(网站业务)的一个IDC机房带宽流量突然从平时高峰期150M猛增至1000M,如下图:

该故障的影响:直接导致数百台服务器无法连接,该机房全部业务中断。

【实际案例二】

某年某月某日夜老男1孩接到学生紧急求助,公司网站(web游戏业务)平时几十M带宽,结果突然跑满100M,持续100M已经很久。事后,该学生的总结开头如下,

凌晨一点接到报警短信,网站无法访问。立马拿起笔记本上网查看,发现整个机柜的网络都无法正常访问。第一感觉是不是IDC网络出问题了,给机房打电话反馈回来的信息是机房网络正常,但是带宽流量异常(100M带宽的流量峰值已跑瞒)。

该故障的影响:直接导致数十台服务器无法连接,该机房全部业务中断,且故障持续时间长。

【实际案例三】

某月某日,接到运维的朋友紧急求助,其公司的CDN源站,源站的流量没有变动,CDN那边的流量无故超了好几个G,不知道怎么处理? 老男孩补充,曾遇到过一张图片不到一天,跑了20多T的一张流量。

该故障的影响:由于是购买的CDN,虽然流量多了几个G,但是业务未受影响,但是,这么大的异常流量,持续下去可直接导致公司无故损失数万元。解决这个问题体现运维的价值。


2、【分析问题】

  1)IDC带宽被占满的原因很多,常见的有:

  a.真实遭受DDOS攻击(遇到过几次,造成影响的不多见,其中还有黑客勒索的案例)。

  b.内部服务器中毒,大量外发流量(这个问题老男孩接警5次以上)

  c.网站元素(如图片)被盗连,在门户页面被推广导致大量流量产生(接警3次以上)

  d.合作公司来抓数据,如:对合作单位提供了API数据接口(有合作的公司的朋友了解这个)

  e.购买了CDN业务,CDN猛抓源站(这个次数也不少)。

  f.其他原因还有一些,不普遍就不提了。

  2)CDN带宽异常,源站没异常。

  这类问题基本都是缓存在CDN的数据被频繁访问引起的。解决方法见结尾案例。

  3) CDN带宽异常,源站也异常。

  可能原因如公司做推广,大量数据访问,热点数据cache里不全。或CDN问题导致数据回源(有关CDN回源率问题及提升回源率经验,以后再和大家分享)。影响就是带宽高,后端静态服务器及图片及存储压力大。


3、【解决问题】

  分析了问题的可能原因,就好比较排查了。

  a.真实遭受DDOS攻击

  b.内部服务器中毒,大量外发流量。

  这个问题的解决比较简单,可能有的朋友说,看看服务器流量,哪个机器带宽高处理下就好了。其实不然,实际解决比这复杂得多,带宽打满,所有监控都是看不到的。

  比较好的思路,是联系机房确定机房自身无问题后(机房一般没法帮我们的),请机房断开连接外部IP服务器的网线,如负载均衡器,仅保留VPN SERVER,然后断掉内部服务器出网光关的线路,切断外发流量源头。

  接下来查看监控流量服务,判断外发流量的服务器,然后进行处理。

  其实,这个问题的发生及快速定位和很多公司的运维规范、制度关系很大,老男孩在给一些公司做运维培训分享时发现这个问题很严重(表象很好,内部运维规范、制度欠缺很多),大家都讨论的很深入,实际用的还是和聊的有差距。。

  比如有的公司开发直接FTP连接随时发布代码,或者由开发人员负责定时多次上线。而运维人员又不知晓,结果导致问题发生定位时间长,这点建议各公司的老大多思考下。

  老男孩的运维思路是,如果把网站机房比喻为一座房子,那首先要堵住后门(内部),其次是监控好前门(做好安全,留个小窗户给外面人看,即80端口服务,同时安排站岗值班的)。

  网站的无休止的随时随意发布代码,对网站的稳定影响是至关重要的。对运维人员对故障的定位快慢也很关键。根据老男孩不完全调查,约50%以上的重要运维故障都是程序代码导致的,这也是老男孩给企业做培训分享时,灌输建议CTO的,多把网站稳定的责任分给开发,而不是运维。如果这个思想不扭转,网站不稳定状况就难以改变。

相关文章

新机房该如何配置网络

2012-08-15 21:36:31    浏览: 105

一名网管初入机房学习的心得

2012-06-23 16:08:21    浏览: 110

单位机房夏天室外多少度要空调 空调能24小时开

2012-06-04 00:13:18    浏览: 191

领导检查机房时运维人员要做什么准备

2012-05-13 23:35:25    浏览: 178

某铁通机房的故障排除分享

2012-04-27 23:29:55    浏览: 111