新闻中心

洞察行业前沿技术,聚焦梯度科技动态

#B站崩了# ,崩的是服务器吗?不!是又“摊上大事”的程序员!
2021-07-15
文章来源:
作者:梯度科技

7月13日晚11点左右,网友发现B站崩了!

一波未平一波又起,随着B站“崩了”,A站、豆瓣、晋江等平台纷纷跟上,由B站领衔主演的《崩了》激情上演。


梯度科技


7月14日2点20分,B站发表动态回应:

昨晚,B站的部分服务器机房发生故障,造成无法访问。技术团队随即进行了问题排查和修复,现在服务已经陆续恢复正常。耽误大家看视频了,对不起!


历时3个多小时“抢修”,B站功能恢复正常。


对于这次服务器集体“崩溃”事件,互联网上的讨论堪称现象级,热搜榜上的“爆”字样更是为“顶流社区”盖章认证。


但这个问题仍困扰着我们:B站到底为什么会“崩”呢?


B站为什么会“崩”?


网友们纷纷揣测关于B站崩了的原因:


有火灾说、删库跑路说、刑事案件说、服务器供应商说、黑客攻击说、大楼坍塌说、外星人说……


梯度科技


在“B站崩了”发生后的三个小时内,B站的功能都没有完全恢复,如此长的“宕机”时间,不少专业人士直言,B站崩了的事故等级已经达到了P0级(最高级别事故),B站的研发及运维人员“摊上大事了”。


猝不及防的宕机背后都是程序员小哥哥的一把辛酸泪啊!


从官方道歉声明看,B站方面并没有对具体的事故原因作出回应,不过不少网友的高赞回答都提到了云服务供应商出现问题的可能性。


云服务提供商提供的CDN出现意外之后,大量请求绕过CDN直接打到网关,网关收到大量请求,自动启动了容灾策略。


容灾策略启动服务降级。服务降级了但没完全降,CDN挂了,网关也跟着挂了,服务雪崩,一直崩到整个环境。


史上严重的服务宕机事件:最高损失上亿美元


今年 3 月,欧洲最大云服务商 OVH 的数据中心大楼起火,导致超过 350 万个网站下线。


350 万个,是什么概念呢。包括政府机构、门户网站、银行、商店、新闻网站在内,统统崩了,没商量。


梯度科技.png


其中,视频游戏开发商 Rust 所有数据瞬间消失,并且无法恢复,整个公司长时间的努力,付之东流。

梯度科技.png


相比起来,B 站这回损失似乎算轻了。


7月14日,信达证券以B站事件为契机发布通信行业相关研报,并在报告中表示,B站事件折射出IDC(互联网数据中心)机房安全性、稳定性的重要性,认为互联网企业需要非常专业化的、经验丰富、技术领先的 IDC 团队。


显然经过这次故障,大家对构建高可用高容灾的IT系统和建设IT灾备系统的意识将得到进一步提升。


如果要降低宕机风险,就需要提高服务的高可用性。首先,从架构上建议采用云原生架构,实现自动容错机制和故障隔离,从而能够在服务出现故障时快速迁移或回滚。


其次,为防止硬件故障类风险,需要有完善的灾备方案,同城双活或异地灾备目前都已经有比较成熟的方案,企业在这块的投入应当提前进行考虑。


梯度科技.jpg


0731-82253717