新闻中心
洞察行业前沿技术,聚焦梯度科技动态
7月13日晚11点左右,网友发现B站崩了!
一波未平一波又起,随着B站“崩了”,A站、豆瓣、晋江等平台纷纷跟上,由B站领衔主演的《崩了》激情上演。
7月14日2点20分,B站发表动态回应:
昨晚,B站的部分服务器机房发生故障,造成无法访问。技术团队随即进行了问题排查和修复,现在服务已经陆续恢复正常。耽误大家看视频了,对不起!
历时3个多小时“抢修”,B站功能恢复正常。
对于这次服务器集体“崩溃”事件,互联网上的讨论堪称现象级,热搜榜上的“爆”字样更是为“顶流社区”盖章认证。
但这个问题仍困扰着我们:B站到底为什么会“崩”呢?
B站为什么会“崩”?
网友们纷纷揣测关于B站崩了的原因:
有火灾说、删库跑路说、刑事案件说、服务器供应商说、黑客攻击说、大楼坍塌说、外星人说……
在“B站崩了”发生后的三个小时内,B站的功能都没有完全恢复,如此长的“宕机”时间,不少专业人士直言,B站崩了的事故等级已经达到了P0级(最高级别事故),B站的研发及运维人员“摊上大事了”。
猝不及防的宕机背后都是程序员小哥哥的一把辛酸泪啊!
从官方道歉声明看,B站方面并没有对具体的事故原因作出回应,不过不少网友的高赞回答都提到了云服务供应商出现问题的可能性。
云服务提供商提供的CDN出现意外之后,大量请求绕过CDN直接打到网关,网关收到大量请求,自动启动了容灾策略。
容灾策略启动服务降级。服务降级了但没完全降,CDN挂了,网关也跟着挂了,服务雪崩,一直崩到整个环境。
史上严重的服务宕机事件:最高损失上亿美元
今年 3 月,欧洲最大云服务商 OVH 的数据中心大楼起火,导致超过 350 万个网站下线。
350 万个,是什么概念呢。包括政府机构、门户网站、银行、商店、新闻网站在内,统统崩了,没商量。
其中,视频游戏开发商 Rust 所有数据瞬间消失,并且无法恢复,整个公司长时间的努力,付之东流。
相比起来,B 站这回损失似乎算轻了。
7月14日,信达证券以B站事件为契机发布通信行业相关研报,并在报告中表示,B站事件折射出IDC(互联网数据中心)机房安全性、稳定性的重要性,认为互联网企业需要非常专业化的、经验丰富、技术领先的 IDC 团队。
显然经过这次故障,大家对构建高可用高容灾的IT系统和建设IT灾备系统的意识将得到进一步提升。
如果要降低宕机风险,就需要提高服务的高可用性。首先,从架构上建议采用云原生架构,实现自动容错机制和故障隔离,从而能够在服务出现故障时快速迁移或回滚。
其次,为防止硬件故障类风险,需要有完善的灾备方案,同城双活或异地灾备目前都已经有比较成熟的方案,企业在这块的投入应当提前进行考虑。