老哥俱乐部-滴滴崩了，网络加载异常... 怎么解？

昨天，作为国内最大的移动出行平台之一，滴滴出行平台突然出现了系统崩溃、用户无法正常使用其打车服务、网络加载异常等问题，此问题迅速引起了广泛关注和热议。

纵观云计算的发展史，云计算事故不仅仅是发生在国内，国外也没有停止过。

· 2016 年，Salesforce 遭遇停电和大范围宕机，影响时间超过 24 个小时，覆盖了北美 14 个站点。从那之后，Salesforce 将其大部分工作量转移到了AWS上。

· 2016 年，甲骨文旗下的 DYN(DNS业务) 遭遇了 DDoS 攻击，致使Airbnb、Twitter、 Amazon、Ancestry、 Netflix、PayPal 等公司的业务受到不同程度的影响。

· 2017 年，亚马逊 AWS 弗吉尼亚州数据中心出现单点存储区域故障，其云存储服务 S3 出现了较高的错误率，造成长达2小时的服务不可用。Netflix、Airbnb 、Slack、Spotify、雅虎网络邮箱等互联网服务受到明显影响。

· 2018 年，微软 Office365 和 Azure Active Directory 访问出现问题。

· 2018 年，因重复分配内部 IP 地址，Google Cloud 虚拟机实例大量出现联不上网的问题。

所以，企业能做的不是祈祷底层组件不出故障，而是需要理性看待与云计算厂商的关系和责任边界，另一方面无论业务部署在哪里，都应当做好事前告警。

在当今数字化时代，人们的出行需求日益增长，移动出行平台的稳定性和可靠性对于为用户提供便利的出行服务至关重要。从此次故障可能原因来看，带来的教训是深刻的。

· 从全线产品线出问题来看，可能是数据库批量挂掉，恢复数据完成时间不可控。

· 变更导致，基础架构崩溃，比如云平台崩溃，问题难定位。

技术风险保障和高可用架构设计非常重要，确保数据备份、系统容错能力，并进行定期的容灾应急演练，缩小运维动作灰度范围。同样，此次事件更是凸显了事前告警在现代企业中的重要性。

老哥俱乐部结合15年在IT运维领域的技术沉淀与行业服务经验积累，给出见解：

? 建立全栈监控。把用户访问、应用程序、基础设施的所有数据有机地整合在一起，提供一个一体化、成体系的解决方案，实现端到端全栈的可观测和告警。

? 多元集成。与第三方多源数据集成底层CMDB实体相互打通，实时纳管指标、调用链、日志和事件等信息，实现故障树拓扑的实时构建，缩减故障根因定位时间，可极大地提升运维处理效率。

? 智能运维。针对承载网络告警量大、告警关联性复杂、故障定位难、人力成本消耗大等一系列问题，组织可以通过采集现网承载网络运行数据，如告警、拓扑、网元、业务、工单数据等，引入人工智能技术进行告警根因关联和故障智能诊断，实现故障准确派单和故障原因的快速诊断，促进承载网络的自我维护、智能运营能力和运维效率提升。

回顾本次故障，也在给互联网行业发展提供一次反思的契机。从稳定性问题到数据安全与隐私保护，再到竞争与市场监管及业务创新，互联网行业面临着诸多挑战和问题。只有通过不断地反思和改进，我们才能确保这个行业能够持续健康发展，并在未来继续为人类带来更多的便利和价值。

老哥俱乐部

滴滴崩了，网络加载异常... 怎么解？

文章标签

相关文章

APMO市场份额NO.1

1000+头部客户的共同选择

监测节点30w+

立即体验一体化智能可观测性平台