GitHub 报告 2025 年 1 月的服务中断
一月的服务中断
在 2025 年 1 月,GitHub 发生了三起重大事件,导致其服务性能下降,详细信息请参见他们的可用性报告。这些中断是由于各种技术问题引起的,包括部署错误、配置更改和硬件故障。
事件详情
2025 年 1 月 9 日(31 分钟)
第一次事件发生在 1 月 9 日,01:26 到 01:56 UTC。一项部署引入了一个有问题的查询,导致主数据库服务器过载,错误率达到 6.85%。用户在多个服务中遇到了 500 响应错误。GitHub 在调查了 14 分钟后回滚了部署,通过内部工具和仪表板识别出错误的查询。
2025 年 1 月 13 日(49 分钟)
1 月 13 日,23:35 UTC 到 00:24 UTC 之间,由于与流量路由相关的配置更改,Git 操作不可用。此调整导致内部负载均衡器丢弃了 Git 操作所需的请求。问题通过恢复配置更改得到解决。GitHub 正在改进监控和部署实践,以提高检测时间并自动化缓解措施。
2025 年 1 月 30 日(26 分钟)
最后一次事件发生在 1 月 30 日,14:22 到 14:48 UTC,涉及到对 github.com 的网页请求失败,错误率峰值为 44%,平均成功请求时间超过三秒。问题源于负责速率限制的缓存层的硬件故障。由于缺乏自动故障转移,影响时间被延长。GitHub 通过手动故障转移到可信赖硬件以防止复发。他们计划实施高可用性的缓存配置,以增强抵御类似故障的能力。
未来的改进
GitHub 正在积极投资于增强其工具,以在部署前检测有问题的查询,并改善其缓存弹性,以防止未来的中断。这些措施旨在减少潜在问题的检测和缓解时间。
要获取有关服务状态的实时更新和事后报告,用户可以访问 GitHub 的状态页面。有关 GitHub 工程努力的更多见解,请参阅 GitHub 工程博客。
Read More
Klarna's AI Assistant Transforms Customer Support for 85 Million Users
Feb 13, 2025 1 Min Read
GitHub Reports Service Disruptions in January 2025
Feb 13, 2025 1 Min Read
NVIDIA's Jensen Huang Honored for Revolutionizing Precision Medicine with AI
Feb 13, 2025 1 Min Read
Sui Overflow 2025 Hackathon Registration Opens for Global Innovators
Feb 13, 2025 1 Min Read