2025年1月13日,GitHub的Git服务因内部负载均衡配置错误停机至少49分钟,部分用户甚至报告停机时间长达两小时。这一事件再次提醒开发者,依赖云端服务虽然便利,但也存在不可忽视的风险。

据官方状态报告,此次停机虽未影响GitHub的全部服务,但Git作为核心版本控制系统,其不可用会影响大量依赖仓库的操作。尤其是CI/CD系统(如GitHub Actions)在此类短暂故障中可能无法正常部署代码。

一些开发者因为未及时查询GitHub状态,误以为是本地问题而进行无谓排查。例如,有用户收到“permission denied (publickey). Fatal: could not read from remote repository”的错误信息,导致检查SSH密钥、重启服务器、甚至重新生成密钥,耗费大量时间。事件凸显了先确认云服务状态再排查本地问题的重要性。

回顾历史,这或许是自2024年8月14日以来最严重的GitHub停机事件。当时所有GitHub服务都因数据库配置错误全面中断。微软旗下的GitHub当时承诺,将增加数据库变更管理的保护措施,并提升依赖容错能力。而此次事件,公司也表示将改进监控与部署流程,提高故障检测和自动缓解能力

值得一提的是,分布式版本控制系统的特性在一定程度上减轻了影响。开发者可以在本地继续操作仓库副本,短时间停机并不会完全阻断开发工作。然而,对于依赖实时获取远程仓库最新版本的部署系统,仍然存在明显影响。

在社区讨论中,也有人提出自托管GitHub Enterprise Server的经验:部分团队自托管的系统在过去一年里运行稳定性甚至超过GitHub.com,但自托管同样存在风险,如维护成本高、无法享受GitHub.com的全球资源优势。