A plataforma de implantação na nuvem Railway enfrentou uma interrupção de serviço em grande escala na madrugada do dia 20 de maio, horário de Pequim. O motivo principal foi o bloqueio das contas da Railway pelo Google Cloud, o que deixou indisponíveis o painel de controle (Dashboard), a API e o plano de controle de rede interna hospedados no Google Cloud. Todos os serviços dos usuários rodando na infraestrutura do Google Cloud também pararam de funcionar; entre os erros reportados estavam “no healthy upstream”, “unconditional drop overload” e falhas de login. As cargas de trabalho no Railway Metal (servidores físicos próprios) não foram afetadas. O incidente teve início por volta das 6h29, horário de Pequim, e a equipe da Railway entrou em contato direto com o suporte do Google Cloud. Contudo, devido a problemas na camada de rede do Google Cloud, mesmo após a recuperação dos recursos computacionais, os serviços demoraram a voltar ao normal; o processo de restauração durou mais de sete horas.
Durante esse período, a Railway limitou a velocidade das tarefas de build dos usuários não corporativos para preservar a estabilidade da infraestrutura; os clientes empresariais não sentiram nenhum impacto. Por volta das 14h14, horário de Pequim, a empresa anunciou que os serviços já estavam totalmente restaurados e automaticamente reiniciou as cargas de trabalho identificadas como instáveis. Caso algum serviço ainda não respondesse corretamente, os usuários podiam acionar manualmente um novo deploy pelo Dashboard ou pela CLI. A Railway informou que publicará um relatório pós-incidente detalhado assim que a situação se mantiver estável.