復旧済 | PCGS全体がまた利用できなくなっていました
運用のミスによりPCGSのWebUIおよび外部からの参照や投稿の受け取りなどが利用できなくなっていました。
また、Grafanaによる外形監視で検知はしたもののアラートが上がらなかったため対応が遅れました。
復旧は完了しましたが、障害発生中に他のサーバーから送信されたトゥートは各サーバーが再送信した時点でタイムラインに挿入されるので、しばらくタイムラインの時系列が乱れます。申し訳ありません。
なおローカルタイムラインに影響はありません。
期間
2019/07/14 08:38 ~ 同日 13:43
原因
Webサーバーをcaddyに切り替えたためcertbotによる自動起動を停止していたが実際にはnginxが起動して配信していた。 その後nginxに読み込まれていた証明書の期限が切れた。
SSL Handshakeが失敗した場合Grafanaによってアラートが上がるはずだったがなぜか上がらなかった
復旧手順
systemctl stop nginx systemctl start caddy
対策
nginx自動起動の停止
systemctl disable nginx
Glafana
調査中
寝てました。なんとかします……。