復旧済 | PCGS全体が利用できなくなっていました
証明書更新手順のミスによりPCGSのWebUIおよび外部からの参照や投稿の受け取りなどが利用できなくなっていました。
また、Uptime Robotによる外形監視で検知できなかったため対応が遅れました。
復旧は完了しましたが、障害発生中に他のサーバーから送信されたトゥートは各サーバーが再送信した時点でタイムラインに挿入されるので、しばらくタイムラインの時系列が乱れます。申し訳ありません。
なおローカルタイムラインに影響はありません。
期間
2019/01/15 07:00時頃(不明) ~ 同日 15:51
原因
certbot
による証明書の更新スクリプトで証明書の更新は行われていたが、nginxがreloadしていなかったので新しい証明書が読み込まれず、古い証明書の期限が切れるタイミングで接続エラーが発生した。
復旧手順
systemctl reload nginx
対策
更新スクリプト /etc/cron.d/certbot
の修正
末尾に&& systemctl reload nginx
を付与。
その他
証明書に対しても外形監視を使用する。(検討中)
寝てました。アラート上がったらGoogle Homeくんがおしゃべりする仕組みも作っておきます。