Feedforce Developer Blog

フィードフォース開発者ブログ

RSSSuiteの思い出 - 避難訓練

こんにちは、id:kano-e です。

5月末に弊社のRSSSuiteというサービスが終了しました。
フィードフォース創業当時からのサービスで、また自分は最後の何年間かRSSSuiteを担当していたので、感慨深いものがあります。
サービス終了後に社内勉強会でRSSSuiteの思い出話をしたのですが、一般公開できない話が多く含まれる内容だったのでブログへの掲載は見送っていました。

問題なさそうな部分だけ良い感じに抜き出して「RSSSuiteの思い出」として公開しようかなと、ふと思い立ちました、ふと。
今日は避難訓練の思い出話をしますが、今後RSSSuiteの思い出シリーズの続きがあるかは全くの未定です。

さて、RSSSuiteでは年に1回(多かった頃は2回あったと伝え聞いています)避難訓練と呼ばれるイベントを行なっていました。

避難訓練というのは、サービスである障害が発生したと仮定してその障害対応を行う、というものでした。
あ、当然、サーバダウンなどの操作は、本番環境をできる限り再現した検証環境に対して行います。
(ちなみに、RSSSuiteはデータセンターでサービス提供していたので、この検証環境は社内に構築していました)

自分がよくやったのは「MySQLのマスターサーバダウンによるレプリケーション切れと、マスタースレーブ切り替えてレプリケーション再構築」というシナリオです。
幸いのところ、わたし自身は実際に障害対応でレプリケーション再構築を行なう機会には恵まれずに済みましたが、dbサーバの入れ替え時やwebサーバダウン時には、避難訓練での経験がだいぶ活きていたと思います。
webサーバダウンの障害を元に「サーバの故障によるwebサーバダウンからの復旧」というシナリオで避難訓練をやったりもしてたかな。

避難訓練の効果ですが、実際に手を動かして操作したという経験ができることももちろんありますし、避難訓練をすることで「どういう状態が正常でどういう状態が異常か」「どこを見たらそれが判断できるか」といった情報が把握できたりメンバー内で共有されたりできるのが、良かったなと思ってます。

もちろん、RSSSuiteと今フィードフォースで運用しているサービスは環境も状況も何もかもが違うので、それをそのまま適用はできません。
それぞれのサービスのそれぞれの状況で「今の状態で起こりそうな障害はあるか」「最悪のシナリオは何か」「それに対して何ができるか」を考えていけたら良いな、というようなことを考えました。