本番環境またはそれに近い環境で、意図的にサーバーを落としたり遅延させたりして(障害注入)、システムが正しく自律回復するかを実験する取り組みです。Netflixが有名です。予期せぬ障害に対する耐性(レジリエンス)を高め、弱点を事前に発見・改修します。
職種 |
情報システム | 施策難易度 |
★☆☆☆☆ |
|---|---|---|---|
業界① |
IT・情報通信 | 目的 |
品質向上 障害対策 |
業界② |
ソフトウェアメーカー | 対象 |
SRE インフラ担当 プラットフォームエンジニア |
費用 |
50〜300万円 | 90 |
主なToDo
- 障害注入ツール(Gremlin, Chaos Mesh等)を導入する
- 「DBが落ちたらどうなるか」などの実験シナリオを計画する
- 影響範囲を限定して実験を行い、回復プロセスを確認する
期待できる効果
意図的な障害注入によりシステムの耐性を試験することで、本編環境での深刻なトラブルを未然に防ぐ。自律回復力の向上により、エンジニアの夜間休日対応を減らし、安定したサービス提供を実現します。
躓くところ
実験が想定外の影響を及ぼし、本物の大規模障害を誘発してしまうリスクを管理するための高度な設計が困難です。障害耐性向上に対する組織的な重要性の理解と、実験時間の確保に向けた合意形成も課題です。

カオスエンジニアリングの実施【ソフトウェアメーカー】






