SRE(Site Reliability Engineering)のプラクティスに基づき、システムの信頼性目標(SLO)を定義し、エラーバジェット(許容されるダウンタイム)を管理する運用を導入する施策です。「可用性99.9%」などの目標に対し、残りのバジェットを可視化することで、「新機能開発を優先するか、信頼性向上を優先するか」の判断をデータで行います。
職種 |
情報システム | 施策難易度 |
★☆☆☆☆ |
|---|---|---|---|
業界① |
IT・情報通信 | 目的 |
信頼性向上 意思決定 |
業界② |
ソフトウェアメーカー | 対象 |
SRE エンジニアリングマネージャー プロダクトマネージャー |
費用 |
100〜500万円 | 90 |
主なToDo
- ユーザーにとって重要な体験(CUJ)を定義し、SLI(指標)を決める
- Datadog等でSLOダッシュボードを作成する
- エラーバジェットが枯渇したら、機能リリースを凍結して改善に回るルールを作る
期待できる効果
可用性の目標と許容ダウンタイムをデータで管理することで、開発の攻めと守りのバランスを科学的に最適化。無理のない開発計画と安定稼働の両立により、信頼性の高いサービス運営を実現します。
躓くところ
全社で納得感のあるSLOを設定するための合意形成と、監視システムの精緻な構築が困難です。エラーバジェットを使い果たした際に、新機能開発を停止する経営レベルの規律維持も課題です。

SLO(サービスレベル目標)監視・運用【ソフトウェアメーカー】






