デフォルト画像 SLO(サービスレベル目標)監視・運用【ソフトウェアメーカー】

SRE(Site Reliability Engineering)のプラクティスに基づき、システムの信頼性目標(SLO)を定義し、エラーバジェット(許容されるダウンタイム)を管理する運用を導入する施策です。「可用性99.9%」などの目標に対し、残りのバジェットを可視化することで、「新機能開発を優先するか、信頼性向上を優先するか」の判断をデータで行います。

職種 情報システム 施策難易度 ★☆☆☆☆
業界① IT・情報通信 目的 信頼性向上 意思決定
業界② ソフトウェアメーカー 対象 SRE エンジニアリングマネージャー プロダクトマネージャー
費用 100〜500万円 実施期間 90

主なToDo

  • ユーザーにとって重要な体験(CUJ)を定義し、SLI(指標)を決める
  • Datadog等でSLOダッシュボードを作成する
  • エラーバジェットが枯渇したら、機能リリースを凍結して改善に回るルールを作る

期待できる効果

可用性の目標と許容ダウンタイムをデータで管理することで、開発の攻めと守りのバランスを科学的に最適化。無理のない開発計画と安定稼働の両立により、信頼性の高いサービス運営を実現します。

躓くところ

全社で納得感のあるSLOを設定するための合意形成と、監視システムの精緻な構築が困難です。エラーバジェットを使い果たした際に、新機能開発を停止する経営レベルの規律維持も課題です。

狙えるチャネル

監視ツール