AS400障害検知のKPI|IBM i運用で見るべき時間・件数・再発防止

AS400 / IBM iの運用改善では、「障害が起きたか」だけでなく、「どれだけ早く気づき、どれだけ早く切り分け、再発を減らせたか」を見ることが大切です。障害検知のKPIを決めておくと、保守会議や改善要望の優先順位を決めやすくなります。

AS400は安定しているからこそ、障害が少ない時期に検知と初動を整えるべきです。夜間バッチ、MSGW、QSYSOPR、帳票、外部連携、バックアップを定量的に見ておくと、属人化した運用から抜け出しやすくなります。

見るべきKPI

KPI意味改善の方向
検知時間異常発生から気づくまでの時間MSGW・バッチ監視を強化する
通知時間担当者へ連絡されるまでの時間メール通知や連絡ルールを整える
一次切り分け時間原因候補を絞るまでの時間ジョブログ、メッセージID、手順書を整備する
復旧時間業務再開までの時間再実行、切戻し、復元手順を決める
再発件数同じ原因の障害が繰り返される件数恒久対応とテスト観点を強化する
手作業対応件数人の判断や補正が必要だった件数自動化・資料化・教育の対象にする

KPIを保守会議で使う

KPIは、責任追及のためではなく改善のために使います。検知が遅いなら監視、切り分けが遅いなら手順書、復旧が遅いなら再実行や復元、再発が多いなら恒久対応を見直します。

  • 今月のMSGW件数
  • 夜間バッチ遅延件数
  • 本番アベンド件数
  • 平均検知時間と最大検知時間
  • 再発障害と未完了の対策
  • AIやテンプレートで短縮できた調査時間

月次の確認は AS400保守会議の月次アジェンダ、日次監視は AS400日次運用監視チェックリストも参考にしてください。

再発防止に必要な記録

  • 障害発生日と検知時刻
  • メッセージIDとジョブログ
  • 業務影響と対象部門
  • 一次対応と復旧手順
  • 原因と恒久対応
  • 次回同じ障害が起きた時の確認手順

障害報告書の形に残す場合は AS400障害報告書テンプレート、MSGW・夜間バッチ検知は AS400 MSGW・夜間バッチ停止を早期検知する設計も確認してください。

まとめ

AS400障害検知のKPIは、検知時間、通知時間、一次切り分け時間、復旧時間、再発件数、手作業対応件数を見ると整理しやすくなります。数字で見ることで、監視、手順書、教育、AI活用の改善対象がはっきりします。