AS400 MSGW監視とメール通知の考え方|夜間バッチ停止を早く検知する仕組み

AS400 / IBM i の現場で多い相談の一つが、夜間バッチや本番ジョブがMSGWで止まっているのに、朝まで気づけない問題です。IBMの監視サービスを使う会社もありますが、現場では自社でMSGWを検知してメール通知する仕組みを作ることもあります。肌感覚では、現場の処理に合わせて作ったMSGW検知の方が、通知までが早いこともあります。

MSGW監視で決めること

確認見るもの判断
対象ジョブ夜間バッチ、本番更新、締め処理何を監視対象にするか
検知条件MSGW、待ち時間、重要ジョブ名通知する条件を絞るか
通知先保守担当、運用担当、利用部門誰が初動判断するか
返信ルールメッセージID、応答値、手順書適当に返信しない仕組みがあるか
記録発生時刻、返信内容、再実行結果あとで再発防止できるか

通知だけでは障害対応にならない

MSGWをメールで知らせるだけでは、まだ半分です。大切なのは、通知を受けた人がどのメッセージを見て、返信してよいのか、ジョブを止めるべきか、再実行前に何を確認するかを判断できることです。若手が適当に返信すると、後続処理やリカバリープログラムが必要になることがあります。

現場向けの通知文にする

通知メールには、ジョブ名、ユーザー、発生時刻、メッセージID、メッセージ本文、対象業務、確認先リンクを入れると実務で使いやすくなります。単に「MSGWが発生しました」だけでは、夜間に受けた担当者が判断できません。

夜間バッチ全体は AS400夜間バッチ障害対応フロー、ジョブスケジュールは AS400ジョブスケジュール運用チェックリスト、本番障害の初動は AS400本番障害の初動チェックリスト にまとめています。

Codexで使える部分

Codexには、匿名化したメッセージID、ジョブ名、通知文案、運用フローを渡すと、メール文面や対応チェックリストを整えやすくなります。本番メッセージへの返信やジョブ終了判断は、必ず人が行います。

関連: AS400のセキュリティ・運用改善・外部依頼を整理する場合は、AS400運用改善ロードマップ|夜間バッチ・障害対応・資料化を順番に整える も確認してください。

関連: AS400運用・障害対応の入口として、AS400障害報告書テンプレート|原因・影響・対応・再発防止を現場目線で整理する も追加しました。