AS400 / IBM i の現場で多い相談の一つが、夜間バッチや本番ジョブがMSGWで止まっているのに、朝まで気づけない問題です。IBMの監視サービスを使う会社もありますが、現場では自社でMSGWを検知してメール通知する仕組みを作ることもあります。肌感覚では、現場の処理に合わせて作ったMSGW検知の方が、通知までが早いこともあります。
MSGW監視で決めること
| 確認 | 見るもの | 判断 |
|---|---|---|
| 対象ジョブ | 夜間バッチ、本番更新、締め処理 | 何を監視対象にするか |
| 検知条件 | MSGW、待ち時間、重要ジョブ名 | 通知する条件を絞るか |
| 通知先 | 保守担当、運用担当、利用部門 | 誰が初動判断するか |
| 返信ルール | メッセージID、応答値、手順書 | 適当に返信しない仕組みがあるか |
| 記録 | 発生時刻、返信内容、再実行結果 | あとで再発防止できるか |
通知だけでは障害対応にならない
MSGWをメールで知らせるだけでは、まだ半分です。大切なのは、通知を受けた人がどのメッセージを見て、返信してよいのか、ジョブを止めるべきか、再実行前に何を確認するかを判断できることです。若手が適当に返信すると、後続処理やリカバリープログラムが必要になることがあります。
現場向けの通知文にする
通知メールには、ジョブ名、ユーザー、発生時刻、メッセージID、メッセージ本文、対象業務、確認先リンクを入れると実務で使いやすくなります。単に「MSGWが発生しました」だけでは、夜間に受けた担当者が判断できません。
夜間バッチ全体は AS400夜間バッチ障害対応フロー、ジョブスケジュールは AS400ジョブスケジュール運用チェックリスト、本番障害の初動は AS400本番障害の初動チェックリスト にまとめています。
Codexで使える部分
Codexには、匿名化したメッセージID、ジョブ名、通知文案、運用フローを渡すと、メール文面や対応チェックリストを整えやすくなります。本番メッセージへの返信やジョブ終了判断は、必ず人が行います。
関連: AS400のセキュリティ・運用改善・外部依頼を整理する場合は、AS400運用改善ロードマップ|夜間バッチ・障害対応・資料化を順番に整える も確認してください。
関連: AS400運用・障害対応の入口として、AS400障害報告書テンプレート|原因・影響・対応・再発防止を現場目線で整理する も追加しました。
